AI-NEWS · 2024年 12月 27日

DeepSeek-V3:超越Llama和Qwen的超大规模开源AI模型发布 简化后的新标题: DeepSeek-V3发布,超越Llama和Qwen

DeepSeek-V3 发布:挑战领先AI供应商的开源创新

发布时间: 2024年12月26日
公司: DeepSeek (中国人工智能初创公司)

模型概述

DeepSeek-V3 是最新发布的大规模模型,拥有 6710 亿个参数,并采用混合专家(MoE)架构来提高任务处理的准确性和效率。根据官方提供的基准测试数据,该模型超越了Meta的Llama3.1-405B等领先的开源模型,并与Anthropic和OpenAI的封闭模型表现相当。

主要特点

  • 技术基础:基于多头潜在注意力(MLA)和DeepSeekMoE架构。
  • 创新点
    • 无损辅助负载平衡策略。
    • 多令牌预测 (MTP),支持同时预测多个未来标记,提高了训练效率,使模型生成速度达到每秒60个标记。

训练过程

  • 在预训练阶段,DeepSeek-V3 在14.8万亿高质量和多样化的标记上进行训练,并经历了两次上下文长度扩展。
  • 使用FP8混合精度训练框架和DualPipe算法优化了硬件和算法,减少了训练成本。整个训练过程仅用了278.8万H800 GPU小时(约557万)。

性能对比

  • DeepSeek-V3 在多项基准测试中表现优于封闭源GPT-4o,尤其是在中文和数学领域。
  • Math-500 测试中得分90.2分(Qwen得分为80),而SimpleQA和FRAMES测试中OpenAI模型分别以38.2和80.5的得分领先。

开发与商业使用

  • 源代码在GitHub上开源,MIT许可。
  • 商业用户可通过DeepSeek Chat平台或API进行访问。直到2月8日,费用同V2版本;之后输入标记费用为每百万0.27(缓存命中时为0.07),输出标记费用为每百万1.1。

关键亮点

  • DeepSeek-V3 发布后表现优于Llama和Qwen。
  • 671亿参数,采用混合专家架构提高了效率。
  • 创新包括无损负载平衡策略和多令牌预测以提升速度。
  • 显著减少训练成本,促进开源AI的发展。

版权声明: AIbase Base 2024

Source:https://www.aibase.com/news/14298