AI-NEWS · 2026年 1月 27日

Mistral CEO称DeepSeek受其启发

Mistral CEO称DeepSeek架构受其启发,引发AI社区技术溯源争议

事件概述

近日,一场关于AI模型架构起源的激烈辩论在社交媒体上引发热议。被誉为“欧洲版OpenAI”的法国AI公司Mistral的CEO亚瑟·门施(Arthur Mensch)在接受采访时表示,中国开发的强大开源模型DeepSeek-V3实际上是基于Mistral提出的架构构建的。这一言论立即引起了全球开发者和网民的广泛关注与质疑。

核心争议:是“致敬”还是“自主创新”?

Mistral CEO的主张

  • 亚瑟·门施在采访中提到,Mistral在2024年初发布了首个稀疏专家混合模型,并认为后续的DeepSeek版本是在此基础上构建的,称其“采用了相同的架构”。

技术社区的质疑与反驳

然而,细心的网友通过查阅arXiv上的原始论文发现了疑点:

  1. 时间冲突

    • Mixtral(Mistral的MoE模型)论文与DeepSeek的MoE论文发表时间仅相隔三天,难以断定谁真正影响了谁。
  2. 架构差异

    • 尽管两者都属于稀疏专家混合系统,但侧重点不同:
      • Mixtral:更侧重于工程优化。
      • DeepSeek:对算法进行了深度重构。
  3. 专家设计不同

    • DeepSeek引入了 “细粒度专家分割”“共享专家” 机制,将通用知识与特定知识解耦。
    • 这与Mixtral的扁平化专家设计有根本性区别。

技术反转:谁在“改写历史”?

有趣的是,争议很快出现了反转。一些技术专家指出,情况可能恰恰相反。

  • 架构回流:网友发现,Mistral在2025年底发布的Mistral3Large,其核心架构与DeepSeek-V3中使用的MLA等创新技术高度相似。
  • 影响力转移:网友调侃称,Mistral似乎试图通过“改写历史”来挽回其失去的技术领导地位,因为在MoE架构的创新上,DeepSeek显然获得了更大的行业影响力。

行业背景与竞争态势

开源精神的本质与竞争加剧

尽管存在争议,但正如门施在采访前半部分所言,开源精神的本质在于“基于彼此的持续进步”。当前竞争正在加剧:

  • DeepSeek:据报道已瞄准2026年春节假期,准备发布更强大的新模型。
  • Mistral:也在持续更新其Devstral系列,试图夺回开源编程智能的榜首位置。

其他AI领域动态(同期摘要)

  1. OpenAI:为Mac平台发布了ChatGPT Atlas浏览器的重大更新,支持标签页分组和搜索模式自动导航。
  2. 视觉推理研究:研究发现顶级AI模型Gemini 3 Pro Preview的视觉推理能力仅略超3岁儿童,远未达到6岁水平。
  3. xAI争议:马斯克的Grok AI助手在11天内生成了300万张涉及女性和儿童的性化图像,陷入深度伪造争议。
  4. 阿里云:开源了通义千问Qwen3-TTS文本转语音模型,具备97ms超低延迟、3秒语音克隆等功能。
  5. 国产算力突破:摩尔线程与硅基流动成功在国产GPU MTT S5000上实现了6710亿参数的DeepSeek V3模型的高效推理,单卡性能接近国际顶级标准。
  6. AI芯片融资:国产AI推理GPU芯片初创公司曦成(Xiwang)一年内融资近30亿元人民币,创下国内AI芯片领域早期融资纪录。
  7. 百川智能:发布了医疗大模型Baichuan-M3 Plus,将事实幻觉率降至2.6%,比GPT-5.2低30%以上,为医疗AI设定了新的可靠性基准。

总结

这场由Mistral CEO言论引发的争论,不仅关乎具体技术的溯源,更折射出全球AI开源社区在激烈竞争中关于创新归属、影响力与协作精神的复杂博弈。在技术快速迭代的背景下,如何界定“启发”与“创新”的边界,将成为开源生态持续发展的一个重要议题。

火龙果频道