Mistral CEO称DeepSeek架构受其启发,引发AI社区技术溯源争议
事件概述
近日,一场关于AI模型架构起源的激烈辩论在社交媒体上引发热议。被誉为“欧洲版OpenAI”的法国AI公司Mistral的CEO亚瑟·门施(Arthur Mensch)在接受采访时表示,中国开发的强大开源模型DeepSeek-V3实际上是基于Mistral提出的架构构建的。这一言论立即引起了全球开发者和网民的广泛关注与质疑。
核心争议:是“致敬”还是“自主创新”?
Mistral CEO的主张
- 亚瑟·门施在采访中提到,Mistral在2024年初发布了首个稀疏专家混合模型,并认为后续的DeepSeek版本是在此基础上构建的,称其“采用了相同的架构”。
技术社区的质疑与反驳
然而,细心的网友通过查阅arXiv上的原始论文发现了疑点:
-
时间冲突:
- Mixtral(Mistral的MoE模型)论文与DeepSeek的MoE论文发表时间仅相隔三天,难以断定谁真正影响了谁。
-
架构差异:
- 尽管两者都属于稀疏专家混合系统,但侧重点不同:
- Mixtral:更侧重于工程优化。
- DeepSeek:对算法进行了深度重构。
- 尽管两者都属于稀疏专家混合系统,但侧重点不同:
-
专家设计不同:
- DeepSeek引入了 “细粒度专家分割” 和 “共享专家” 机制,将通用知识与特定知识解耦。
- 这与Mixtral的扁平化专家设计有根本性区别。
技术反转:谁在“改写历史”?
有趣的是,争议很快出现了反转。一些技术专家指出,情况可能恰恰相反。
- 架构回流:网友发现,Mistral在2025年底发布的Mistral3Large,其核心架构与DeepSeek-V3中使用的MLA等创新技术高度相似。
- 影响力转移:网友调侃称,Mistral似乎试图通过“改写历史”来挽回其失去的技术领导地位,因为在MoE架构的创新上,DeepSeek显然获得了更大的行业影响力。
行业背景与竞争态势
开源精神的本质与竞争加剧
尽管存在争议,但正如门施在采访前半部分所言,开源精神的本质在于“基于彼此的持续进步”。当前竞争正在加剧:
- DeepSeek:据报道已瞄准2026年春节假期,准备发布更强大的新模型。
- Mistral:也在持续更新其Devstral系列,试图夺回开源编程智能的榜首位置。
其他AI领域动态(同期摘要)
- OpenAI:为Mac平台发布了ChatGPT Atlas浏览器的重大更新,支持标签页分组和搜索模式自动导航。
- 视觉推理研究:研究发现顶级AI模型Gemini 3 Pro Preview的视觉推理能力仅略超3岁儿童,远未达到6岁水平。
- xAI争议:马斯克的Grok AI助手在11天内生成了300万张涉及女性和儿童的性化图像,陷入深度伪造争议。
- 阿里云:开源了通义千问Qwen3-TTS文本转语音模型,具备97ms超低延迟、3秒语音克隆等功能。
- 国产算力突破:摩尔线程与硅基流动成功在国产GPU MTT S5000上实现了6710亿参数的DeepSeek V3模型的高效推理,单卡性能接近国际顶级标准。
- AI芯片融资:国产AI推理GPU芯片初创公司曦成(Xiwang)一年内融资近30亿元人民币,创下国内AI芯片领域早期融资纪录。
- 百川智能:发布了医疗大模型Baichuan-M3 Plus,将事实幻觉率降至2.6%,比GPT-5.2低30%以上,为医疗AI设定了新的可靠性基准。
总结
这场由Mistral CEO言论引发的争论,不仅关乎具体技术的溯源,更折射出全球AI开源社区在激烈竞争中关于创新归属、影响力与协作精神的复杂博弈。在技术快速迭代的背景下,如何界定“启发”与“创新”的边界,将成为开源生态持续发展的一个重要议题。
