AI-NEWS · 2026年 2月 5日

全球中文模型赛 海外三强领先

全球中文大模型竞赛:海外巨头包揽前三,国产模型展现潜力

近日,SuperCLUE发布了《2025年度中文大模型基准报告》,引发了科技界的广泛关注。本次评估共有23个国内外大模型参与,覆盖了数学推理、科学推理、代码生成等六大核心维度。

评估结果总览

排名与得分

  1. Claude-Opus-4.5-Reasoning (Anthropic):68.25分
  2. Gemini-3-Pro-Preview (Google):65.59分
  3. GPT-5.2 (high) (OpenAI):64.32分
  4. Kimi-K2.5-Thinking (月之暗面,开源):61.50分
  5. (第五名信息未在材料中明确提及)
  6. Qwen3-Max-Thinking (通义千问,闭源):60.61分

核心结论:海外闭源模型(前三名)依然保持领先优势。然而,国产模型表现亮眼,尤其是开源模型势头强劲。

国产模型亮点分析

尽管在总分上暂居其后,但国产模型在特定领域展现了顶尖实力,实现了从“跟跑”到“并跑”的转变:

  1. 代码生成领先:Kimi-K2.5-Thinking在代码生成任务中以53.33分夺得单项第一。
  2. 数学推理并列冠军:Qwen3-Max-Thinking在数学推理任务中获得80.87分,与谷歌的Gemini-3-Pro-Preview并列榜首。

发展趋势与展望

  1. 开源力量凸显:在总分前五名中,国产开源模型占据绝对优势,显示了国内开源生态的强大活力和潜力。
  2. 追赶速度加快:国产模型在核心能力上的突破,表明其技术追赶正在加速。
  3. 未来可期:随着国内研发持续投入与技术迭代,中文大模型领域有望在不久的未来带来更多惊喜与挑战。

报告来源:SuperCLUE
信息发布日期:2026年2月4日

火龙果频道