全球中文大模型竞赛:海外巨头包揽前三,国产模型展现潜力
近日,SuperCLUE发布了《2025年度中文大模型基准报告》,引发了科技界的广泛关注。本次评估共有23个国内外大模型参与,覆盖了数学推理、科学推理、代码生成等六大核心维度。
评估结果总览
排名与得分
- Claude-Opus-4.5-Reasoning (Anthropic):68.25分
- Gemini-3-Pro-Preview (Google):65.59分
- GPT-5.2 (high) (OpenAI):64.32分
- Kimi-K2.5-Thinking (月之暗面,开源):61.50分
- (第五名信息未在材料中明确提及)
- Qwen3-Max-Thinking (通义千问,闭源):60.61分
核心结论:海外闭源模型(前三名)依然保持领先优势。然而,国产模型表现亮眼,尤其是开源模型势头强劲。
国产模型亮点分析
尽管在总分上暂居其后,但国产模型在特定领域展现了顶尖实力,实现了从“跟跑”到“并跑”的转变:
- 代码生成领先:Kimi-K2.5-Thinking在代码生成任务中以53.33分夺得单项第一。
- 数学推理并列冠军:Qwen3-Max-Thinking在数学推理任务中获得80.87分,与谷歌的Gemini-3-Pro-Preview并列榜首。
发展趋势与展望
- 开源力量凸显:在总分前五名中,国产开源模型占据绝对优势,显示了国内开源生态的强大活力和潜力。
- 追赶速度加快:国产模型在核心能力上的突破,表明其技术追赶正在加速。
- 未来可期:随着国内研发持续投入与技术迭代,中文大模型领域有望在不久的未来带来更多惊喜与挑战。
报告来源:SuperCLUE
信息发布日期:2026年2月4日
