谷歌发布Gemini 3 Deep Think:仅7人能击败的编程与科研新王者
发布日期:2026年2月13日
来源:AIbase Daily
核心摘要
谷歌对其深度推理模型Gemini 3 Deep Think进行了重大升级。该模型在编程、科学研究及硬核工程领域展现出“冠军级”能力,标志着AI推理能力进入新维度。
关键性能突破
1. 编程领域:跻身顶级人类选手行列
- Codeforces平台Elo评分:达到3455分。
- 对比数据:一年前最强的o3模型得分为2727分。
- 实力定位:全球仅7位人类选手能在该平台上击败它,已进入顶尖人类竞赛者梯队。
2. 科学研究:展现强大逻辑严谨性
- 学术审查能力:在一篇高水平的物理学与数学论文中,发现了连人类同行评审都忽略的细微缺陷。
- 难题证明:成功证明了“埃尔德什猜想”中的数个难题。
3. 工程应用:实现从草图到产品的飞跃
- 功能描述:能够直接将手绘草图分析并渲染成高保真3D模型文件(例如笔记本支架)。
- 效率提升:将实体部件建模效率提升十倍。
4. 基准测试全面领先
- “最后人类考试”(HLE) 得分:48.4分。
- ARC-AGI-2基准测试 准确率:以84.6% 的准确率领先。
发布与访问
- 体验开放:新版本已向AI Ultra订阅用户开放体验。
- API访问:谷歌首次通过API向部分研究人员和公司提供访问权限。
行业意义
此次Gemini的史诗级进化,被视为对竞争对手推理模型的强势回应。
本文由AIbase Daily团队整理。内容聚焦于AI领域的技术趋势与产品应用,服务于开发者社区。
