AI-NEWS · 2026年 2月 14日

Gemini 3发布 编程研究领先

谷歌发布Gemini 3 Deep Think:仅7人能击败的编程与科研新王者

发布日期:2026年2月13日
来源:AIbase Daily

核心摘要

谷歌对其深度推理模型Gemini 3 Deep Think进行了重大升级。该模型在编程、科学研究及硬核工程领域展现出“冠军级”能力,标志着AI推理能力进入新维度。

关键性能突破

1. 编程领域:跻身顶级人类选手行列

  • Codeforces平台Elo评分:达到3455分
  • 对比数据:一年前最强的o3模型得分为2727分。
  • 实力定位:全球仅7位人类选手能在该平台上击败它,已进入顶尖人类竞赛者梯队。

2. 科学研究:展现强大逻辑严谨性

  • 学术审查能力:在一篇高水平的物理学与数学论文中,发现了连人类同行评审都忽略的细微缺陷。
  • 难题证明:成功证明了“埃尔德什猜想”中的数个难题。

3. 工程应用:实现从草图到产品的飞跃

  • 功能描述:能够直接将手绘草图分析并渲染成高保真3D模型文件(例如笔记本支架)。
  • 效率提升:将实体部件建模效率提升十倍

4. 基准测试全面领先

  • “最后人类考试”(HLE) 得分:48.4分
  • ARC-AGI-2基准测试 准确率:以84.6% 的准确率领先。

发布与访问

  • 体验开放:新版本已向AI Ultra订阅用户开放体验。
  • API访问:谷歌首次通过API向部分研究人员和公司提供访问权限。

行业意义

此次Gemini的史诗级进化,被视为对竞争对手推理模型的强势回应。


本文由AIbase Daily团队整理。内容聚焦于AI领域的技术趋势与产品应用,服务于开发者社区。

火龙果频道