AI-NEWS · 2025年 11月 13日

双子座3号破译古卷

Gemini 3在历史手稿解读领域首次接近人类专家水平

测试概况

  • 测试时间:2025年11月12日
  • 测试内容:50份英文学术手写样本,约10,000词
  • 测试特点:涵盖多种复杂书写体和不同成像条件

性能突破

错误率显著降低

  • 字符错误率(CER):0.56%
  • 单词错误率(WER):1.22%
  • 达到水平:接近或达到专业人类转录员水平

与前代模型对比

模型版本 CER WER 排除标点和大写后的CER/WER
Gemini-2.5-Pro 4% 11% 2%/4%
Gemini3 0.56% 1.22%

改进幅度:错误率降至原模型的17%-19%,提升幅度达50%-70%

核心突破:从识别到理解

超越传统局限

传统大语言模型在以下高模糊场景表现不佳:

  • 非常规拼写
  • 长s字符(ſ)
  • 模糊标点
  • 历史计量单位

涌现推理能力

Gemini3展现出令人印象深刻的隐性推理能力:

  • 识别未经训练的复杂手写表格
  • 表现优于接受过专业训练的学生
  • 能够自主补全模糊数字的上下文
  • 完成跨历史货币和重量单位的多步转换
  • 最终得出正确结论

技术意义

研究人员惊讶地发现,Gemini3似乎跨越了专家们长期认为"当前架构无法逾越"的界限。在纯统计框架内,感知、记忆和逻辑的自组织整合正在发生,这可能标志着新型隐性推理机制的诞生。

行业影响

从"无法阅读古籍"到"能够推理历史逻辑",Gemini3正在重新定义AI在人文学科中的边界。

火龙果频道