1. 核心事件:打破技术幻想,直面历史挑战
顶尖人工智能不仅要能看懂现代屏幕上的代码,还得能认出三千年前刻在龟甲上的字。
由腾讯混元大模型、SSV 数字文化实验室联合几所高校和故宫博物院,共同推出了一套新的评测工具:"Chronicles-OCR"。这是目前首个专门针对“汉字七种字体”演变过程的中文古文字评测基准。

为什么需要这个基准?
现在的视觉大模型有个通病:一看现代排版就顺眼,一旦遇到古代书法,基本就是“睁眼瞎”。
Chronicles-OCR 的开源就是为了给行业做个“体检”。它用实测数据告诉开发者:你们在处理古文字时,到底差得有多远,以及未来该往哪个方向努力,才能从简单的“认字”进化到真正的“读史”。
2. 数据集构建:严谨与精细并存
为了让测试结果站得住脚,这个数据集请了多领域的专家进行交叉标注,最后筛出了 2,800 张高质量图片,而且特意保证了各类字体的数量平衡。
| 字体类别 | 标注粒度 | 处理方式 |
|---|---|---|
| 甲骨文、金文、小篆 | 字符级 (Character-level) | 标得很细,精确到每一个字 |
| 隶书、楷书、行书、草书 | 序列级 (Sequence-level) | 按阅读顺序转写,保留原本怎么读的逻辑 |
这种设计挺有意思:既考模型能不能看清微小的笔画细节,又看它懂不懂古文字的阅读逻辑。
3. 评测结果:主流模型全面溃败
项目组基于这个基准设计了四个核心任务,把大模型的“看图”能力和“推理”能力分开测。
结果?挺让人意外的。我们对 28 款主流多模态大模型(包括 GPT-5、Gemini 3.1 Pro、Claude Opus 4.7 等)跑了一遍,发现它们几乎全挂了:
- 端到端检测任务彻底失败:面对那些没有现代排版习惯的古文字,主流大模型完全没法直接定位出字在哪里。
- 准确率极低:哪怕是表现最好的那个模型,细粒度识别的准确率最高也才 27.1%。这数字看着挺尴尬的。
- 让模型“动脑子”反而坏事:实验发现,如果你开启大模型的“推理模式”(Reasoning Mode),不仅没帮上忙,反而让它更不确定了,识别性能直接掉下去。
4. 深度分析:技术短板的本质
这次评测暴露了当前视觉大模型在处理古文字时的两个硬伤:
-
看不懂细微的笔画:
模型更倾向于识别载体本身的纹理(比如龟甲的裂纹、青铜器的锈迹),却分不清具体的笔画风格。这意味着,现在的顶尖 AI 距离真正“理解”中国传统古文字,还差得远呢。 -
“认字”代替了“读史”:
汉字从殷商甲骨文演变到现在,每一笔都连着文明的脉络。Chronicles-OCR 的开源就是要把现实摆到台面上:目前的差距太明显了,未来视觉大模型必须解决的核心问题,是如何从单纯识别字符,进化到理解背后的历史和文化语境。
5. 行业启示
- 去魅:这次评测给公众泼了盆冷水,打破了那种“万能型”视觉大模型的幻想。事实证明,在古文字这种垂直、冷门且没有现代参考标准的领域,通用大模型目前根本没法靠谱地用。
- 方向:对 AI 开发者来说,别再盲目堆算力或者指望通用推理了。未来的重点应该转向针对特定历史时期、特定笔触风格的专用视觉特征提取,以及语义对齐研究。
- 合作:这种技术突破得靠产学研用一起上。这次由腾讯、SSV 及故宫等机构联合攻关的模式,确实是解决这类高难度文化科技命题的一条可行路。
