古文字 OCR 评测：大模型翻车实录

1. 核心事件：打破技术幻想，直面历史挑战

顶尖人工智能不仅要能看懂现代屏幕上的代码，还得能认出三千年前刻在龟甲上的字。

由腾讯混元大模型、SSV 数字文化实验室联合几所高校和故宫博物院，共同推出了一套新的评测工具："Chronicles-OCR"。这是目前首个专门针对“汉字七种字体”演变过程的中文古文字评测基准。

Chronicles-OCR 基准数据集示意图

现在的视觉大模型有个通病：一看现代排版就顺眼，一旦遇到古代书法，基本就是“睁眼瞎”。

Chronicles-OCR 的开源就是为了给行业做个“体检”。它用实测数据告诉开发者：你们在处理古文字时，到底差得有多远，以及未来该往哪个方向努力，才能从简单的“认字”进化到真正的“读史”。

为了让测试结果站得住脚，这个数据集请了多领域的专家进行交叉标注，最后筛出了 2,800 张高质量图片，而且特意保证了各类字体的数量平衡。

字体类别	标注粒度	处理方式
甲骨文、金文、小篆	字符级 (Character-level)	标得很细，精确到每一个字
隶书、楷书、行书、草书	序列级 (Sequence-level)	按阅读顺序转写，保留原本怎么读的逻辑

这种设计挺有意思：既考模型能不能看清微小的笔画细节，又看它懂不懂古文字的阅读逻辑。

项目组基于这个基准设计了四个核心任务，把大模型的“看图”能力和“推理”能力分开测。

结果？挺让人意外的。我们对 28 款主流多模态大模型（包括 GPT-5、Gemini 3.1 Pro、Claude Opus 4.7 等）跑了一遍，发现它们几乎全挂了：

端到端检测任务彻底失败：面对那些没有现代排版习惯的古文字，主流大模型完全没法直接定位出字在哪里。
准确率极低：哪怕是表现最好的那个模型，细粒度识别的准确率最高也才 27.1%。这数字看着挺尴尬的。
让模型“动脑子”反而坏事：实验发现，如果你开启大模型的“推理模式”（Reasoning Mode），不仅没帮上忙，反而让它更不确定了，识别性能直接掉下去。

这次评测暴露了当前视觉大模型在处理古文字时的两个硬伤：

看不懂细微的笔画：
模型更倾向于识别载体本身的纹理（比如龟甲的裂纹、青铜器的锈迹），却分不清具体的笔画风格。这意味着，现在的顶尖 AI 距离真正“理解”中国传统古文字，还差得远呢。
“认字”代替了“读史”：
汉字从殷商甲骨文演变到现在，每一笔都连着文明的脉络。Chronicles-OCR 的开源就是要把现实摆到台面上：目前的差距太明显了，未来视觉大模型必须解决的核心问题，是如何从单纯识别字符，进化到理解背后的历史和文化语境。

去魅：这次评测给公众泼了盆冷水，打破了那种“万能型”视觉大模型的幻想。事实证明，在古文字这种垂直、冷门且没有现代参考标准的领域，通用大模型目前根本没法靠谱地用。
方向：对 AI 开发者来说，别再盲目堆算力或者指望通用推理了。未来的重点应该转向针对特定历史时期、特定笔触风格的专用视觉特征提取，以及语义对齐研究。
合作：这种技术突破得靠产学研用一起上。这次由腾讯、SSV 及故宫等机构联合攻关的模式，确实是解决这类高难度文化科技命题的一条可行路。