百度刚把 OCR 的天花板又捅破了一次
百度最近开源了一个叫 Unlimited OCR 的模型,参数是 30 亿(3B)。别看参数大,它干的事挺“狠”:专门用来啃那些几千页的论文、几十章的电子书。
上线才 5 天,GitHub 和 HuggingFace 上的星星直接飙到 10,000+。说实话,这速度有点吓人,毕竟之前长文档解析这块,大家普遍觉得是“硬骨头”,要么跑不动,要么解析一半就崩了。
1. 参数看着多,实际干活只占一点点
虽然总参数是 30 亿,但推理的时候,它只激活了约 5.7 亿。
这种“稀疏激活”的玩法很妙:平时只唤醒必要的部分,不用时让那 20 多亿参数“睡大觉”。既保留了大模型的聪明劲儿,又省下了不少算力钱。
2. 终于不用一页页“啃”了
传统 OCR 有个大毛病:喜欢一页一页地跑,最后再拼起来。一旦遇到跨页的表格或者复杂的逻辑,经常“断片”,连上下文都搞不定。
Unlimited OCR 搞了个新招,叫 参考滑动窗口注意力 (R-SWA)。
- 一次性读透几十页:它不再一页一页蹦,而是像读小说一样,把几十页一次性喂进去,逻辑连贯性瞬间拉满。
- 显存不随页数爆炸:以前文档越长,显存占得越多,内存直接爆。这个机制把 KV Cache(缓存)锁死在一个固定大小。不管你要它输出多少 Token,显存占用都稳如老狗。这才是真正的“无限”长文档。
3. 成绩确实有点东西
去 OmniDocBench v1.6 跑了一圈,得分 93.92%。这分数直接把之前的纪录甩在了身后,长文档 OCR 这个领域算是被彻底卷起来了。
4. 跑得比 DeepSeek 还快
很多人担心模型越大越慢,但这个模型反手就是一个加速:
- 跟 DeepSeek OCR 比,它的推理速度快了 12.7%。
- 要是输出长度到了 6000 Tokens(长文本场景),速度优势直接拉到 35%。
5. 到底解决了啥实际问题?
以前处理海量档案、古籍,要么等半天,要么认不全。现在这个模型出来,两件事能松口气:
- 海量文档数字化:不再是为了一页文档卡半天,效率提上来了,错误率也下来了。
- 大模型的“长期记忆”:现在的大模型上下文窗口动不动就 128k,但记不住细节。这个模型通过高效处理长上下文,算是给大模型做“长期记忆”提供了一条更可行的路。
总的来说,Unlimited OCR 的出现,至少让我们对长文档处理不再那么焦虑了。
