AI-NEWS · 2026年 6月 30日

百度开源 Unlimited OCR:5 天 1 万 Star

百度刚把 OCR 的天花板又捅破了一次

百度最近开源了一个叫 Unlimited OCR 的模型,参数是 30 亿(3B)。别看参数大,它干的事挺“狠”:专门用来啃那些几千页的论文、几十章的电子书。

上线才 5 天,GitHub 和 HuggingFace 上的星星直接飙到 10,000+。说实话,这速度有点吓人,毕竟之前长文档解析这块,大家普遍觉得是“硬骨头”,要么跑不动,要么解析一半就崩了。

1. 参数看着多,实际干活只占一点点

虽然总参数是 30 亿,但推理的时候,它只激活了约 5.7 亿
这种“稀疏激活”的玩法很妙:平时只唤醒必要的部分,不用时让那 20 多亿参数“睡大觉”。既保留了大模型的聪明劲儿,又省下了不少算力钱。

2. 终于不用一页页“啃”了

传统 OCR 有个大毛病:喜欢一页一页地跑,最后再拼起来。一旦遇到跨页的表格或者复杂的逻辑,经常“断片”,连上下文都搞不定。

Unlimited OCR 搞了个新招,叫 参考滑动窗口注意力 (R-SWA)

  • 一次性读透几十页:它不再一页一页蹦,而是像读小说一样,把几十页一次性喂进去,逻辑连贯性瞬间拉满。
  • 显存不随页数爆炸:以前文档越长,显存占得越多,内存直接爆。这个机制把 KV Cache(缓存)锁死在一个固定大小。不管你要它输出多少 Token,显存占用都稳如老狗。这才是真正的“无限”长文档。

3. 成绩确实有点东西

OmniDocBench v1.6 跑了一圈,得分 93.92%。这分数直接把之前的纪录甩在了身后,长文档 OCR 这个领域算是被彻底卷起来了。

4. 跑得比 DeepSeek 还快

很多人担心模型越大越慢,但这个模型反手就是一个加速:

  • DeepSeek OCR 比,它的推理速度快了 12.7%
  • 要是输出长度到了 6000 Tokens(长文本场景),速度优势直接拉到 35%

5. 到底解决了啥实际问题?

以前处理海量档案、古籍,要么等半天,要么认不全。现在这个模型出来,两件事能松口气:

  1. 海量文档数字化:不再是为了一页文档卡半天,效率提上来了,错误率也下来了。
  2. 大模型的“长期记忆”:现在的大模型上下文窗口动不动就 128k,但记不住细节。这个模型通过高效处理长上下文,算是给大模型做“长期记忆”提供了一条更可行的路。

总的来说,Unlimited OCR 的出现,至少让我们对长文档处理不再那么焦虑了。

火龙果频道