百度开源 Unlimited OCR：5 天 1 万 Star

百度刚把 OCR 的天花板又捅破了一次

百度最近开源了一个叫 Unlimited OCR 的模型，参数是 30 亿（3B）。别看参数大，它干的事挺“狠”：专门用来啃那些几千页的论文、几十章的电子书。

上线才 5 天，GitHub 和 HuggingFace 上的星星直接飙到 10,000+。说实话，这速度有点吓人，毕竟之前长文档解析这块，大家普遍觉得是“硬骨头”，要么跑不动，要么解析一半就崩了。

虽然总参数是 30 亿，但推理的时候，它只激活了约 5.7 亿。
这种“稀疏激活”的玩法很妙：平时只唤醒必要的部分，不用时让那 20 多亿参数“睡大觉”。既保留了大模型的聪明劲儿，又省下了不少算力钱。

传统 OCR 有个大毛病：喜欢一页一页地跑，最后再拼起来。一旦遇到跨页的表格或者复杂的逻辑，经常“断片”，连上下文都搞不定。

Unlimited OCR 搞了个新招，叫 参考滑动窗口注意力 (R-SWA)。

一次性读透几十页：它不再一页一页蹦，而是像读小说一样，把几十页一次性喂进去，逻辑连贯性瞬间拉满。
显存不随页数爆炸：以前文档越长，显存占得越多，内存直接爆。这个机制把 KV Cache（缓存）锁死在一个固定大小。不管你要它输出多少 Token，显存占用都稳如老狗。这才是真正的“无限”长文档。

去 OmniDocBench v1.6 跑了一圈，得分 93.92%。这分数直接把之前的纪录甩在了身后，长文档 OCR 这个领域算是被彻底卷起来了。

很多人担心模型越大越慢，但这个模型反手就是一个加速：

以前处理海量档案、古籍，要么等半天，要么认不全。现在这个模型出来，两件事能松口气：

海量文档数字化：不再是为了一页文档卡半天，效率提上来了，错误率也下来了。
大模型的“长期记忆”：现在的大模型上下文窗口动不动就 128k，但记不住细节。这个模型通过高效处理长上下文，算是给大模型做“长期记忆”提供了一条更可行的路。

总的来说，Unlimited OCR 的出现，至少让我们对长文档处理不再那么焦虑了。