DeepSeek-OCR 2 正式发布:引入视觉因果流,让文档识别更贴近人类逻辑
发布日期:2026年1月27日
来源:AIbase Daily
核心摘要
深度求索公司正式发布了新一代文档识别模型 DeepSeek-OCR 2。该模型在视觉编码器设计上取得重大突破,旨在解决传统模型在处理复杂文档版面时缺乏逻辑结构的问题。
技术亮点:视觉因果流
传统方法的局限
传统视觉模型通常按照固定的网格顺序(从左到右、从上到下)处理图像,这种机械化的方式在处理表格、公式和复杂排版文档时,难以理解其内在的逻辑结构。
DeepSeek-OCR 2 的创新
新模型的核心是其自研的 DeepEncoder V2 编码器,引入了 “视觉因果流” 概念:
- 动态调整处理顺序:能够根据图像语义动态调整信息处理顺序
- 智能视觉内容排序:在识别文本前,先对视觉内容进行智能排序
- 更贴近人类逻辑:使机器的阅读逻辑更符合人类对复杂文档的理解方式
架构与性能
模型架构
- 编码器-解码器框架:继续采用高效的编码器-解码器架构
- DeepEncoder V2:负责语义建模和重新排序
- MoE 语言模型解码:由混合专家模型进行解码
性能数据
在 OmniDocBench v1.5 基准测试中:
- 总体得分:91.09 分
- 相比前代提升:3.73 分
- 阅读顺序准确性:编辑距离显著降低,表明模型还原内容结构的能力更强
实际应用优势
稳定性提升
- PDF 批处理测试:识别重复率显著下降
- 在线日志数据测试:表现更加稳定
效率与质量平衡
- 高质量输出:提供更高质量、更具逻辑性的识别结果
- 低资源消耗:在保持低资源消耗的同时实现性能提升
关键要点总结
-
动态语义排序
- 通过“视觉因果流”技术打破传统固定网格识别顺序
- 实现基于语义的动态阅读
-
跨越式性能提升
- 在权威基准测试中,识别性能提升 3.73 分
- 阅读顺序准确性显著增强
-
高效 MoE 架构
- 继续使用 MoE 架构进行解码
- 在不增加计算负载的情况下实现更高的识别准确性和可靠性
行业意义
DeepSeek-OCR 2 的发布标志着文档识别技术向更智能、更人性化的方向迈进了一大步。其创新的视觉因果流方法为解决复杂文档理解这一长期挑战提供了新的思路,有望在金融、法律、学术研究等需要处理大量复杂文档的领域发挥重要作用。
本文由 AIbase Daily 团队整理,聚焦 AI 领域技术趋势与创新应用。
