DeepSeek 发布 OCR 2:视觉令牌消耗降低80%,文档解析能力超越 Gemini 3 Pro
发布日期:2026年2月2日
来源:AIbase Daily
核心摘要
中国领先的AI公司深度求索(DeepSeek)近期发布了全新的视觉编码器 DeepSeek OCR2。该模型在文档处理和图像识别领域取得重大突破,通过模拟人类视觉的灵活扫描模式,彻底颠覆了传统视觉模型的平面叙事处理逻辑。
技术突破:从机械扫描到逻辑理解
1. 架构创新
- 核心理念:模拟人类眼睛根据内容灵活聚焦的观察方式。
- 技术路径:摒弃传统的CLIP组件,采用轻量级语言模型架构。
- 关键创新:引入 “因果流令牌”(causal flow tokens),根据上下文重组和整合视觉信息。
- 效果:使AI能够像人类一样,基于内容含义而非固定网格顺序来“观察”世界。
2. 效率飞跃
- 传统系统:处理单张图像通常需要 6000个以上 视觉令牌。
- DeepSeek OCR2:仅需 256至1120个 视觉令牌。
- 效率提升:视觉令牌消耗降低 超过80%。
- 实际优势:在处理长文档时,模型在成本和速度上具有显著优势。
性能表现:全面超越业界标杆
权威基准测试结果
- 测试平台:OmniDocBench(权威文档处理基准)
- 得分:91.09分,创下新纪录。
- 对比表现:在文档解析性能上 全面超越 Gemini 3 Pro。
- 具体优势:在文档解析和阅读顺序识别方面表现异常出色,准确率超过Gemini 3 Pro。
发布与开源
- 当前状态:DeepSeek已公开模型的 代码和权重。
- 研究团队展望:此架构是实现统一多模态处理的重要一步,未来可能实现文本、语音和图像在同一框架内的深度融合。
关键要点总结
- 卓越效率:单图像视觉令牌需求大幅降低,资源消耗较同类系统减少约80%。
- 性能优势:在OmniDocBench测试中,文档解析准确率超越Gemini 3 Pro。
- 架构革新:通过“因果流令牌”重组视觉信息,实现了从机械扫描到逻辑内容理解的跨越。
本文由AIbase Daily团队整理。关注每日AI前沿动态,掌握行业技术趋势。
