AI-NEWS · 2026年 2月 3日

DeepSeek OCR 2发布

DeepSeek 发布 OCR 2:视觉令牌消耗降低80%,文档解析能力超越 Gemini 3 Pro

发布日期:2026年2月2日
来源:AIbase Daily

核心摘要

中国领先的AI公司深度求索(DeepSeek)近期发布了全新的视觉编码器 DeepSeek OCR2。该模型在文档处理和图像识别领域取得重大突破,通过模拟人类视觉的灵活扫描模式,彻底颠覆了传统视觉模型的平面叙事处理逻辑。

技术突破:从机械扫描到逻辑理解

1. 架构创新

  • 核心理念:模拟人类眼睛根据内容灵活聚焦的观察方式。
  • 技术路径:摒弃传统的CLIP组件,采用轻量级语言模型架构。
  • 关键创新:引入 “因果流令牌”(causal flow tokens),根据上下文重组和整合视觉信息。
  • 效果:使AI能够像人类一样,基于内容含义而非固定网格顺序来“观察”世界。

2. 效率飞跃

  • 传统系统:处理单张图像通常需要 6000个以上 视觉令牌。
  • DeepSeek OCR2:仅需 256至1120个 视觉令牌。
  • 效率提升:视觉令牌消耗降低 超过80%
  • 实际优势:在处理长文档时,模型在成本和速度上具有显著优势。

性能表现:全面超越业界标杆

权威基准测试结果

  • 测试平台:OmniDocBench(权威文档处理基准)
  • 得分91.09分,创下新纪录。
  • 对比表现:在文档解析性能上 全面超越 Gemini 3 Pro
  • 具体优势:在文档解析和阅读顺序识别方面表现异常出色,准确率超过Gemini 3 Pro。

发布与开源

  • 当前状态:DeepSeek已公开模型的 代码和权重
  • 研究团队展望:此架构是实现统一多模态处理的重要一步,未来可能实现文本、语音和图像在同一框架内的深度融合。

关键要点总结

  1. 卓越效率:单图像视觉令牌需求大幅降低,资源消耗较同类系统减少约80%。
  2. 性能优势:在OmniDocBench测试中,文档解析准确率超越Gemini 3 Pro。
  3. 架构革新:通过“因果流令牌”重组视觉信息,实现了从机械扫描到逻辑内容理解的跨越。

本文由AIbase Daily团队整理。关注每日AI前沿动态,掌握行业技术趋势。

火龙果频道