AI-NEWS · 2026年 2月 3日

DeepSeek OCR 2发布

DeepSeek 发布 OCR 2：视觉令牌消耗降低80%，文档解析能力超越 Gemini 3 Pro

发布日期：2026年2月2日
来源：AIbase Daily

核心摘要

中国领先的AI公司深度求索（DeepSeek）近期发布了全新的视觉编码器 DeepSeek OCR2。该模型在文档处理和图像识别领域取得重大突破，通过模拟人类视觉的灵活扫描模式，彻底颠覆了传统视觉模型的平面叙事处理逻辑。

技术突破：从机械扫描到逻辑理解

1. 架构创新

核心理念：模拟人类眼睛根据内容灵活聚焦的观察方式。
技术路径：摒弃传统的CLIP组件，采用轻量级语言模型架构。
关键创新：引入 “因果流令牌”（causal flow tokens），根据上下文重组和整合视觉信息。
效果：使AI能够像人类一样，基于内容含义而非固定网格顺序来“观察”世界。

2. 效率飞跃

传统系统：处理单张图像通常需要 6000个以上 视觉令牌。
DeepSeek OCR2：仅需 256至1120个 视觉令牌。
效率提升：视觉令牌消耗降低 超过80%。
实际优势：在处理长文档时，模型在成本和速度上具有显著优势。

性能表现：全面超越业界标杆

权威基准测试结果

测试平台：OmniDocBench（权威文档处理基准）
得分：91.09分，创下新纪录。
对比表现：在文档解析性能上 全面超越 Gemini 3 Pro。
具体优势：在文档解析和阅读顺序识别方面表现异常出色，准确率超过Gemini 3 Pro。

发布与开源

当前状态：DeepSeek已公开模型的 代码和权重。
研究团队展望：此架构是实现统一多模态处理的重要一步，未来可能实现文本、语音和图像在同一框架内的深度融合。

关键要点总结

卓越效率：单图像视觉令牌需求大幅降低，资源消耗较同类系统减少约80%。
性能优势：在OmniDocBench测试中，文档解析准确率超越Gemini 3 Pro。
架构革新：通过“因果流令牌”重组视觉信息，实现了从机械扫描到逻辑内容理解的跨越。

本文由AIbase Daily团队整理。关注每日AI前沿动态，掌握行业技术趋势。

火龙果频道

您可能还喜欢...