DeepSeek发布全新3B OCR模型：高效文档解析的革命性突破

模型概述

DeepSeek公司近期推出名为"DeepSeek-OCR"的新型光学字符识别模型。这是一个端到端的视觉语言模型，专门设计用于高效解析文档，通过将长文本压缩为少量视觉标记，然后使用语言模型进行解码。

核心技术特点

架构组成

视觉编码器：DeepEncoder，支持高分辨率输入
专家混合解码器：DeepSeek3B-MoE-A570M
总参数量：30亿
每个标记激活参数量：约5.7亿

编码器技术

基于SAM的局部感知窗口注意力机制
卷积压缩算法
有效控制高分辨率下的激活内存
减少输出标记数量

性能表现

基准测试结果

Fox基准测试：97%的解码准确率
OmniDocBench基准测试：表现优异
压缩能力：
- 文本标记与视觉标记比例为10倍时，仍保持良好准确率
- 20倍压缩时仍显示有用特性
相比传统模型使用更少的视觉标记

运行模式

分辨率选项

DeepEncoder提供多种分辨率模式：

模式	特点
Tiny	基础模式
Small	推荐起始模式
Base	标准模式
Large	高分辨率模式
Gundam	动态模式，根据页面复杂度灵活调整标记预算
Gundam-Master	高级动态模式

训练过程

分阶段训练：首先训练DeepEncoder进行下一标记预测
全系统训练：在多个节点上进行
生成能力：每日可生成超过20万页文档

应用建议

起始模式：建议从Small模式开始
复杂文档：如页面包含密集小字体或高标记数量，可选择Gundam模式

行业影响

DeepSeek-OCR的发布标志着文档人工智能领域的重大进步，其效率和灵活性使其能够适应处理各种类型的文档。

近期新闻

AI-NEWS · 2025年 10月 21日

DeepSeek发布3B OCR模型

DeepSeek发布全新3B OCR模型：高效文档解析的革命性突破

模型概述

核心技术特点

架构组成

编码器技术

性能表现

基准测试结果

运行模式

分辨率选项

训练过程

应用建议

行业影响

相关资源

相关AI新闻摘要

Andrej Karpathy评论

其他重要新闻

您可能还喜欢...

AI-NEWS · 2025年 10月 21日

DeepSeek发布全新3B OCR模型：高效文档解析的革命性突破

模型概述

核心技术特点

架构组成

编码器技术

性能表现

基准测试结果

运行模式

分辨率选项

训练过程

应用建议

行业影响

相关资源

相关AI新闻摘要

Andrej Karpathy评论

其他重要新闻

您可能还喜欢...

腾讯开源思维大模型

Siri集成SearchGPT升级iOS搜索体验

包公AI问世