DeepSeek发布全新3B OCR模型:高效文档解析的革命性突破
模型概述
DeepSeek公司近期推出名为"DeepSeek-OCR"的新型光学字符识别模型。这是一个端到端的视觉语言模型,专门设计用于高效解析文档,通过将长文本压缩为少量视觉标记,然后使用语言模型进行解码。
核心技术特点
架构组成
- 视觉编码器:DeepEncoder,支持高分辨率输入
- 专家混合解码器:DeepSeek3B-MoE-A570M
- 总参数量:30亿
- 每个标记激活参数量:约5.7亿
编码器技术
- 基于SAM的局部感知窗口注意力机制
- 卷积压缩算法
- 有效控制高分辨率下的激活内存
- 减少输出标记数量
性能表现
基准测试结果
- Fox基准测试:97%的解码准确率
- OmniDocBench基准测试:表现优异
- 压缩能力:
- 文本标记与视觉标记比例为10倍时,仍保持良好准确率
- 20倍压缩时仍显示有用特性
- 相比传统模型使用更少的视觉标记
运行模式
分辨率选项
DeepEncoder提供多种分辨率模式:
模式 | 特点 |
---|---|
Tiny | 基础模式 |
Small | 推荐起始模式 |
Base | 标准模式 |
Large | 高分辨率模式 |
Gundam | 动态模式,根据页面复杂度灵活调整标记预算 |
Gundam-Master | 高级动态模式 |
训练过程
- 分阶段训练:首先训练DeepEncoder进行下一标记预测
- 全系统训练:在多个节点上进行
- 生成能力:每日可生成超过20万页文档
应用建议
- 起始模式:建议从Small模式开始
- 复杂文档:如页面包含密集小字体或高标记数量,可选择Gundam模式
行业影响
DeepSeek-OCR的发布标志着文档人工智能领域的重大进步,其效率和灵活性使其能够适应处理各种类型的文档。
相关资源
- 论文链接
- Huggingface模型页面
相关AI新闻摘要
Andrej Karpathy评论
前特斯拉高管Andrej Karpathy评论称,图像输入可能成为大型语言模型的新方向,批评当前标记效率低下,引发AI社区对视觉输入研究的讨论。
其他重要新闻
- Periodic Labs融资:前OpenAI和Google Brain研究人员联合创立,成功融资30亿美元
- OpenAI政策更新:加强Sora 2保护政策,保护艺术家权益
- Anthropic发布:推出Claude Code网页版,支持浏览器内编码任务
- Google计划:将于12月发布Gemini 3.0模型
- 零售业变革:欧洲Frasers集团集成ChatGPT进行直接交易
本文信息截至2025年10月21日