AI-NEWS · 2025年 10月 21日

DeepSeek发布3B OCR模型

DeepSeek发布全新3B OCR模型:高效文档解析的革命性突破

模型概述

DeepSeek公司近期推出名为"DeepSeek-OCR"的新型光学字符识别模型。这是一个端到端的视觉语言模型,专门设计用于高效解析文档,通过将长文本压缩为少量视觉标记,然后使用语言模型进行解码。

核心技术特点

架构组成

  • 视觉编码器:DeepEncoder,支持高分辨率输入
  • 专家混合解码器:DeepSeek3B-MoE-A570M
  • 总参数量:30亿
  • 每个标记激活参数量:约5.7亿

编码器技术

  • 基于SAM的局部感知窗口注意力机制
  • 卷积压缩算法
  • 有效控制高分辨率下的激活内存
  • 减少输出标记数量

性能表现

基准测试结果

  • Fox基准测试:97%的解码准确率
  • OmniDocBench基准测试:表现优异
  • 压缩能力:
    • 文本标记与视觉标记比例为10倍时,仍保持良好准确率
    • 20倍压缩时仍显示有用特性
  • 相比传统模型使用更少的视觉标记

运行模式

分辨率选项

DeepEncoder提供多种分辨率模式:

模式 特点
Tiny 基础模式
Small 推荐起始模式
Base 标准模式
Large 高分辨率模式
Gundam 动态模式,根据页面复杂度灵活调整标记预算
Gundam-Master 高级动态模式

训练过程

  • 分阶段训练:首先训练DeepEncoder进行下一标记预测
  • 全系统训练:在多个节点上进行
  • 生成能力:每日可生成超过20万页文档

应用建议

  • 起始模式:建议从Small模式开始
  • 复杂文档:如页面包含密集小字体或高标记数量,可选择Gundam模式

行业影响

DeepSeek-OCR的发布标志着文档人工智能领域的重大进步,其效率和灵活性使其能够适应处理各种类型的文档。

相关资源

  • 论文链接
  • Huggingface模型页面

相关AI新闻摘要

Andrej Karpathy评论

前特斯拉高管Andrej Karpathy评论称,图像输入可能成为大型语言模型的新方向,批评当前标记效率低下,引发AI社区对视觉输入研究的讨论。

其他重要新闻

  1. Periodic Labs融资:前OpenAI和Google Brain研究人员联合创立,成功融资30亿美元
  2. OpenAI政策更新:加强Sora 2保护政策,保护艺术家权益
  3. Anthropic发布:推出Claude Code网页版,支持浏览器内编码任务
  4. Google计划:将于12月发布Gemini 3.0模型
  5. 零售业变革:欧洲Frasers集团集成ChatGPT进行直接交易

本文信息截至2025年10月21日

火龙果频道