AI-NEWS · 2025年 10月 22日

Karpathy评OCR:图像输入或成LLM新方向

卡帕西提出LLM图像输入新思路:或比文本更高效

核心观点

前特斯拉自动驾驶负责人、OpenAI联合创始人安德烈·卡帕西近日在Twitter上评论DeepSeek-OCR开源论文时,提出了一个发人深省的观点:与传统文本输入相比,使用图像作为大语言模型的输入可能更高效。这一观点引发了AI研究社区对模型输入方法未来方向的讨论。

图像输入的四大优势

1. 信息压缩率提升

  • 视觉令牌效率更高:文本渲染成图像后,能以更少的视觉令牌传递更多信息
  • 数据对比:一个图像块可包含多个字符信息,而传统文本分词中每个字符或子词都需要独立令牌
  • 效果预期:这种压缩可显著提升模型效率,在处理大上下文时降低计算成本

2. 信息表达更丰富

  • 视觉元素支持:图像输入天然支持粗体、颜色、字体大小、布局等视觉元素
  • 传统局限:这些格式细节在纯文本输入中要么丢失,要么需要通过额外标记语言表示,增加令牌消耗
  • 理解优势:直接使用图像让模型能更好理解文档的视觉结构和关键点

3. 注意力机制优化空间

  • 双向注意力:图像输入可使用双向注意力机制,而传统文本生成任务通常采用自回归因果注意力
  • 能力对比:双向注意力允许模型同时关注上下文中的所有位置,通常提供更强的理解能力
  • 限制突破:这种方法避免了自回归文本处理的一些固有局限

4. 简化分词器复杂度

  • 分词器问题:卡帕西特别批评分词器是非端到端的遗留模块,引入了不必要的复杂性
  • 具体案例:视觉相同的字符可能因不同Unicode编码映射到不同令牌,导致模型对看似相同的输入产生不同解释
  • 解决方案:移除分词器直接处理图像,将使整个系统更加简洁统一

技术基础与实现可行性

技术成熟度

  • 视觉编码器:Vision Transformer等架构已能高效处理图像输入
  • OCR进展:DeepSeek-OCR等模型证明视觉到文本转换能达到高精度
  • 扩展可能:将此能力扩展到所有文本处理任务在技术上是可行的

输入输出不对称性

  • 现实约束:虽然用户输入可以是图像,但模型输出仍需保持文本形式
  • 技术瓶颈:生成逼真图像仍是未解决的问题
  • 架构要求:即使采用图像输入,模型架构仍需支持文本生成能力

挑战与局限

技术挑战

  1. 计算成本:尽管信息密度更高,但图像编码的计算开销可能抵消部分收益
  2. 可编辑性:纯文本易于编辑和操作,而图像形式的"文本"在后续处理中失去这种灵活性
  3. 生态兼容性:大量现有文本数据和工具链基于字符令牌表示,完全转向图像输入需要重建整个生态系统

实际应用障碍

  • 验证需求:这种激进的架构转变需要大量实验验证其在各种任务中的有效性
  • 渐进过渡:即使图像输入被证明更优,过渡也将是渐进的

行业影响与发展前景

研究方向转变

  • 模型演进:传统"语言模型"可能演变为更通用的"信息处理模型"
  • 边界模糊:文本只是信息呈现的一种形式,而非唯一输入表示,这可能模糊语言模型与多模态模型的界限

应用场景分化

  • 混合模式:更可能的路径是混合模型
    • 图像输入场景:需要保留视觉格式信息的场景
    • 文本输入场景:需要灵活编辑和组合的场景
  • 平衡策略:混合策略可以平衡两种方法的优势

OCR任务演进

  • 深度理解:OCR任务已从简单字符识别发展到更深层的文档理解
  • 概念扩展:如果OCR模型能准确理解各种格式和布局的文本,将所有文本任务视为"视觉理解"任务在概念上是合理的

总结展望

卡帕西的观点提出了一个值得进一步探索的研究方向,挑战了文本令牌是语言模型标准输入的传统假设。无论这一愿景能否完全实现,它都为思考模型输入表示的优化提供了新视角,可能催生新一代更高效、更统一的AI架构。

正如卡帕西自嘲所言"我需要控制自己不立即开发一个只支持图像输入的聊天机器人",这既表达了对这一想法的兴趣,也暗示了实际实施的复杂性。

火龙果频道