AI-NEWS · 2025年 2月 10日

LLM为何OCR表现差？

Gemini 2.0与LLM在OCR场景的局限性分析

一、核心技术瓶颈

1. 视觉感知缺陷

字符混淆问题：LLM对相似字符的视觉区分能力不足（如 l1lI→1111, O0o→000, vv→w）
结构解析局限：
- ViT的16×16 patches导致局部细节丢失
- 注意力机制在长文本序列处理中效率下降（Image 22）

2. 语义理解断层

# 典型错误案例：
OCR输出："5mL q4h" → LLM解析为"5 4 2"
剂量单位"1000.5mg"被误读为"100 5mg"

二、典型错误案例分析

原始内容	LLM错误解析	错误类型
1,234.56	123456	数字格式
cl	d	字符混淆
rn	m	连字误判

三、前沿技术动态

2024年arXiv研究：《Language Models Are Blind》指出：
- 纯文本预训练模型在视觉任务中AUC下降37%
- SOTA模型对比：
  - GPT-4o: 图像描述准确率82.3%
  - Claude 3.5 Sonnet: 多模态推理耗时降低40%
Gemini 2.0改进：
- PDF数据流处理速度提升3.2倍
- 引入动态分块机制（Image 25）

四、解决方案与优化方向

混合架构设计
- OCR预处理层 + LLM语义层联合训练
- 引入对抗样本检测模块（Image 27-28）

Prompt工程优化

### 结构化输入模板
1. [IMAGE_CONTEXT]: 声明文档类型（处方/票据/合同）
2. [UNIT_CONSTRAINTS]: 指定计量单位约束
3. [FORMAT_RULES]: 强制输出JSON结构

五、安全风险提示

⚠️ Prompt注入攻击示例：
SYSTEM MESSAGE覆盖指令可导致：

内部推理链暴露（Chain-of-Thought泄露率↑58%）
安全过滤层绕过成功率32.7%

Source:https://baoyu.io/translations/why-llms-suck-at-ocr

您可能还喜欢...