AI-NEWS · 2025年 10月 25日

百度OCR模型全球夺冠

百度PaddleOCR-VL模型登顶全球OCR榜单,连续5天领跑Huggingface趋势榜

核心要点

  • 发布时间:2025年10月16日
  • 发布团队:百度PaddlePaddle团队
  • 模型名称:PaddleOCR-VL(视觉语言模型)
  • 参数规模:9亿参数(0.9B)

性能表现

权威评测成绩

  • 评测基准:OmniDocBench V1.5
  • 得分:92.56分
  • 排名:全球OCR榜单第一
  • 超越模型:包括DeepSeek-OCR在内的所有主流模型

Huggingface趋势表现

截至10月21日,Huggingface全球模型趋势榜前三名均为OCR模型:

  1. PaddleOCR-VL(百度PaddlePaddle)- 连续5天位居榜首
  2. DeepSeek-OCR
  3. NanonetOCR

技术特性

多语言支持

  • 支持109种语言识别
  • 准确解析文本、表格、公式和图表
  • 具备文档语义结构重建能力

核心能力

不仅"识别字符",更能"理解"复杂文档内容,在以下领域展现高实用价值:

  • 科研论文处理
  • 发票识别
  • 知识提取

行业背景

技术认可

DeepSeek团队在论文中特别致谢PaddleOCR,并透露其部分训练数据使用PaddleOCR进行标注。

行业趋势分析

当前OCR模型繁荣背后的真实逻辑:

  • 百度、DeepSeek、上海AI Lab等机构几乎同时开源OCR模型
  • 目的不仅是竞争识别性能,更是为大模型训练提供数据清洗和标注的基础能力
  • 核心竞争点:谁能更快帮助AI理解世界中的文本和图像

市场影响

PaddleOCR-VL已成为当前最受关注的开源OCR模型,展现了百度在OCR技术领域的领先地位。

火龙果频道