AI-NEWS · 2025年 11月 26日

腾讯开源OCR模型

腾讯混元开源HunyuanOCR模型:10亿参数实现多场景SOTA,赋能OCR应用

模型概述

腾讯混元于2025年11月25日正式宣布开源其新一代OCR模型HunyuanOCR。该模型仅包含10亿参数,基于混元原生多模态架构构建,在多个行业OCR应用榜单中实现了SOTA性能,为OCR技术部署提供了轻量高效的解决方案。

核心架构与优势

  • 架构设计:采用完全端到端范式,包含:
    • 原生分辨率视频编码器
    • 自适应视觉适配器
    • 轻量化混元语言模型
  • 核心优势:具备"高效便捷"的特点,模型小巧易部署,单次前向推理即可获得最优输出,效率远超行业级联方案

性能表现

基准测试成绩

  1. OmniDocBench复杂文档解析评估:得分94.1,超越谷歌Gemini3-Pro等领先模型
  2. 自建基准测试:覆盖文档、手写、街景等9大场景,文本检测与识别能力显著优于其他开源和商业模型
  3. OCRBench排名:在30亿参数以下模型中实现SOTA,总分860分

小语种翻译能力

  • 支持14种高频小语种与中英文的双向翻译
  • 在ICDAR2025端到端文档翻译竞赛小模型赛道获得冠军

应用场景

  • 多语言复杂文档分析
  • 票据字段JSON格式提取
  • 视频双语字幕自动提取
  • 已落地应用领域:身份证件处理、视频创作、跨境交流等

获取方式

用户可通过以下渠道下载体验:

  • 网页端和移动端链接
  • GitHub和Hugging Face开源地址
  • 直接访问Hugging Face空间快速试用

发布时间

2025年11月25日

火龙果频道