腾讯混元开源HunyuanOCR模型:10亿参数实现多场景SOTA,赋能OCR应用
模型概述
腾讯混元于2025年11月25日正式宣布开源其新一代OCR模型HunyuanOCR。该模型仅包含10亿参数,基于混元原生多模态架构构建,在多个行业OCR应用榜单中实现了SOTA性能,为OCR技术部署提供了轻量高效的解决方案。
核心架构与优势
- 架构设计:采用完全端到端范式,包含:
- 原生分辨率视频编码器
- 自适应视觉适配器
- 轻量化混元语言模型
- 核心优势:具备"高效便捷"的特点,模型小巧易部署,单次前向推理即可获得最优输出,效率远超行业级联方案
性能表现
基准测试成绩
- OmniDocBench复杂文档解析评估:得分94.1,超越谷歌Gemini3-Pro等领先模型
- 自建基准测试:覆盖文档、手写、街景等9大场景,文本检测与识别能力显著优于其他开源和商业模型
- OCRBench排名:在30亿参数以下模型中实现SOTA,总分860分
小语种翻译能力
- 支持14种高频小语种与中英文的双向翻译
- 在ICDAR2025端到端文档翻译竞赛小模型赛道获得冠军
应用场景
- 多语言复杂文档分析
- 票据字段JSON格式提取
- 视频双语字幕自动提取
- 已落地应用领域:身份证件处理、视频创作、跨境交流等
获取方式
用户可通过以下渠道下载体验:
- 网页端和移动端链接
- GitHub和Hugging Face开源地址
- 直接访问Hugging Face空间快速试用
发布时间
2025年11月25日
