AI-NEWS · 2025年 11月 26日

腾讯开源OCR模型

腾讯混元开源HunyuanOCR模型：10亿参数实现多场景SOTA，赋能OCR应用

模型概述

腾讯混元于2025年11月25日正式宣布开源其新一代OCR模型HunyuanOCR。该模型仅包含10亿参数，基于混元原生多模态架构构建，在多个行业OCR应用榜单中实现了SOTA性能，为OCR技术部署提供了轻量高效的解决方案。

核心架构与优势

架构设计：采用完全端到端范式，包含：
- 原生分辨率视频编码器
- 自适应视觉适配器
- 轻量化混元语言模型
核心优势：具备"高效便捷"的特点，模型小巧易部署，单次前向推理即可获得最优输出，效率远超行业级联方案

性能表现

基准测试成绩

OmniDocBench复杂文档解析评估：得分94.1，超越谷歌Gemini3-Pro等领先模型
自建基准测试：覆盖文档、手写、街景等9大场景，文本检测与识别能力显著优于其他开源和商业模型
OCRBench排名：在30亿参数以下模型中实现SOTA，总分860分

小语种翻译能力

支持14种高频小语种与中英文的双向翻译
在ICDAR2025端到端文档翻译竞赛小模型赛道获得冠军

应用场景

多语言复杂文档分析
票据字段JSON格式提取
视频双语字幕自动提取
已落地应用领域：身份证件处理、视频创作、跨境交流等

获取方式

用户可通过以下渠道下载体验：

网页端和移动端链接
GitHub和Hugging Face开源地址
直接访问Hugging Face空间快速试用

发布时间

2025年11月25日

火龙果频道

您可能还喜欢...