腾讯发布混元OCR开源模型:仅10亿参数实现多项SOTA性能
模型概述
- 发布时间:2025年11月25日
- 发布方:腾讯
- 模型名称:混元OCR(HunyuanOCR)
- 参数量:10亿参数
- 架构基础:基于腾讯自研混元多模态架构
核心技术特点
端到端设计
- 采用端到端训练和推理方法
- 通过单次前向推理即可获得最优结果
- 结合大规模应用数据和在线强化学习
核心组件构成
- 原生分辨率视频编码器
- 自适应视觉适配器
- 轻量化混元语言模型
性能表现
文档解析能力
- 在复杂文档解析测试中得分:94.1分
- 超越包括Google Gemini3-pro在内的多个领先模型
文本识别能力
- 覆盖多种应用场景:
- 文档
- 艺术字体
- 街景文字
- 手写文字
- 广告文字
- 收据文字
综合评分
- OCR总得分:860分
- 在30亿参数以下模型中表现最佳
多语言支持
- 支持14种语言的翻译功能
- 在翻译领域表现优异
- 特别适合照片翻译功能
文档处理能力
- 可将扫描图像中的文本按阅读顺序整理
- 支持LaTeX格式表示数学公式
- 支持HTML格式处理复杂表格
应用场景
- 语言文档解析
- 发票字段提取
- 视频字幕识别
- 照片翻译
核心优势
- 模型体积小
- 部署便捷
- 性能优异
- 开源可用
项目地址
- GitHub仓库:HunyuanOCR
