AI-NEWS · 2025年 11月 26日

腾讯开源1B模型

腾讯发布混元OCR开源模型：仅10亿参数实现多项SOTA性能

模型概述

发布时间：2025年11月25日
发布方：腾讯
模型名称：混元OCR（HunyuanOCR）
参数量：10亿参数
架构基础：基于腾讯自研混元多模态架构

核心技术特点

端到端设计

采用端到端训练和推理方法
通过单次前向推理即可获得最优结果
结合大规模应用数据和在线强化学习

核心组件构成

原生分辨率视频编码器
自适应视觉适配器
轻量化混元语言模型

性能表现

文档解析能力

在复杂文档解析测试中得分：94.1分
超越包括Google Gemini3-pro在内的多个领先模型

文本识别能力

覆盖多种应用场景：
- 文档
- 艺术字体
- 街景文字
- 手写文字
- 广告文字
- 收据文字

综合评分

OCR总得分：860分
在30亿参数以下模型中表现最佳

多语言支持

支持14种语言的翻译功能
在翻译领域表现优异
特别适合照片翻译功能

文档处理能力

可将扫描图像中的文本按阅读顺序整理
支持LaTeX格式表示数学公式
支持HTML格式处理复杂表格

应用场景

语言文档解析
发票字段提取
视频字幕识别
照片翻译

核心优势

模型体积小
部署便捷
性能优异
开源可用

项目地址

GitHub仓库：HunyuanOCR

火龙果频道

您可能还喜欢...