AI-NEWS · 2025年 11月 26日

腾讯开源1B模型

腾讯发布混元OCR开源模型:仅10亿参数实现多项SOTA性能

模型概述

  • 发布时间:2025年11月25日
  • 发布方:腾讯
  • 模型名称:混元OCR(HunyuanOCR)
  • 参数量:10亿参数
  • 架构基础:基于腾讯自研混元多模态架构

核心技术特点

端到端设计

  • 采用端到端训练和推理方法
  • 通过单次前向推理即可获得最优结果
  • 结合大规模应用数据和在线强化学习

核心组件构成

  1. 原生分辨率视频编码器
  2. 自适应视觉适配器
  3. 轻量化混元语言模型

性能表现

文档解析能力

  • 在复杂文档解析测试中得分:94.1分
  • 超越包括Google Gemini3-pro在内的多个领先模型

文本识别能力

  • 覆盖多种应用场景:
    • 文档
    • 艺术字体
    • 街景文字
    • 手写文字
    • 广告文字
    • 收据文字

综合评分

  • OCR总得分:860分
  • 在30亿参数以下模型中表现最佳

多语言支持

  • 支持14种语言的翻译功能
  • 在翻译领域表现优异
  • 特别适合照片翻译功能

文档处理能力

  • 可将扫描图像中的文本按阅读顺序整理
  • 支持LaTeX格式表示数学公式
  • 支持HTML格式处理复杂表格

应用场景

  • 语言文档解析
  • 发票字段提取
  • 视频字幕识别
  • 照片翻译

核心优势

  • 模型体积小
  • 部署便捷
  • 性能优异
  • 开源可用

项目地址

  • GitHub仓库:HunyuanOCR

火龙果频道