AI-NEWS · 2025年 9月 29日

腾讯混元3.0开源

腾讯混元图像3.0正式开源:支持中英文精准渲染与长文本生成

模型概览

  • 发布时间:2025年9月28日
  • 参数规模:80亿参数
  • 模型性质:业界首个开源商业级原生多模态图像生成模型
  • 竞争地位:当前最有效、规模最大的开源图像生成模型,可与顶级闭源模型竞争

核心技术突破

原生多模态架构

  • 支持文本、图像、视频、音频等多种输入输出格式
  • 无需依赖多模型组合,单一模型实现多功能处理
  • 兼具图像生成与语义理解能力,如同"会思考的智能画师"

语义理解能力提升

  • 短提示生成复杂图像:用户仅需简单提示词即可生成完整内容
  • 示例:输入"生成月食科普四格漫画",模型自动生成完整漫画,无需逐格描述
  • 精准分解指令:能准确解析复杂要求,如将模特穿搭分解为具体服装单品

文本渲染能力

  • 支持图像中小文本和长文本的准确生成
  • 可处理复杂文本需求,生成详细产品图、海报和插画

性能表现

  • 在多项基准测试中超越GPT-5、Gemini、Claude 4等主流模型
  • 相比2.0版本在验证码识别方面的优势,3.0版本显著扩展了视觉推理能力

训练数据

  • 基于50亿图文对和6TB文本数据的多模态混合训练
  • 充分融合多任务效果,实现强大的语义理解能力

应用价值

创意效率提升

  • 专业用户:插画师、设计师
  • 非专业用户:无美术背景的内容创作者
  • 效率对比:从数小时创作缩短至几分钟完成

获取方式

  1. 在线体验:腾讯混元官方网站
  2. 开源下载:GitHub、Hugging Face等平台提供模型权重和加速版本

未来规划

  • 逐步推出图生图、图像编辑、多轮交互等新功能
  • 持续优化用户体验

行业影响

作为首个开源工业级原生多模态模型,混元图像3.0的开源将推动整个AI图像生成领域的发展,为开发者和创作者提供更强大的工具支持。

火龙果频道