AI-NEWS · 2025年 9月 29日

腾讯混元3.0开源

腾讯混元图像3.0正式开源：支持中英文精准渲染与长文本生成

模型概览

发布时间：2025年9月28日
参数规模：80亿参数
模型性质：业界首个开源商业级原生多模态图像生成模型
竞争地位：当前最有效、规模最大的开源图像生成模型，可与顶级闭源模型竞争

核心技术突破

原生多模态架构

支持文本、图像、视频、音频等多种输入输出格式
无需依赖多模型组合，单一模型实现多功能处理
兼具图像生成与语义理解能力，如同"会思考的智能画师"

语义理解能力提升

短提示生成复杂图像：用户仅需简单提示词即可生成完整内容
示例：输入"生成月食科普四格漫画"，模型自动生成完整漫画，无需逐格描述
精准分解指令：能准确解析复杂要求，如将模特穿搭分解为具体服装单品

文本渲染能力

支持图像中小文本和长文本的准确生成
可处理复杂文本需求，生成详细产品图、海报和插画

性能表现

在多项基准测试中超越GPT-5、Gemini、Claude 4等主流模型
相比2.0版本在验证码识别方面的优势，3.0版本显著扩展了视觉推理能力

训练数据

基于50亿图文对和6TB文本数据的多模态混合训练
充分融合多任务效果，实现强大的语义理解能力

应用价值

创意效率提升

专业用户：插画师、设计师
非专业用户：无美术背景的内容创作者
效率对比：从数小时创作缩短至几分钟完成

获取方式

在线体验：腾讯混元官方网站
开源下载：GitHub、Hugging Face等平台提供模型权重和加速版本

未来规划

逐步推出图生图、图像编辑、多轮交互等新功能
持续优化用户体验

行业影响

作为首个开源工业级原生多模态模型，混元图像3.0的开源将推动整个AI图像生成领域的发展，为开发者和创作者提供更强大的工具支持。

火龙果频道

您可能还喜欢...