混元世界模型1.1正式发布:革命性3D重建技术,秒级生成高质量场景
核心要点
腾讯于2025年10月22日正式发布并开源混元世界模型1.1(WorldMirror),该版本在多视图和视频输入支持、单卡部署及生成速度方面实现重大升级,为3D重建技术的普及应用开辟新可能。
技术突破
性能表现
- 生成速度:典型输入8-32个视图时,仅需1秒完成推理
- 处理能力:从视频或图像生成专业级3D场景仅需数秒
- 架构优势:采用纯前馈架构,单次前向传播直接输出所有3D属性
核心特性
- 灵活输入处理:支持多模态先验引导机制,可注入相机位姿、相机内参、深度图等信息
- 通用3D视觉预测:实现点云、深度图、相机参数、表面法线和新视角合成等多种3D几何预测
- 单卡部署:支持单卡秒级推理,大幅降低部署门槛
技术架构创新
- 采用多模态先验提示和通用几何预测架构
- 结合课程学习策略,在复杂真实环境中保持高效准确解析能力
- 通过动态注入机制灵活处理各类先验信息,增强3D结构一致性和重建质量
版本演进
- 1.0版本:2024年7月发布,成为业界首个兼容传统CG流程的开源可导航世界生成模型
- 1.1版本:在1.0基础上实现端到端3D重建,支持多模态先验注入和多任务统一输出
应用前景
该技术将推动虚拟现实、游戏开发等行业的发展,使专业级3D重建技术成为普通用户可轻松使用的工具。
获取方式
- GitHub项目地址:https://github.com/Tencent/HunyuanWorldModel
- Hugging Face模型地址:https://huggingface.co/spaces/Tencent/HunyuanWorldModel1.1
- 在线体验:通过HuggingFace Space上传多视图图像或视频实时预览生成效果
