腾讯开源长距离世界模型HunyuanWorld-Voyager:具备原生3D重建能力
概述
2025年9月2日,腾讯正式开源了HunyuanWorld-Voyager,这是一个创新的视频扩散框架,能够基于单张输入图像生成具有世界一致性的3D点云,并支持用户沿着自定义相机路径进行沉浸式探索。
核心特性
技术突破
- 原生3D重建能力:首个具备原生3D重建能力的全球超长距离世界模型
- 直接3D输出:无需COLMAP等工具,可直接导出点云视频为3D格式
- 创新3D记忆机制:采用可扩展的世界缓存机制,确保任何相机轨迹的几何一致性
- 顶级性能表现:在斯坦福WorldScore测试中排名第一,在视频生成和3D重建基准测试中表现优异
架构组成
-
世界一致性视频扩散
- 提出统一架构,基于现有世界观测生成精确对齐的RGB视频和深度视频序列
- 确保全局场景一致性
-
长距离世界探索
- 采用高效世界缓存机制
- 结合点云剔除和自回归推理能力
- 支持迭代式场景扩展,通过上下文感知一致性技术实现平滑视频采样
训练与数据
数据构建
- 研究团队构建了可扩展的数据构建引擎
- 自动化视频重建流程可自动估计任何输入视频的相机姿态和度量深度
- 无需人工标注,支持构建大规模多样化训练数据
数据集规模
- 整合真实世界采集和Unreal Engine渲染的视频资源
- 构建包含超过10万个视频片段的大规模数据集
性能表现
视频生成质量
- 在PSNR、SSIM和LPIPS等指标上优于其他四种开源相机可控视频生成方法
- 证明其卓越的视频生成质量
场景重建效果
- 生成的视频在几何一致性方面表现出更好的效果
- 在WorldScore静态基准测试中获得最高分
- 在相机运动控制和空间一致性方面展现优越性
应用前景
该模型重新定义了AI驱动的VR、游戏和仿真空间智能,为未来3D场景生成技术铺平了道路。
关键要点
- 基于单张输入图像生成具有世界一致性的3D点云
- 同时生成精确对齐的深度信息和RGB视频
- 适用于高质量3D重建,无需后处理
- 在多项测试中,视频生成质量和场景重建效果均优于其他模型