高德“幻境世界”模型发布即登顶世界模型榜单,阿里空间智能再下一城
发布日期:2026年1月9日
来源:AIbase
阅读时长:约6分钟
核心摘要
阿里巴巴旗下高德地图正式发布自研世界模型“FantasyWorld”(幻境世界)。该模型凭借其海量真实世界导航数据优势,在国际权威基准测试WorldScore Leaderboard的综合得分中迅速登顶,进一步拓展了阿里在AI基础模型领域的布局。该模型聚焦高质量3D世界构建,已成为具身智能与自动驾驶领域的新焦点。
关键技术突破
“幻境世界”旨在为具身智能和通用人工智能(AGI)提供高质量的3D世界模型。其核心创新在于:
- 架构创新:在冻结的视频基础模型骨干上,增加了一个可训练的几何分支,实现了“视频潜在变量”与“隐式3D场”的联合建模,仅需一次前向计算即可完成。
- 性能提升:该设计显著提升了生成视频的视觉真实感,同时大幅改善了多视角一致性与几何保真度。
- 对比优势:与近期追求几何一致性的方法相比,“幻境世界”在多视角协作、风格一致性以及在极端视角(如180度旋转)下保持物体形状与纹理方面表现优异。
- 下游支持:模型生成的3D潜在变量可直接解码为深度图或点云,无需额外优化即可支持下游任务。
登顶WorldScore:国际认可证明
WorldScore是由斯坦福大学李飞飞教授团队牵头制定的统一世界生成基准,涵盖静态/动态场景、可控性、一致性等多维度评估。
- 排名表现:目前,“幻境世界”在综合得分及关键指标上均位列第一(例如,静态世界得分78.55,动态世界得分66.89),超越了多个国内外竞争模型。
- 学术认可:相关论文已被ICLR 2025、NeurIPS 2025等顶级会议接收。
- 开源计划:高德表示,该模型即将开源,以进一步推动学术与产业协作。
实际应用:“飞越街景”带来新空间智能体验
“幻境世界”已率先应用于高德地图的“飞越街景”功能。
- 操作简易:商家仅需上传几段手机短视频,即可免费生成高保真度的3D虚拟街景漫游。
- 用户价值:帮助用户提前体验餐厅布局、座位区等细节,辅助消费决策。
- 商家价值:帮助线下商家提升客流。
- 行业意义:该功能被视为“技术平权”的体现,大幅降低了专业3D建模的门槛。
战略布局与行业影响
- 内部架构:高德内部已成立具身业务部门,探索机器人、机器狗等方向,结合空间智能全面转向物理AI。
- 行业趋势:随着自动驾驶向端到端视觉-语言-动作(VLA)方案转变,以及具身智能的快速发展,追求物理真实感与3D一致性的世界模型日益重要。
- 企业优势:“幻境世界”的发布不仅强化了阿里在多模态AI版图的存在,也凸显了中国企业在真实世界数据驱动的空间智能领域的优势。
AIbase观点
“幻境世界”标志着世界模型从视频生成向交互式3D模拟的跃迁,这将深刻影响AR/VR、机器人导航、数字孪生的未来。凭借其积累的亿级用户数据,高德或将在物理AI赛道获得竞争优势。AIbase将持续关注其开源进展及更多应用落地,为读者提供深度分析。
注:本文整理自AIbase报道,已移除原材料的导航栏、广告、无关链接及推荐阅读列表等其他非核心信息,专注于传递“幻境世界”模型发布的核心事实、技术细节、行业影响与数据。
