PhysX-Anything:从单张图像生成可模拟3D资产的开源框架
项目概述
南洋理工大学与上海人工智能实验室联合发布开源框架PhysX-Anything,能够从单张RGB图像直接输出包含几何结构、关节和物理参数的完整3D资产,可直接导入MuJoCo和Isaac Sim进行机器人策略训练。
技术亮点
1. 由粗到精的处理流程
- 首先预测整体物理属性(质量、质心、摩擦系数)
- 然后在组件级别细化几何结构和关节限制
- 避免"视觉优先"导致的物理失真问题
2. 创新的压缩3D表示
- 将面、关节轴和物理属性编码为8K维潜在向量
- 推理时只需一次解码
- 相比现有最优方法速度提升2.3倍
3. 显式物理监督
- 在数据集中添加12万组真实物理测量数据
- 训练过程中引入质心、惯性和碰撞箱损失
- 确保模拟一致性
测试结果
性能指标
- 几何误差(Geometry-Chamfer):误差降低18%
- 物理误差(Physics-Error):误差降低27%
- 绝对尺度误差:小于2厘米
- 关节运动范围误差:小于5%
实际应用表现
在真实场景(宜家家具、厨房工具)测试中:
- 将生成资产导入Isaac Sim后
- 机器人抓取成功率:提升12%
- 训练步数:减少30%
开源与影响
当前状态
- 项目已在GitHub开源
- 权重、数据和评估基准均可公开获取
未来发展
- 计划于2026年第一季度发布版本2.0
- 将支持"视频输入"功能
- 能够预测可移动组件的时间轨迹
- 为动态场景策略学习提供支持
技术对比
PhysX-Anything在性能上显著优于近期方法如ObjPhy和PhySG,在几何精度和物理准确性方面都有明显提升。
