上海科技大学推出新AI模型CLAY:从文字和图像生成详细3D物体
-
技术突破
- CLAY是由上海科技大学开发的AI模型,可以从文字描述或二维图像中生成详细的3D物体。
- 在3D物体生成的质量和多样性方面,CLAY取得了显著突破。
-
核心技术
- CLAY模型包括一个多分辨率变分自编码器(VAE)和一个扩散变换器(DiT)。
- VAE负责将不同细节层次的3D几何形状编码到潜在空间中,DiT负责生成这些几何形状。
- CLAY能够直接处理3D内容,无需先转换为2D图像。
-
训练数据
- CLAY的训练数据超过50万种3D模型,涵盖各种对象,从简单日常物品到复杂幻想生物。
- 具备通过额外输入进行控制的能力,用户可以通过指定粗略形状或边界框来精确控制生成结果。
-
性能对比
- 与Shap-E、DreamFusion、Wonder3D等其他系统相比,CLAY表现出明显优势。
- CLAY生成的3D物体几何形状更一致,表面更加光滑,细节更加精细。
- 生成高质量3D资产仅需约45秒,而其他系统可能需要几小时来优化。
-
应用前景
- CLAY在游戏开发、电影制作和3D打印等领域具有广泛的应用潜力。
- 研究人员计划增加更多安全措施,以确保AI生成虚拟内容的负责任使用。
-
未来发展
- 研究人员计划进一步扩展训练数据,提高模型质量。
- 将几何生成和材料合成整合到单一模型中,以实现更全面功能。
- CLAY的一个版本可以通过3D-Gen服务Rodin访问。
总结:CLAY在3D生成技术上取得了重大突破,生成速度和质量均优于现有技术,具有广泛的应用前景。