上海科技大学推新AI模型CLAY：从文字和图像生成详细3D物体

上海科技大学推出新AI模型CLAY：从文字和图像生成详细3D物体

技术突破
- CLAY是由上海科技大学开发的AI模型，可以从文字描述或二维图像中生成详细的3D物体。
- 在3D物体生成的质量和多样性方面，CLAY取得了显著突破。
核心技术
- CLAY模型包括一个多分辨率变分自编码器（VAE）和一个扩散变换器（DiT）。
- VAE负责将不同细节层次的3D几何形状编码到潜在空间中，DiT负责生成这些几何形状。
- CLAY能够直接处理3D内容，无需先转换为2D图像。
训练数据
- CLAY的训练数据超过50万种3D模型，涵盖各种对象，从简单日常物品到复杂幻想生物。
- 具备通过额外输入进行控制的能力，用户可以通过指定粗略形状或边界框来精确控制生成结果。
性能对比
- 与Shap-E、DreamFusion、Wonder3D等其他系统相比，CLAY表现出明显优势。
- CLAY生成的3D物体几何形状更一致，表面更加光滑，细节更加精细。
- 生成高质量3D资产仅需约45秒，而其他系统可能需要几小时来优化。
应用前景
- CLAY在游戏开发、电影制作和3D打印等领域具有广泛的应用潜力。
- 研究人员计划增加更多安全措施，以确保AI生成虚拟内容的负责任使用。
未来发展
- 研究人员计划进一步扩展训练数据，提高模型质量。
- 将几何生成和材料合成整合到单一模型中，以实现更全面功能。
- CLAY的一个版本可以通过3D-Gen服务Rodin访问。

总结：CLAY在3D生成技术上取得了重大突破，生成速度和质量均优于现有技术，具有广泛的应用前景。

近期新闻