AI-NEWS · 2024年 7月 25日

上海科技大学推新AI模型CLAY:从文字和图像生成详细3D物体

上海科技大学推出新AI模型CLAY:从文字和图像生成详细3D物体

  1. 技术突破

    • CLAY是由上海科技大学开发的AI模型,可以从文字描述或二维图像中生成详细的3D物体。
    • 在3D物体生成的质量和多样性方面,CLAY取得了显著突破。
  2. 核心技术

    • CLAY模型包括一个多分辨率变分自编码器(VAE)和一个扩散变换器(DiT)。
    • VAE负责将不同细节层次的3D几何形状编码到潜在空间中,DiT负责生成这些几何形状。
    • CLAY能够直接处理3D内容,无需先转换为2D图像。
  3. 训练数据

    • CLAY的训练数据超过50万种3D模型,涵盖各种对象,从简单日常物品到复杂幻想生物。
    • 具备通过额外输入进行控制的能力,用户可以通过指定粗略形状或边界框来精确控制生成结果。
  4. 性能对比

    • 与Shap-E、DreamFusion、Wonder3D等其他系统相比,CLAY表现出明显优势。
    • CLAY生成的3D物体几何形状更一致,表面更加光滑,细节更加精细。
    • 生成高质量3D资产仅需约45秒,而其他系统可能需要几小时来优化。
  5. 应用前景

    • CLAY在游戏开发、电影制作和3D打印等领域具有广泛的应用潜力。
    • 研究人员计划增加更多安全措施,以确保AI生成虚拟内容的负责任使用。
  6. 未来发展

    • 研究人员计划进一步扩展训练数据,提高模型质量。
    • 将几何生成和材料合成整合到单一模型中,以实现更全面功能。
    • CLAY的一个版本可以通过3D-Gen服务Rodin访问。

总结:CLAY在3D生成技术上取得了重大突破,生成速度和质量均优于现有技术,具有广泛的应用前景。

Source:https://www.aibase.com/news/10584