AI-NEWS · 2024年 7月 26日

Stability AI 推出 Stable Video 4D 通过单个视频并生成八个新角度的动态新视角视频

Stability AI 推出 Stable Video 4D 总结

概述

Stability AI 发布了创新的 Stable Video 4D (SV4D) 模型,用户只需上传单个视频即可生成八个不同角度的动态新视角视频。该模型改进了以往多视角视频生成的复杂过程,提升了空间和时间轴上的一致性,并大大简化了4D优化框架。

性能特点

  1. 多视图视频生成:SV4D可以从单个视频生成多个视角的视频帧,确保视图和时间上的一致性。
  2. 4D表示优化:通过联合生成多视角视频帧,进一步优化动态3D对象的4D表示。
  3. 混合采样方案:有效处理长视频输入,提高内存效率和输出一致性。
  4. 自适应引导缩放:确保生成图像在帧轴和视图轴上的一致性,避免过度锐化或饱和。
  5. 数据集策划:利用新的ObjaverseDy数据集包含大量动态3D对象,以确保生成内容的质量和一致性。

生成技术

  • 使用扩散模型(Stable Video Diffusion 和 SV3D)生成高质量的视频帧和多视角图像。
  • 引入视图注意力和帧注意力模块,保持时间和视角上的一致性。

实验结果

  • 定量比较:与现有方法相比,SV4D在视频帧一致性、多视角一致性和4D一致性上表现优异。例如,在FVD-F、FVD-V、FVD-Diag和FV4D等指标上显著领先。
  • 定性比较:视觉效果更忠实于输入视频,几何和纹理细节更加一致。
  • 用户研究:用户偏好明显倾向于SV4D生成的结果。

应用前景

  • 游戏开发:生成多视角的动态对象,增强游戏真实感和沉浸感。
  • 视频编辑:提供高质量的多视角视频素材,提升编辑灵活性和创意。
  • 虚拟现实:生成更真实和一致的虚拟对象,提升用户体验。

性能总结表

性能指标 SV4D表现 对比方法表现
生成速度 40秒内生成8视角的5帧视频 传统方法需要数小时
多视角一致性 FVD-V显著低于对比方法 SV3D和STAG4D一致性较差
时间一致性 FVD-F显著低于对比方法 SV3D和STAG4D一致性较差
图像质量 LPIPS和CLIP-S表现良好 Diffusion2和其他方法可能模糊
4D一致性 FVD-Diag和FV4D表现优异 其他方法一致性较差
用户偏好 73.3%用户偏好SV4D生成结果 SV3D、Diffusion2和STAG4D偏好低

项目及演示:https://sv4d.github.io/
模型下载:https://huggingface.co/stabilityai/sv4d
论文:https://arxiv.org/abs/2407.17470
官方介绍:https://stability.ai/news/stable-video-4d

Source:https://xiaohu.ai/p/11780