Stability AI 推出 Stable Video 4D 总结
概述
Stability AI 发布了创新的 Stable Video 4D (SV4D) 模型,用户只需上传单个视频即可生成八个不同角度的动态新视角视频。该模型改进了以往多视角视频生成的复杂过程,提升了空间和时间轴上的一致性,并大大简化了4D优化框架。
性能特点
- 多视图视频生成:SV4D可以从单个视频生成多个视角的视频帧,确保视图和时间上的一致性。
- 4D表示优化:通过联合生成多视角视频帧,进一步优化动态3D对象的4D表示。
- 混合采样方案:有效处理长视频输入,提高内存效率和输出一致性。
- 自适应引导缩放:确保生成图像在帧轴和视图轴上的一致性,避免过度锐化或饱和。
- 数据集策划:利用新的ObjaverseDy数据集包含大量动态3D对象,以确保生成内容的质量和一致性。
生成技术
- 使用扩散模型(Stable Video Diffusion 和 SV3D)生成高质量的视频帧和多视角图像。
- 引入视图注意力和帧注意力模块,保持时间和视角上的一致性。
实验结果
- 定量比较:与现有方法相比,SV4D在视频帧一致性、多视角一致性和4D一致性上表现优异。例如,在FVD-F、FVD-V、FVD-Diag和FV4D等指标上显著领先。
- 定性比较:视觉效果更忠实于输入视频,几何和纹理细节更加一致。
- 用户研究:用户偏好明显倾向于SV4D生成的结果。
应用前景
- 游戏开发:生成多视角的动态对象,增强游戏真实感和沉浸感。
- 视频编辑:提供高质量的多视角视频素材,提升编辑灵活性和创意。
- 虚拟现实:生成更真实和一致的虚拟对象,提升用户体验。
性能总结表
性能指标 | SV4D表现 | 对比方法表现 |
---|---|---|
生成速度 | 40秒内生成8视角的5帧视频 | 传统方法需要数小时 |
多视角一致性 | FVD-V显著低于对比方法 | SV3D和STAG4D一致性较差 |
时间一致性 | FVD-F显著低于对比方法 | SV3D和STAG4D一致性较差 |
图像质量 | LPIPS和CLIP-S表现良好 | Diffusion2和其他方法可能模糊 |
4D一致性 | FVD-Diag和FV4D表现优异 | 其他方法一致性较差 |
用户偏好 | 73.3%用户偏好SV4D生成结果 | SV3D、Diffusion2和STAG4D偏好低 |
项目及演示:https://sv4d.github.io/
模型下载:https://huggingface.co/stabilityai/sv4d
论文:https://arxiv.org/abs/2407.17470
官方介绍:https://stability.ai/news/stable-video-4d
Source:https://xiaohu.ai/p/11780