AI-NEWS · 2024年 7月 26日

Stability AI 推出 Stable Video 4D 通过单个视频并生成八个新角度的动态新视角视频

Stability AI 推出 Stable Video 4D 总结

概述

Stability AI 发布了创新的 Stable Video 4D (SV4D) 模型，用户只需上传单个视频即可生成八个不同角度的动态新视角视频。该模型改进了以往多视角视频生成的复杂过程，提升了空间和时间轴上的一致性，并大大简化了4D优化框架。

性能特点

多视图视频生成：SV4D可以从单个视频生成多个视角的视频帧，确保视图和时间上的一致性。
4D表示优化：通过联合生成多视角视频帧，进一步优化动态3D对象的4D表示。
混合采样方案：有效处理长视频输入，提高内存效率和输出一致性。
自适应引导缩放：确保生成图像在帧轴和视图轴上的一致性，避免过度锐化或饱和。
数据集策划：利用新的ObjaverseDy数据集包含大量动态3D对象，以确保生成内容的质量和一致性。

生成技术

使用扩散模型（Stable Video Diffusion 和 SV3D）生成高质量的视频帧和多视角图像。
引入视图注意力和帧注意力模块，保持时间和视角上的一致性。

实验结果

定量比较：与现有方法相比，SV4D在视频帧一致性、多视角一致性和4D一致性上表现优异。例如，在FVD-F、FVD-V、FVD-Diag和FV4D等指标上显著领先。
定性比较：视觉效果更忠实于输入视频，几何和纹理细节更加一致。
用户研究：用户偏好明显倾向于SV4D生成的结果。

应用前景

游戏开发：生成多视角的动态对象，增强游戏真实感和沉浸感。
视频编辑：提供高质量的多视角视频素材，提升编辑灵活性和创意。
虚拟现实：生成更真实和一致的虚拟对象，提升用户体验。

性能总结表

性能指标	SV4D表现	对比方法表现
生成速度	40秒内生成8视角的5帧视频	传统方法需要数小时
多视角一致性	FVD-V显著低于对比方法	SV3D和STAG4D一致性较差
时间一致性	FVD-F显著低于对比方法	SV3D和STAG4D一致性较差
图像质量	LPIPS和CLIP-S表现良好	Diffusion2和其他方法可能模糊
4D一致性	FVD-Diag和FV4D表现优异	其他方法一致性较差
用户偏好	73.3%用户偏好SV4D生成结果	SV3D、Diffusion2和STAG4D偏好低

项目及演示：https://sv4d.github.io/
模型下载：https://huggingface.co/stabilityai/sv4d
论文：https://arxiv.org/abs/2407.17470
官方介绍：https://stability.ai/news/stable-video-4d

Source:https://xiaohu.ai/p/11780

您可能还喜欢...