Meta与加州大学伯克利分校联合开发实时AI视频生成模型StreamDiT
核心突破
- 实时生成能力:可在单块高端GPU上以16fps实时生成512p分辨率视频
- 架构创新:采用逐帧生成技术,突破传统需完整生成视频才能播放的限制
- 模型规模:40亿参数基础模型,已测试300亿参数扩展版本
技术亮点
定制化架构设计
- 采用移动缓冲技术实现并行处理
- 处理流程:
- 新帧初始为噪声状态
- 逐步优化直至可显示
- 系统每0.5秒生成2个原始帧→最终输出8幅图像
- 缓冲区分割:
- 固定参考帧
- 短时区块
多功能训练体系
- 训练数据:
- 3,000条高质量视频
- 260万条视频组成的大规模数据集
- 硬件配置:128块NVIDIA H100 GPU
- 最佳区块大小:1-16帧范围
关键加速技术
- 计算步骤从128步缩减至8步
- 架构优化:
- 局部区域信息交换
- 避免全图像元素交互
性能表现
对比测试结果
- 运动场景处理优于ReuseDiffuse和FIFO diffusion
- 8秒512p视频评估:
- 动作流畅度
- 动画完整性
- 帧间一致性
- 整体质量
→ 全部指标排名第一
扩展潜力
- 300亿参数模型测试:
- 画质提升明显
- 实时性尚未达标
应用场景
- 实时视频编辑(演示案例:视频中猪→猫的实时替换)
- 交互式提示响应
- 最长1分钟视频生成
现存局限
- 对视频前半段"记忆"有限
- 不同片段间可能出现可见过渡
- 研究团队正在积极寻求解决方案
行业动态
- Odyssey等公司同步开发:
- 自回归世界模型
- 支持基于用户输入的逐帧调整
技术意义
标志着AI视频生成技术进入实时交互内容创作的新阶段