AI-NEWS · 2025年 7月 14日

Meta单GPU实时生成高清视频

Meta与加州大学伯克利分校联合开发实时AI视频生成模型StreamDiT

核心突破

实时生成能力：可在单块高端GPU上以16fps实时生成512p分辨率视频
架构创新：采用逐帧生成技术，突破传统需完整生成视频才能播放的限制
模型规模：40亿参数基础模型，已测试300亿参数扩展版本

技术亮点

定制化架构设计

采用移动缓冲技术实现并行处理
处理流程：
1. 新帧初始为噪声状态
2. 逐步优化直至可显示
3. 系统每0.5秒生成2个原始帧→最终输出8幅图像
缓冲区分割：
- 固定参考帧
- 短时区块

多功能训练体系

训练数据：
- 3,000条高质量视频
- 260万条视频组成的大规模数据集
硬件配置：128块NVIDIA H100 GPU
最佳区块大小：1-16帧范围

关键加速技术

计算步骤从128步缩减至8步
架构优化：
- 局部区域信息交换
- 避免全图像元素交互

性能表现

对比测试结果

运动场景处理优于ReuseDiffuse和FIFO diffusion
8秒512p视频评估：
- 动作流畅度
- 动画完整性
- 帧间一致性
- 整体质量
  → 全部指标排名第一

扩展潜力

300亿参数模型测试：
- 画质提升明显
- 实时性尚未达标

应用场景

实时视频编辑（演示案例：视频中猪→猫的实时替换）
交互式提示响应
最长1分钟视频生成

现存局限

对视频前半段"记忆"有限
不同片段间可能出现可见过渡
研究团队正在积极寻求解决方案

行业动态

Odyssey等公司同步开发：
- 自回归世界模型
- 支持基于用户输入的逐帧调整

技术意义

标志着AI视频生成技术进入实时交互内容创作的新阶段

火龙果频道

您可能还喜欢...