AI-NEWS · 2025年 7月 14日

Meta单GPU实时生成高清视频

Meta与加州大学伯克利分校联合开发实时AI视频生成模型StreamDiT

核心突破

  • 实时生成能力:可在单块高端GPU上以16fps实时生成512p分辨率视频
  • 架构创新:采用逐帧生成技术,突破传统需完整生成视频才能播放的限制
  • 模型规模:40亿参数基础模型,已测试300亿参数扩展版本

技术亮点

定制化架构设计

  • 采用移动缓冲技术实现并行处理
  • 处理流程:
    1. 新帧初始为噪声状态
    2. 逐步优化直至可显示
    3. 系统每0.5秒生成2个原始帧→最终输出8幅图像
  • 缓冲区分割:
    • 固定参考帧
    • 短时区块

多功能训练体系

  • 训练数据:
    • 3,000条高质量视频
    • 260万条视频组成的大规模数据集
  • 硬件配置:128块NVIDIA H100 GPU
  • 最佳区块大小:1-16帧范围

关键加速技术

  • 计算步骤从128步缩减至8步
  • 架构优化:
    • 局部区域信息交换
    • 避免全图像元素交互

性能表现

对比测试结果

  • 运动场景处理优于ReuseDiffuse和FIFO diffusion
  • 8秒512p视频评估:
    • 动作流畅度
    • 动画完整性
    • 帧间一致性
    • 整体质量
      → 全部指标排名第一

扩展潜力

  • 300亿参数模型测试:
    • 画质提升明显
    • 实时性尚未达标

应用场景

  • 实时视频编辑(演示案例:视频中猪→猫的实时替换)
  • 交互式提示响应
  • 最长1分钟视频生成

现存局限

  1. 对视频前半段"记忆"有限
  2. 不同片段间可能出现可见过渡
  3. 研究团队正在积极寻求解决方案

行业动态

  • Odyssey等公司同步开发:
    • 自回归世界模型
    • 支持基于用户输入的逐帧调整

技术意义

标志着AI视频生成技术进入实时交互内容创作的新阶段

火龙果频道