中国科学技术大学与字节跳动联合发布端到端长视频生成模型
模型核心特性
- 视频规格:支持生成分钟级时长、480p分辨率、24帧/秒的高质量视频
- 关键技术:支持多镜头场景转换,实现连贯的视觉叙事
- 突破意义:标志着国内视频生成技术在全球生成式AI竞赛中的关键突破
核心算法创新:MoGA
MoGA(模块化全局注意力机制) 是专门为解决长视频生成中的上下文扩展和计算成本问题设计的新型注意力机制
技术优势
- 上下文处理能力:可处理高达58万token的上下文信息
- 计算效率:显著降低计算成本,使生成长时长、多场景视频成为可能
- 兼容性:高度模块化设计,可直接与现有高效加速库集成
- FlashAttention
- xFormers
- DeepSpeed
与传统模型对比
传统视频生成模型受限于内存和计算能力,通常只能生成:
- 几秒钟的动画GIF
- 短片片段
而MoGA技术使模型能够"一气呵成"生成包含多个场景转换的"迷你短片"
应用前景
该技术不仅具有科技突破意义,更具备产业化应用潜力:
- 影视创作
- 广告生成
- 游戏过场动画
- 数字人内容制作
行业地位
在全球视频生成领域竞争加剧的背景下(OpenAI、Pika、Runway等公司持续推进短视频生成),该模型被认为是:
中国首个真正能够生成长达分钟级视频的系统
在算法、效率和可扩展性方面的领先优势,有望推动中国在视频生成领域进入全球前沿位置
