AI-NEWS · 2025年 12月 29日

Input a Scene Script and Generate a 1-Minute Cohesive Narrative Video in Seconds! ByteDance Open-Sources StoryMem to Keep AI Video Characters’ Faces Constant

字节跳动开源StoryMem:输入脚本秒生1分钟叙事视频,AI角色从此“脸不崩”

发布日期:2025年12月29日
来源:AIbase Daily

核心摘要

字节跳动与南洋理工大学联合开发的开源框架StoryMem,通过创新的“视觉记忆”机制,解决了AI生成长视频时角色“脸崩”和场景跳跃的痛点。该框架能将现有的单镜头视频扩散模型,转变为可生成超过1分钟、包含多镜头转换、且角色与场景高度连贯的“多镜头长视频叙事者”。

技术原理:基于记忆的逐镜头生成

StoryMem的核心是受人类记忆启发的 “记忆到视频(M2V)” 设计。其工作流程如下:

  1. 初始化:使用文本到视频(T2V)模块生成初始镜头,作为初始记忆存入动态记忆库。
  2. 迭代生成:为每个新镜头生成时,通过轻量级的 M2V LoRA 将记忆库中的关键帧信息注入扩散模型。
  3. 记忆更新:生成后,框架自动提取语义关键帧并进行美学筛选,更新记忆库。

此机制确保了跨镜头在角色外观、场景风格和叙事逻辑上的高度一致性,且仅需轻量级微调,无需大规模长视频数据训练。

性能表现

  • 一致性大幅提升:在跨镜头一致性上显著优于现有方法,提升幅度高达 29%
  • 主观评价更优:在人类主观评估中获得更高偏好。
  • 保留基础模型优势:继承了基础模型(如Wan2.2)的高画质、高提示词遵循度和镜头控制能力,支持自然转场和自定义故事生成。
  • 发布评测基准:框架同时发布了包含 300个 多样化多镜头故事提示词的 ST-Bench 基准数据集,用于标准化评估长视频叙事质量。

应用场景

StoryMem特别适用于需要快速迭代视觉内容的领域:

  • 营销与广告:从脚本快速生成动态故事板,用于各种A/B测试版本。
  • 电影预制作:协助团队可视化故事板,降低前期概念成本。
  • 短视频与独立创作:轻松制作连贯的叙事短片,提升内容专业度。

社区动态

项目开源后,社区反应迅速。已有开发者在 ComfyUI 中实现了初步工作流,支持本地生成长视频,进一步降低了使用门槛。

观点与展望

AIbase观点:长视频一致性一直是AI生成的痛点。StoryMem以轻量高效的方式解决了这一问题,极大地推动了开源视频模型向实用叙事工具的演进。随着更多多模态能力的集成,其在广告、影视和内容创作领域的潜力将进一步释放。

项目地址StoryMem


本文内容整理自AIbase Daily,已移除无关导航、广告及推荐信息。

火龙果频道