字节跳动开源StoryMem:输入脚本秒生1分钟叙事视频,AI角色从此“脸不崩”
发布日期:2025年12月29日
来源:AIbase Daily
核心摘要
字节跳动与南洋理工大学联合开发的开源框架StoryMem,通过创新的“视觉记忆”机制,解决了AI生成长视频时角色“脸崩”和场景跳跃的痛点。该框架能将现有的单镜头视频扩散模型,转变为可生成超过1分钟、包含多镜头转换、且角色与场景高度连贯的“多镜头长视频叙事者”。
技术原理:基于记忆的逐镜头生成
StoryMem的核心是受人类记忆启发的 “记忆到视频(M2V)” 设计。其工作流程如下:
- 初始化:使用文本到视频(T2V)模块生成初始镜头,作为初始记忆存入动态记忆库。
- 迭代生成:为每个新镜头生成时,通过轻量级的 M2V LoRA 将记忆库中的关键帧信息注入扩散模型。
- 记忆更新:生成后,框架自动提取语义关键帧并进行美学筛选,更新记忆库。
此机制确保了跨镜头在角色外观、场景风格和叙事逻辑上的高度一致性,且仅需轻量级微调,无需大规模长视频数据训练。
性能表现
- 一致性大幅提升:在跨镜头一致性上显著优于现有方法,提升幅度高达 29%。
- 主观评价更优:在人类主观评估中获得更高偏好。
- 保留基础模型优势:继承了基础模型(如Wan2.2)的高画质、高提示词遵循度和镜头控制能力,支持自然转场和自定义故事生成。
- 发布评测基准:框架同时发布了包含 300个 多样化多镜头故事提示词的 ST-Bench 基准数据集,用于标准化评估长视频叙事质量。
应用场景
StoryMem特别适用于需要快速迭代视觉内容的领域:
- 营销与广告:从脚本快速生成动态故事板,用于各种A/B测试版本。
- 电影预制作:协助团队可视化故事板,降低前期概念成本。
- 短视频与独立创作:轻松制作连贯的叙事短片,提升内容专业度。
社区动态
项目开源后,社区反应迅速。已有开发者在 ComfyUI 中实现了初步工作流,支持本地生成长视频,进一步降低了使用门槛。
观点与展望
AIbase观点:长视频一致性一直是AI生成的痛点。StoryMem以轻量高效的方式解决了这一问题,极大地推动了开源视频模型向实用叙事工具的演进。随着更多多模态能力的集成,其在广告、影视和内容创作领域的潜力将进一步释放。
项目地址:StoryMem
本文内容整理自AIbase Daily,已移除无关导航、广告及推荐信息。
