字节跳动开源StoryMem：输入脚本秒生1分钟叙事视频，AI角色从此“脸不崩”

发布日期：2025年12月29日
来源：AIbase Daily

核心摘要

字节跳动与南洋理工大学联合开发的开源框架StoryMem，通过创新的“视觉记忆”机制，解决了AI生成长视频时角色“脸崩”和场景跳跃的痛点。该框架能将现有的单镜头视频扩散模型，转变为可生成超过1分钟、包含多镜头转换、且角色与场景高度连贯的“多镜头长视频叙事者”。

StoryMem的核心是受人类记忆启发的 “记忆到视频（M2V）” 设计。其工作流程如下：

此机制确保了跨镜头在角色外观、场景风格和叙事逻辑上的高度一致性，且仅需轻量级微调，无需大规模长视频数据训练。

StoryMem特别适用于需要快速迭代视觉内容的领域：

项目开源后，社区反应迅速。已有开发者在 ComfyUI 中实现了初步工作流，支持本地生成长视频，进一步降低了使用门槛。

AIbase观点：长视频一致性一直是AI生成的痛点。StoryMem以轻量高效的方式解决了这一问题，极大地推动了开源视频模型向实用叙事工具的演进。随着更多多模态能力的集成，其在广告、影视和内容创作领域的潜力将进一步释放。

项目地址：StoryMem

本文内容整理自AIbase Daily，已移除无关导航、广告及推荐信息。