香港大学与快手可灵合作突破长视频一致性瓶颈,革命性记忆检索技术发布
研究背景
香港大学与快手可灵团队近日发表突破性论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出革命性的"Context-as-Memory"方法,成功解决了长视频生成中场景一致性控制的核心难题。
核心创新:将历史上下文视为"记忆"载体
- 将历史生成内容作为"记忆"处理
- 利用上下文学习技术学习上下文条件
- 实现长视频场景的高级别一致性控制
- 研究发现视频生成模型无需显式3D建模即可隐式学习视频数据中的3D先验,与Google的Genie3理念一致
技术突破:基于视场的记忆检索机制显著提升效率
- 针对理论上无限长的历史帧序列带来的计算负担,提出基于相机轨迹视场(FOV)的记忆检索机制
- 智能选择与当前生成视频高度相关的历史帧作为记忆条件
- 通过动态检索策略,根据相机轨迹FOV的重叠关系确定预测帧与历史帧的相关性
- 大幅减少需要学习的上下文数量,实现模型训练和推理效率的质的飞跃
数据构建与应用场景
- 使用Unreal Engine 5收集了具有精确相机轨迹标注的多样化长视频数据集
- 用户仅需提供初始图像即可沿设定相机轨迹自由探索生成的虚拟世界
性能表现超越现有方法
- 在数十秒时间尺度上保持优秀的静态场景记忆
- 在不同场景间展现出良好的泛化能力
- 相比现有SOTA方法,在长视频生成的场景记忆方面实现显著性能提升
- 在未见过的开放域场景中有效保持记忆连续性
技术意义
这一突破标志着AI视频生成技术向更长时间序列和更高一致性迈出了重要一步,为虚拟世界构建和电影制作等应用领域开辟了新的可能性。
发布时间:2025年8月26日
来源:AIbase Daily