AI-NEWS · 2025年 10月 1日

DeepMind推FrameChain

DeepMind提出FrameChain概念:视频模型或实现全面视觉理解

核心概念

链式帧推理(Chain of Frames, CoF) – DeepMind在其最新论文中提出的突破性概念,标志着视频生成模型发展的又一重要进展。

概念类比

  • 与"思维链(Chain of Thought, CoT)"相似:CoT使语言模型能够进行符号推理
  • CoF的创新:使视频模型能够在时间和空间维度上进行推理,赋予视频生成模型独立思考能力

研究目标

DeepMind研究团队提出大胆设想:视频生成模型能否具备通用视觉理解能力,类似于当前的大型语言模型(LLMs),使其无需专门训练即可处理各种视觉任务。

当前行业现状

机器视觉领域仍处于传统阶段:

  • 不同任务需要不同模型
  • 如物体分割、物体检测等任务
  • 每个任务都需要重新调整模型

验证方法

研究团队采用直接验证方式:

  • 输入:仅提供初始图像和文本指令
  • 输出:观察模型是否能生成720p分辨率、8秒时长的视频
  • 类比:类似于大型语言模型通过提示词执行任务的方式

实验结果

DeepMind的Veo3模型在多个经典视觉任务中表现优异:

三大能力体现

  1. 感知能力 – 对视觉信息的理解
  2. 建模能力 – 构建视觉场景
  3. 操控能力 – 对视觉内容的控制

突出表现

在跨时空视觉推理方面表现突出,成功规划了一系列路径,能够解决复杂的视觉挑战。

核心结论

1. 强大的通用适应性

Veo3能够解决许多未经专门训练的任务,展现出强大的通用能力。

2. 视觉推理的早期迹象

通过分析生成的视频,Veo3展现出类似"链式帧推理"的视觉推理能力,逐步构建对视觉世界的理解。

3. 明显的快速发展趋势

  • 虽然特定任务模型表现更好
  • 但Veo3的能力正在快速提升
  • 预示着未来可能出现更强大的通用视觉模型

未来展望

DeepMind认为:

  • 通用视频模型可能取代专用模型,就像早期的GPT-3最终成为强大的基础模型
  • 随着成本逐渐降低,视频生成模型的广泛应用即将到来
  • 机器视觉的新时代正在向我们走来

论文地址:FrameChain

火龙果频道