AI-NEWS · 2025年 8月 26日

苹果发布慢快模型

Apple发布SlowFast-LLaVA模型适配:长视频理解性能超越大模型

根据外媒报道,苹果研究团队近期发布了SlowFast-LLaVA模型适配,在长视频分析任务中展现出卓越性能,甚至超越了参数规模更大的模型。这一突破为长视频内容分析提供了高效的新解决方案。

核心架构优势

该模型的核心优势在于其双流架构,有效解决了传统逐帧处理中的信息冗余和上下文窗口溢出问题:

  • 慢速流:以低帧率捕捉静态细节和背景信息
  • 快速流:以高帧率跟踪动作的快速变化

这种协同工作模式大幅优化了视频处理效率。

性能表现数据

在长视频基准测试中,SlowFast-LLaVA表现出色:

参数版本 测试任务 得分
10亿参数 LongVideoBench通用视频问答 56.6
70亿参数 长格式视频理解任务 71.5

除了视频理解,该模型在图像理解任务(如知识推理和OCR)中也表现优异。

当前局限性与未来方向

虽然性能出色,但模型仍存在一定限制:

  • 最大输入帧长度为128帧,可能导致关键信息遗漏

苹果团队表示将继续探索内存优化技术以提升模型性能。

开源与可用性

SlowFast-LLaVA基于公开数据集训练,并已开源,为AI社区在长视频理解领域提供了新思路和高效工具。

火龙果频道