Apple发布SlowFast-LLaVA模型适配：长视频理解性能超越大模型

根据外媒报道，苹果研究团队近期发布了SlowFast-LLaVA模型适配，在长视频分析任务中展现出卓越性能，甚至超越了参数规模更大的模型。这一突破为长视频内容分析提供了高效的新解决方案。

核心架构优势

该模型的核心优势在于其双流架构，有效解决了传统逐帧处理中的信息冗余和上下文窗口溢出问题：

这种协同工作模式大幅优化了视频处理效率。

在长视频基准测试中，SlowFast-LLaVA表现出色：

参数版本	测试任务	得分
10亿参数	LongVideoBench通用视频问答	56.6
70亿参数	长格式视频理解任务	71.5

除了视频理解，该模型在图像理解任务（如知识推理和OCR）中也表现优异。

虽然性能出色，但模型仍存在一定限制：

苹果团队表示将继续探索内存优化技术以提升模型性能。

SlowFast-LLaVA基于公开数据集训练，并已开源，为AI社区在长视频理解领域提供了新思路和高效工具。