AI-NEWS · 2024年 7月 12日

智谱AI宣布开源视频理解模型CogVLM2-Video

材料归纳总结

1. 模型介绍

智谱AI宣布开源升级了其视频理解模型CogVLM2-Video。该模型在处理多帧视频图像和时间戳信息方面取得了显著进展,尤其在解决时间信息丢失问题上表现优异。

2. 核心技术

  • 多帧输入与时间戳编码:通过引入多帧视频图像和时间戳作为编码器输入,增强了模型的时间定位能力。
  • 自动化数据生成:利用图像理解模型和大型语言模型结合的方法,构建了3万条与时间相关的视频问答数据,提高了数据质量并减少了标注成本。

3. 数据集与训练

  • TQA数据集:Temporal Grounding Question and Answer(TQA)数据集包含3万条记录,提供了丰富的时间定位数据用于模型训练。

4. 性能表现

CogVLM2-Video在多个公开评测集上展现了卓越的性能,包括:

  • VideoChatGPT-Bench
  • Zero-shot QA
  • MVBench

这些评估指标均显示出模型在视频字幕生成和时间定位方面的优异表现,为视频生成和摘要等任务提供了强大工具。

5. 资源链接

总结

CogVLM2-Video模型通过创新性地结合多帧视频图像和时间戳信息,显著提升了视频理解和时间定位能力。自动化的数据生成流程和高质量的TQA数据集为模型训练提供了坚实基础。在多个公开评测集上的卓越表现进一步证明了其在视频理解领域的领先地位。这一模型的开源将为业界和学术界提供重要参考和工具支持。

Source:https://www.aibase.com/news/10197