智谱AI宣布开源视频理解模型CogVLM2-Video

代码: GitHub
项目网站: CogVLM2-Video
在线试用: 试用链接

智谱AI宣布开源升级了其视频理解模型CogVLM2-Video。该模型在处理多帧视频图像和时间戳信息方面取得了显著进展，尤其在解决时间信息丢失问题上表现优异。

TQA数据集：Temporal Grounding Question and Answer（TQA）数据集包含3万条记录，提供了丰富的时间定位数据用于模型训练。

CogVLM2-Video在多个公开评测集上展现了卓越的性能，包括：

这些评估指标均显示出模型在视频字幕生成和时间定位方面的优异表现，为视频生成和摘要等任务提供了强大工具。

CogVLM2-Video模型通过创新性地结合多帧视频图像和时间戳信息，显著提升了视频理解和时间定位能力。自动化的数据生成流程和高质量的TQA数据集为模型训练提供了坚实基础。在多个公开评测集上的卓越表现进一步证明了其在视频理解领域的领先地位。这一模型的开源将为业界和学术界提供重要参考和工具支持。

近期新闻