AI-NEWS · 2024年 7月 14日

视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!

谷歌推出通用视频模型VideoPrism:革命性的视频理解工具

背景与重要性

  • 复杂性挑战:视频内容比图片复杂得多,包含动态场景、声音和动作,传统AI难以准确理解。
  • 突破创新:谷歌研发的VideoPrism在多个视频理解任务上实现了最先进的水平,包括视频分类、定位、生成字幕及回答视频相关问题。

训练与模型细节

  • 数据规模
    • 3600万个高质量的视频-字幕对
    • 5820百万个带有噪声的平行文本视频片段
  • 模型架构
    • 基于标准视觉变换器(ViT)
    • 采用空间和时间上的因子化设计
  • 训练算法
    • 第一阶段:视频-文本对比学习和全局-局部蒸馏
    • 第二阶段:掩蔽视频建模,进一步提高对视频内容的理解

性能表现

  • 在33个基准测试中,VideoPrism在30个测试中达到最先进水平,展示了其在网络视频问答和科学领域计算机视觉任务中的强大能力。

应用与潜力

  • 多领域应用:教育、娱乐、安全等多个领域
  • 未来研究方向:处理长视频和避免训练偏见等挑战

总结

  • VideoPrism代表了AI视频理解的一次重大突破,极大地提升了机器对视频内容的理解能力。尽管面临一些挑战,其潜在应用前景广阔。

论文地址https://arxiv.org/pdf/2402.13217

Source:https://www.aibase.com/news/10205