AI-NEWS · 2026年 3月 3日

北大联合OceanBase研发LoVR基准,革新长视频检索范式

北京大学与OceanBase联合发布长视频检索基准LoVR,获WWW 2026收录

核心摘要

2026年3月2日,由北京大学与蚂蚁集团旗下数据库公司OceanBase联合提出的长视频检索(Long Video Retrieval, LoVR)基准,被国际顶级学术会议WWW 2026(The Web Conference)正式收录。该基准填补了业界在真实长视频多粒度检索评估方面的空白,为长视频理解这一“深水区”提供了权威的评估标准。

项目背景与挑战

传统视频检索基准大多局限于短视频(如抖音风格),难以应对长视频中复杂的语义关联。LoVR基准的提出,旨在系统性地解决长视频检索面临的三大核心挑战:

  1. 长程语义漂移:视频时长过长导致关键语义信息分散或丢失。
  2. 高信息密度:长视频包含大量信息,需要精准定位特定片段。
  3. 多粒度检索需求:用户需求多样,从“找整部电影”到“找某个具体瞬间”均需覆盖。

技术规格与核心突破

LoVR不仅是一个理论框架,更是一个大规模实践数据库,其核心突破体现在以下方面:

1. 全粒度覆盖

  • 视频级(Video-level)宏观检索:支持对整个长视频内容的搜索。
  • 片段级(Clip-level)微观精确定位:支持对视频内特定时刻或片段的精准检索。

2. 可扩展的高质量标注

  • 提出了一种创新的标注流程,结合了大模型(VLM)自动生成、自动质量评分和动态校正
  • 该方法实现了高性价比、可扩展的高质量多模态数据构建。

3. 大规模实践数据库

  • 视频数据:包含467个真实长视频,平均时长超过25分钟
  • 精细切片:生成了超过40,804个细粒度片段。
  • 高质量描述:每个片段都配有经过人机双重验证的高质量文本描述(Captions)。

4. 语义融合技术

  • 引入了语义融合方法,确保在生成全视频摘要时不丢失关键上下文信息
  • 为长程语义建模提供了一个统一的评估平台。

行业意义与影响

  1. 产学合作推动AGI落地:LoVR是北京大学与企业联合研究的代表性成果,标志着国内领先的数据库公司正从单一的存储计算,迈向“向量检索+多模态理解”的前沿领域。
  2. 应对市场需求:随着流媒体、安防监控、在线教育等领域长视频内容的爆发式增长,LoVR提供的多粒度检索标准,将成为未来视频搜索引擎和AI编辑助手实现“可靠”检索的重要基石。
  3. 设立新范式:该基准为长视频的全视频及片段级智能检索开创了新的研究范式。

结论

LoVR基准的建立,为解决长视频检索的复杂问题提供了系统性的评估工具和数据基础。其被WWW 2026收录,证明了该工作在学术与工业结合的前沿价值,有望加速长视频理解技术的发展与应用。

火龙果频道