北京大学与OceanBase联合发布长视频检索基准LoVR，获WWW 2026收录

核心摘要

2026年3月2日，由北京大学与蚂蚁集团旗下数据库公司OceanBase联合提出的长视频检索（Long Video Retrieval, LoVR）基准，被国际顶级学术会议WWW 2026（The Web Conference）正式收录。该基准填补了业界在真实长视频多粒度检索评估方面的空白，为长视频理解这一“深水区”提供了权威的评估标准。

项目背景与挑战

传统视频检索基准大多局限于短视频（如抖音风格），难以应对长视频中复杂的语义关联。LoVR基准的提出，旨在系统性地解决长视频检索面临的三大核心挑战：

长程语义漂移：视频时长过长导致关键语义信息分散或丢失。
高信息密度：长视频包含大量信息，需要精准定位特定片段。
多粒度检索需求：用户需求多样，从“找整部电影”到“找某个具体瞬间”均需覆盖。

技术规格与核心突破

LoVR不仅是一个理论框架，更是一个大规模实践数据库，其核心突破体现在以下方面：

1. 全粒度覆盖

视频级（Video-level）宏观检索：支持对整个长视频内容的搜索。
片段级（Clip-level）微观精确定位：支持对视频内特定时刻或片段的精准检索。

2. 可扩展的高质量标注

提出了一种创新的标注流程，结合了大模型（VLM）自动生成、自动质量评分和动态校正。
该方法实现了高性价比、可扩展的高质量多模态数据构建。

3. 大规模实践数据库

视频数据：包含467个真实长视频，平均时长超过25分钟。
精细切片：生成了超过40,804个细粒度片段。
高质量描述：每个片段都配有经过人机双重验证的高质量文本描述（Captions）。

4. 语义融合技术

引入了语义融合方法，确保在生成全视频摘要时不丢失关键上下文信息。
为长程语义建模提供了一个统一的评估平台。

行业意义与影响

产学合作推动AGI落地：LoVR是北京大学与企业联合研究的代表性成果，标志着国内领先的数据库公司正从单一的存储计算，迈向“向量检索+多模态理解”的前沿领域。
应对市场需求：随着流媒体、安防监控、在线教育等领域长视频内容的爆发式增长，LoVR提供的多粒度检索标准，将成为未来视频搜索引擎和AI编辑助手实现“可靠”检索的重要基石。
设立新范式：该基准为长视频的全视频及片段级智能检索开创了新的研究范式。

结论

LoVR基准的建立，为解决长视频检索的复杂问题提供了系统性的评估工具和数据基础。其被WWW 2026收录，证明了该工作在学术与工业结合的前沿价值，有望加速长视频理解技术的发展与应用。

火龙果频道

近期新闻

AI-NEWS · 2026年 3月 3日

北大联合OceanBase研发LoVR基准，革新长视频检索范式

北京大学与OceanBase联合发布长视频检索基准LoVR，获WWW 2026收录

核心摘要

项目背景与挑战

技术规格与核心突破

1. 全粒度覆盖

2. 可扩展的高质量标注

3. 大规模实践数据库

4. 语义融合技术

行业意义与影响

结论

您可能还喜欢...

AI-NEWS · 2026年 3月 3日

北京大学与OceanBase联合发布长视频检索基准LoVR，获WWW 2026收录

核心摘要

项目背景与挑战

技术规格与核心突破

1. 全粒度覆盖

2. 可扩展的高质量标注

3. 大规模实践数据库

4. 语义融合技术

行业意义与影响

结论

您可能还喜欢...

谷歌2024年硬件大秀：Pixel 9、Gemini以及新款可折叠手机等

Grok3答错题引担忧

谷歌推”小小语言课”