AI-NEWS · 2024年 7月 26日

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

VoxBlink2音视频说话人识别数据集发布

概述

  • 发布方: 武汉大学、中国移动九天人工智能团队、昆山杜克大学
  • 数据来源: YouTube
  • 数据规模: 超过11万小时,包含9904382个高质量音频和相应视频片段
  • 用户数: 111284名
  • 目标: 丰富开源语音语料库,支持训练声纹大模型

数据挖掘步骤

  1. 候选人准备: 收集多语种关键词列表,检索并选取前一分钟的视频用于处理。
  2. 人脸提取&检测: 使用MobileNet检测单个说话人,并抽取视频帧。
  3. 人脸识别: 预训练人脸识别器逐帧识别,确保片段来自同一人。
  4. 活动说话人检测: 利用唇动序列和音频,通过多模态活动说话人检测器输出发声片段,移除多说话人片段。

数据准确率提升

  • 引入了集内人脸识别器旁路步骤,通过粗略人脸提取、人脸验证和人脸采样训练,将准确率从72%提高到92%。

开源模型

  • 模型类型:
    • 基于ResNet的2D卷积模型
    • 基于ECAPA-TDNN的时序模型
    • 基于Simple Attention Module的超大模型ResNet293
  • 性能:
    • 在Vox1-O数据集上经过后处理后可达0.17%的EER和0.006%的minDCF

相关链接

Source:https://www.aibase.com/news/10591