VoxBlink2音视频说话人识别数据集发布
概述
- 发布方: 武汉大学、中国移动九天人工智能团队、昆山杜克大学
- 数据来源: YouTube
- 数据规模: 超过11万小时,包含9904382个高质量音频和相应视频片段
- 用户数: 111284名
- 目标: 丰富开源语音语料库,支持训练声纹大模型
数据挖掘步骤
- 候选人准备: 收集多语种关键词列表,检索并选取前一分钟的视频用于处理。
- 人脸提取&检测: 使用MobileNet检测单个说话人,并抽取视频帧。
- 人脸识别: 预训练人脸识别器逐帧识别,确保片段来自同一人。
- 活动说话人检测: 利用唇动序列和音频,通过多模态活动说话人检测器输出发声片段,移除多说话人片段。
数据准确率提升
- 引入了集内人脸识别器旁路步骤,通过粗略人脸提取、人脸验证和人脸采样训练,将准确率从72%提高到92%。
开源模型
- 模型类型:
- 基于ResNet的2D卷积模型
- 基于ECAPA-TDNN的时序模型
- 基于Simple Attention Module的超大模型ResNet293
- 性能:
- 在Vox1-O数据集上经过后处理后可达0.17%的EER和0.006%的minDCF
相关链接
Source:https://www.aibase.com/news/10591