AI-NEWS · 2024年 7月 25日

配音员危!微软VALL-E 2模型语音克隆达到配音员水准

归纳总结:微软VALL-E 2模型语音克隆达到配音员水准

1. 技术亮点与创新:

  • 零样本学习: VALLE-2仅需一段简短的陌生语音样本,即可模仿相同声音说出任意文本内容,展现了惊人的即时模仿能力。
  • 重复感知采样: 改进了随机采样方法,有效缓解了无限循环问题,提高了解码稳定性。
  • 分组代码建模: 通过将编解码器代码分组,减少了序列长度,加速了推理过程,同时提高了性能。
  • 简化的训练数据需求: VALLE-2只需要简单的语音-转录文本数据进行训练,大大简化了数据收集和处理流程。

2. 性能评估:

  • 在主观评分(SMOS和CMOS)和客观指标(SIM、WER和DNSMOS)上,VALLE-2不仅超越了前代模型VALLE,在某些方面甚至优于人类真实语音。

3. 伦理考量与市场反应:

  • 潜在风险: VALLE-2强大的语音模仿能力引发对Deepfake技术滥用的担忧。微软对此持谨慎态度,目前仅将VALLE-2定位为纯研究项目,暂无产品化计划,并强调合成语音检测和授权机制的必要性。
  • 市场反应: 部分用户对微软不发布可试用产品表示失望,业内人士推测微软可能是在规避潜在风险和负面舆论。随着技术成熟和市场竞争加剧,商业化应用可能只是时间问题。

4. 技术局限与改进空间:

  • Demo局限性: 目前公开的演示样本有限,难以全面评估模型性能。
  • 口音适应性: 模型在处理非英美口音时效果有待提高。
  • 计算效率: 尽管有所改进,但在推理速度方面仍有优化空间。

总结

VALLE-2的出现标志着零样本TTS技术迈入新纪元,不仅展示了AI在语音合成领域的巨大潜力,也引发关于技术伦理和责任使用的深度思考。未来,VALLE-2及类似技术很可能在语音助手、内容创作、教育培训等领域带来革命性变革,同时也将推动语音识别和合成检测技术的进步,以应对潜在的滥用风险。

Source:https://www.aibase.com/news/10542