AI-NEWS · 2024年 7月 17日

谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色

谷歌实时语音转换系统StreamVC概述

产品简介:
StreamVC是谷歌开发的一种创新的实时语音转换技术,能够在不改变语言内容和韵律的情况下实时改变说话者的音色。这一技术适用于电话、视频会议等实时通信场景,甚至可以实现声音匿名化。

技术亮点:

  1. 实时性:StreamVC能在移动设备上实现70.8毫秒的低延迟推理。
  2. 高质量语音合成:利用SoundStream神经音频编解码器,实现轻量级、高质量的语音合成。
  3. 音高稳定性:通过引入白化基频(f0)信息,提高音高一致性而不泄露源说话者音色信息。

核心技术:

  • StreamVC灵感来源于Soft-VC和SoundStream。
  • 使用HuBERT模型提取离散语音单元作为内容编码器网络的预测目标。
  • 采用SoundStream神经音频编解码器的架构和训练策略,实现高质量因果音频合成。

实验结果:

  • 在自然度、可理解性、说话者相似度和音高一致性等基准测试中,StreamVC表现出色。
  • StreamVC能够在保持源语言音调的同时,提供与微调模型相媲美的说话者相似度。

结论:
StreamVC展示了在移动设备上实现低延迟、高效声音转换的可行性。使用HuBERT衍生的软语音单元结合可流式传输的因果卷积神经网络架构,以及向解码器注入白化f0信息,对于提供高质量输出至关重要。

参考文献:

Source:https://www.aibase.com/news/10246