AI-NEWS · 2024年 7月 17日

谷歌开发实时语音转换系统StreamVC 不改变语调情况下改变音色

谷歌实时语音转换系统StreamVC概述

产品简介：
StreamVC是谷歌开发的一种创新的实时语音转换技术，能够在不改变语言内容和韵律的情况下实时改变说话者的音色。这一技术适用于电话、视频会议等实时通信场景，甚至可以实现声音匿名化。

技术亮点：

实时性：StreamVC能在移动设备上实现70.8毫秒的低延迟推理。
高质量语音合成：利用SoundStream神经音频编解码器，实现轻量级、高质量的语音合成。
音高稳定性：通过引入白化基频（f0）信息，提高音高一致性而不泄露源说话者音色信息。

核心技术：

StreamVC灵感来源于Soft-VC和SoundStream。
使用HuBERT模型提取离散语音单元作为内容编码器网络的预测目标。
采用SoundStream神经音频编解码器的架构和训练策略，实现高质量因果音频合成。

实验结果：

在自然度、可理解性、说话者相似度和音高一致性等基准测试中，StreamVC表现出色。
StreamVC能够在保持源语言音调的同时，提供与微调模型相媲美的说话者相似度。

结论：
StreamVC展示了在移动设备上实现低延迟、高效声音转换的可行性。使用HuBERT衍生的软语音单元结合可流式传输的因果卷积神经网络架构，以及向解码器注入白化f0信息，对于提供高质量输出至关重要。

参考文献：

论文地址：https://arxiv.org/pdf/2401.03078

Source:https://www.aibase.com/news/10246

您可能还喜欢...