Hume AI 推出“Voice Control”功能
Hume AI,一家专注于情感智能语音接口的初创公司,最近发布了一项实验性功能——“Voice Control”。这一新工具旨在帮助开发者和用户无需编程、AI提示工程或声音设计技能即可创建个性化的AI语音。通过精确调整语音特性,用户可以轻松定制符合需求的声音。
产品背景
此新功能建立在该公司之前发布的“Empathic Voice Interface 2”(EVI2)基础上,增强了语音的自然度、情感响应能力和可定制性。与传统的语音克隆技术不同,Hume的产品专注于提供独特且富有表现力的语音以满足各种应用需求,如客户服务聊天机器人、数字助手、教师、导游和无障碍功能。
Voice Control 功能特点
“Voice Control”允许开发者在十个不同的维度上调整声音特性,包括性别、自信度、兴奋度等。这些维度具体如下:
- 男性女性(MaleFemale):声音的性别范围从更阳刚到更阴柔。
- 自信度(Confidence):声音的坚定程度,范围从怯懦到大胆。
- 浮力(Buoyancy):声音的密度,范围从低沉到轻盈。
- 确信度(Assurance):声音中的确定水平,范围从害羞到自信。
- 热情(Enthusiasm):声音中的兴奋程度,范围从平静到热情。
- 鼻音质量(Nasal Quality):声音的开放性,范围从清晰到鼻音。
- 放松度(Relaxation):声音中的压力水平,范围从紧张到放松。
- 平滑度(Smoothness):声音的质地,范围从平滑到断续。
- 温柔度(Gentleness):声音背后的活力,范围从柔和到强大。
- 紧致度(Tightness):声音的包容性,范围从紧凑到喘息。
用户可以使用虚拟滑块实时微调这些属性,使定制变得简单明了。此功能目前可在Hume的虚拟平台上免费注册的用户访问。
功能影响
“Voice Control”与Hume的情感智能语音接口(EVI)相结合,使其适用于各种应用,如客户服务机器人或虚拟助手。早期版本引入的功能包括对话提示和多语言能力,拓宽了语音AI应用范围。例如,EVI2支持亚秒级响应时间,自然即时的对话,并允许在互动过程中动态调整说话风格。
研究驱动的方法
Hume的研发方法结合跨文化语音录制和情感调查数据,形成EVI2和新推出的“Voice Control”基础,能够详细捕捉人类对声音感知。目前,“Voice Control”处于测试阶段,支持各种应用场景。开发者可以实时选择基础语音、调整特性并预览结果,确保实时应用的一致性和稳定性。
未来计划
Hume计划扩展“Voice Control”的能力,增加可调维度,优化音质,并扩大基础语音选项的范围。在市场竞争日益激烈的背景下,Hume通过个性化声音和情感智能定位,在语音AI领域脱颖而出。