AI-NEWS · 2025年 10月 22日

鱼音S1:10秒克隆人声

Fish Audio发布升级版S1语音克隆模型:10秒克隆真人语音

核心突破

  • 情感表达与真实感:新版S1模型在情感表达和真实感方面实现重大突破,能生成具有丰富情感、节奏和音调变化的人声,几乎完美复现人类语音的细微差异
  • 克隆效率:仅需约10秒语音样本即可克隆任何声音
  • 保真度:完整保留原始口音、语调和节奏,再现个人说话习惯和情感特征

技术优势

  • 成本优势:相比国际知名产品ElevenLabs,价格便宜约6倍
  • 实时性能
    • 首帧延迟(TTFT)小于500毫秒
    • 半秒内开始播放句子
    • 支持输入输出流式传输
  • 功能特性
    • 支持边接收文本边朗读的自然交互
    • 允许无限克隆不同声音并自由切换

行业影响

行业专家认为,Fish Audio S1的升级标志着语音克隆技术正从"可用"向"可感知"迈进。其高保真和低延迟特性将加速AI语音在以下领域的广泛应用:

  • 虚拟人
  • 智能助手
  • 内容创作
  • 配音领域

同步发布

Fish Audio S1 API已同步上线,显著提升实时语音生成体验。

火龙果频道