AI-NEWS · 2025年 6月 5日

OpenAudio发布S1语音模型

OpenAudio S1 技术分析报告

核心产品概述

  • 产品名称:OpenAudio S1(由Hanabi AI与Fish Audio联合开发)
  • 核心技术:AI语音合成系统(TTS)与语音转文本(STT)
  • 版本特性:支持指令跟随(instruction following)与多模态交互

关键技术指标

性能数据

指标 数值 行业对比
词错误率(WER) 0.008 领先水平
字符错误率(CER) 0.004 顶尖水平
处理速度(倍速) 150.8x 超实时

模型架构

  1. 基础模型:Qwen3 + Transformer架构
  2. 优化方法
    • RLHF(人类反馈强化学习)
    • GRPO(梯度策略优化)
  3. 编解码器:Descript Audio Codec

功能特性

语音标记系统

  1. 情感标记
    • 愤怒/悲伤/愉悦/讽刺/共情等5类
  2. 语调标记
    • 急促/耳语/喊叫/柔和等4种
  3. 特殊效果
    • 笑声/叹息/抽泣/群体笑声等

竞品对比

功能 OpenAudio S1 ElevenLabs PlayHT
错误率 0.008 WER 0.012 WER 0.015 WER
标记系统 三级13类 二级8类 基础5类

应用场景

  1. Fish Audio Playground
    • 支持TextQA和AudioQA双模式
    • 实时语音交互演示平台
  2. 多语言支持
    • 当前支持中英双语(示例含中文对话场景)

技术亮点

  1. 200参数奖励模型:通过强化学习优化输出质量
  2. 多模态处理:同时处理STT和TTS任务
  3. 超实时性能:达基准速度150.8倍

发展建议

  1. 扩展语言支持(当前主要展示中英文)
  2. 开发更细粒度的情感标记层级
  3. 优化移动端适配(当前UI更适合桌面端)

火龙果频道