AI-NEWS · 2025年 6月 5日

OpenAudio发布S1语音模型

OpenAudio S1 技术分析报告

核心产品概述

产品名称：OpenAudio S1（由Hanabi AI与Fish Audio联合开发）
核心技术：AI语音合成系统（TTS）与语音转文本（STT）
版本特性：支持指令跟随（instruction following）与多模态交互

关键技术指标

性能数据

指标	数值	行业对比
词错误率(WER)	0.008	领先水平
字符错误率(CER)	0.004	顶尖水平
处理速度(倍速)	150.8x	超实时

模型架构

基础模型：Qwen3 + Transformer架构
优化方法：
- RLHF（人类反馈强化学习）
- GRPO（梯度策略优化）
编解码器：Descript Audio Codec

功能特性

语音标记系统

情感标记：
- 愤怒/悲伤/愉悦/讽刺/共情等5类
语调标记：
- 急促/耳语/喊叫/柔和等4种
特殊效果：
- 笑声/叹息/抽泣/群体笑声等

竞品对比

功能	OpenAudio S1	ElevenLabs	PlayHT
错误率	0.008 WER	0.012 WER	0.015 WER
标记系统	三级13类	二级8类	基础5类

应用场景

Fish Audio Playground：
- 支持TextQA和AudioQA双模式
- 实时语音交互演示平台
多语言支持：
- 当前支持中英双语（示例含中文对话场景）

技术亮点

200参数奖励模型：通过强化学习优化输出质量
多模态处理：同时处理STT和TTS任务
超实时性能：达基准速度150.8倍

发展建议

扩展语言支持（当前主要展示中英文）
开发更细粒度的情感标记层级
优化移动端适配（当前UI更适合桌面端）

火龙果频道

您可能还喜欢...