开源语音大模型 Step-Audio 2 mini 发布：听清说准，自然流畅

模型概览

StepZen 公司于2025年9月1日正式发布最新开源端到端语音大模型 Step-Audio2mini。该模型在国际多项基准测试中表现卓越，达到 SOTA（State-of-the-Art）水平，实现了语音理解与音频生成的统一建模，为语音识别、跨语言翻译和情感分析等应用场景提供优秀解决方案。

核心性能表现

多模态音频理解能力

在 MMAU（多模态音频理解数据集）评测中，以 73.2分 位列开源语音模型榜首
在 URO Bench 对话能力测试中，无论是基础赛道还是专业赛道，均获得开源模型最高分

中英翻译任务表现

CoVoST2 评测集得分：39.3分
CVSS 评测集得分：29.1分
显著超越 GPT-4o Audio 及其他开源语音模型

语音识别准确率

中文测试集字符错误率（CER）：3.19%
英文测试集词错误率（WER）：3.50%
领先其他开源模型超过 15个百分点

技术创新亮点

架构突破

打破传统 ASR（自动语音识别）+ LLM（大语言模型）+ TTS（文本转语音）三层结构
实现从原始音频输入到语音响应输出的直接转换
简化架构设计，显著降低延迟

优化技术

引入思维链（CoT）推理与强化学习相结合的联合优化技术
更好理解情感、语调等副语言信息，实现自然响应

知识增强功能

支持音频知识增强，可通过外部工具进行在线搜索
有效解决传统模型的幻觉问题
提升模型实用性，拓展多场景应用潜力

获取方式

Step-Audio2mini 目前已登陆 GitHub 和 Hugging Face 等平台，开发者可前往体验并参与代码贡献。

火龙果频道

近期新闻

AI-NEWS · 2025年 9月 2日

开源语音大模型发布

开源语音大模型 Step-Audio 2 mini 发布：听清说准，自然流畅

模型概览

核心性能表现

多模态音频理解能力

中英翻译任务表现

语音识别准确率

技术创新亮点

架构突破

优化技术

知识增强功能

获取方式

您可能还喜欢...

AI-NEWS · 2025年 9月 2日

开源语音大模型 Step-Audio 2 mini 发布：听清说准，自然流畅

模型概览

核心性能表现

多模态音频理解能力

中英翻译任务表现

语音识别准确率

技术创新亮点

架构突破

优化技术

知识增强功能

获取方式

您可能还喜欢...

融资50亿创纪录

谷歌押注精英团队，想赢回 AI 效率

清华AI药筛提速百万倍