AI-NEWS · 2025年 9月 2日

开源语音大模型发布

开源语音大模型 Step-Audio 2 mini 发布:听清说准,自然流畅

模型概览

StepZen 公司于2025年9月1日正式发布最新开源端到端语音大模型 Step-Audio2mini。该模型在国际多项基准测试中表现卓越,达到 SOTA(State-of-the-Art)水平,实现了语音理解与音频生成的统一建模,为语音识别、跨语言翻译和情感分析等应用场景提供优秀解决方案。

核心性能表现

多模态音频理解能力

  • 在 MMAU(多模态音频理解数据集)评测中,以 73.2分 位列开源语音模型榜首
  • 在 URO Bench 对话能力测试中,无论是基础赛道还是专业赛道,均获得开源模型最高分

中英翻译任务表现

  • CoVoST2 评测集得分:39.3分
  • CVSS 评测集得分:29.1分
  • 显著超越 GPT-4o Audio 及其他开源语音模型

语音识别准确率

  • 中文测试集字符错误率(CER):3.19%
  • 英文测试集词错误率(WER):3.50%
  • 领先其他开源模型超过 15个百分点

技术创新亮点

架构突破

  • 打破传统 ASR(自动语音识别)+ LLM(大语言模型)+ TTS(文本转语音)三层结构
  • 实现从原始音频输入到语音响应输出的直接转换
  • 简化架构设计,显著降低延迟

优化技术

  • 引入思维链(CoT)推理与强化学习相结合的联合优化技术
  • 更好理解情感、语调等副语言信息,实现自然响应

知识增强功能

  • 支持音频知识增强,可通过外部工具进行在线搜索
  • 有效解决传统模型的幻觉问题
  • 提升模型实用性,拓展多场景应用潜力

获取方式

Step-Audio2mini 目前已登陆 GitHub 和 Hugging Face 等平台,开发者可前往体验并参与代码贡献。

火龙果频道