AI-NEWS · 2025年 12月 2日

StepFun发布音频大模型Step-Audio-R1

StepFun AI发布音频大语言模型Step-Audio-R1，音频推理能力显著提升

发布日期：2025年12月1日
来源：AIbase

核心摘要

StepFun AI团队近日发布了新的音频大语言模型Step-Audio-R1。该模型有效解决了当前音频AI模型在处理长推理链时准确性下降的问题，其整体性能在多项基准测试中接近行业领先的Gemini3Pro模型。

关键问题与解决方案

问题：文本化推理

当前大多数音频模型在训练时主要依赖文本数据，导致其推理过程类似于“阅读文本”而非“聆听声音”。StepFun团队将此现象称为“文本化推理”。
这并非音频模型固有的能力限制，而是训练方法导致的偏差。

解决方案：模态推理蒸馏

Step-Audio-R1要求模型在生成答案时，必须基于音频证据进行推理。
通过一种名为“模态推理蒸馏”的训练方法实现，该方法专门筛选和提炼与音频特征相关的推理路径。

模型架构

编码器：基于Qwen2音频编码器。
处理流程：
- 处理原始音频波形。
- 通过音频适配器将输出下采样至12.5Hz。
- Qwen2.5-32B解码器消耗音频特征并生成文本。
推理输出：模型在生成答案时，会在特定标签内产生清晰的推理块，确保推理结构和内容得到优化，且不影响任务准确性。

训练过程与数据

模型训练分为两个阶段，涉及文本和音频任务的混合。

阶段	描述	数据规模
监督冷启动阶段	学习生成对音频和文本都有用的推理，建立基本推理能力。	500万样本，覆盖1亿文本token和40亿音频配对数据。
强化学习阶段	通过多轮“模态推理蒸馏”，从音频问题中提取真实声学特征，进一步优化模型的推理能力。	–

性能表现

在多项音频理解和推理基准测试中表现出色。
整体得分接近行业领先的Gemini3Pro模型。
已在多项基准测试中超越Gemini2.5Pro。

关键要点总结

Step-Audio-R1通过模态推理蒸馏方法，解决了音频推理中的准确性下降问题。
模型基于Qwen2架构，能在推理过程中清晰区分思考过程与最终答案，提升了音频处理能力。
模型性能对标顶尖水平，在基准测试中可比肩Gemini3Pro。

火龙果频道

您可能还喜欢...