AI-NEWS · 2025年 12月 2日

StepFun发布音频大模型Step-Audio-R1

StepFun AI发布音频大语言模型Step-Audio-R1,音频推理能力显著提升

发布日期:2025年12月1日
来源:AIbase

核心摘要

StepFun AI团队近日发布了新的音频大语言模型Step-Audio-R1。该模型有效解决了当前音频AI模型在处理长推理链时准确性下降的问题,其整体性能在多项基准测试中接近行业领先的Gemini3Pro模型。

关键问题与解决方案

问题:文本化推理

  • 当前大多数音频模型在训练时主要依赖文本数据,导致其推理过程类似于“阅读文本”而非“聆听声音”。StepFun团队将此现象称为“文本化推理”。
  • 这并非音频模型固有的能力限制,而是训练方法导致的偏差。

解决方案:模态推理蒸馏

  • Step-Audio-R1要求模型在生成答案时,必须基于音频证据进行推理。
  • 通过一种名为“模态推理蒸馏”的训练方法实现,该方法专门筛选和提炼与音频特征相关的推理路径。

模型架构

  1. 编码器:基于Qwen2音频编码器。
  2. 处理流程
    • 处理原始音频波形。
    • 通过音频适配器将输出下采样至12.5Hz。
    • Qwen2.5-32B解码器消耗音频特征并生成文本。
  3. 推理输出:模型在生成答案时,会在特定标签内产生清晰的推理块,确保推理结构和内容得到优化,且不影响任务准确性。

训练过程与数据

模型训练分为两个阶段,涉及文本和音频任务的混合。

阶段 描述 数据规模
监督冷启动阶段 学习生成对音频和文本都有用的推理,建立基本推理能力。 500万样本,覆盖1亿文本token和40亿音频配对数据。
强化学习阶段 通过多轮“模态推理蒸馏”,从音频问题中提取真实声学特征,进一步优化模型的推理能力。

性能表现

  • 在多项音频理解和推理基准测试中表现出色。
  • 整体得分接近行业领先的Gemini3Pro模型
  • 已在多项基准测试中超越Gemini2.5Pro。

关键要点总结

  1. Step-Audio-R1通过模态推理蒸馏方法,解决了音频推理中的准确性下降问题。
  2. 模型基于Qwen2架构,能在推理过程中清晰区分思考过程与最终答案,提升了音频处理能力。
  3. 模型性能对标顶尖水平,在基准测试中可比肩Gemini3Pro。

火龙果频道