AI-NEWS · 2025年 2月 20日

西工大开源OSUM语音模型

西北工业大学ASLP实验室开放语音理解模型OSUM分析

一、模型架构与技术特性

  • 核心组件:整合Whisper编码器与Qwen2语言模型
  • 支持任务:覆盖8类语音理解任务
    (ASR、SRWT、VED、SER、SSR、SGC、SAP、STTC)
  • 训练策略:采用ASRX策略优化多任务学习,实现语音识别与目标任务协同优化

二、核心数据指标

数据类别 v2.0数据量 对比前版本增幅
总训练数据 50.5K小时 +14.5%
语音性别分类数据 3,000小时 新增专项数据
说话人年龄预测数据 6,800小时 新增专项数据

三、性能优势

  • 跨任务表现:在公开/内部测试集上均超越Qwen2-Audio模型
  • 资源效率:使用更少计算资源(未披露具体数值)和更小训练数据规模实现性能突破
  • 泛化能力:通过多任务协同训练提升模型鲁棒性

四、开源策略与影响

  • 开放程度:代码/模型权重全开源(Apache 2.0协议)
  • 商业授权:允许商用,降低技术应用门槛
  • 学术价值:公开训练方法及数据制备流程,提供可复现基准

五、技术亮点深度解析

  1. 数据驱动突破:专项数据扩充(性别/年龄数据占比达19.4%)直接提升细分任务性能
  2. 多模态融合:语音-文本跨模态架构设计支持复杂场景理解
  3. 轻量化适配:在有限算力条件下验证高效训练范式

六、应用前景展望

  • 学术研究:为资源受限机构提供可扩展的语音理解研究平台
  • 工业落地:开源商用特性加速智能客服、语音分析等场景应用
  • 技术演进:验证语音与语言模型融合路径的有效性,推动端到端语音理解发展

火龙果频道