AI-NEWS · 2025年 2月 20日

西工大开源OSUM语音模型

西北工业大学ASLP实验室开放语音理解模型OSUM分析

一、模型架构与技术特性

核心组件：整合Whisper编码器与Qwen2语言模型
支持任务：覆盖8类语音理解任务
（ASR、SRWT、VED、SER、SSR、SGC、SAP、STTC）
训练策略：采用ASRX策略优化多任务学习，实现语音识别与目标任务协同优化

二、核心数据指标

数据类别	v2.0数据量	对比前版本增幅
总训练数据	50.5K小时	+14.5%
语音性别分类数据	3,000小时	新增专项数据
说话人年龄预测数据	6,800小时	新增专项数据

三、性能优势

跨任务表现：在公开/内部测试集上均超越Qwen2-Audio模型
资源效率：使用更少计算资源（未披露具体数值）和更小训练数据规模实现性能突破
泛化能力：通过多任务协同训练提升模型鲁棒性

四、开源策略与影响

开放程度：代码/模型权重全开源（Apache 2.0协议）
商业授权：允许商用，降低技术应用门槛
学术价值：公开训练方法及数据制备流程，提供可复现基准

五、技术亮点深度解析

数据驱动突破：专项数据扩充（性别/年龄数据占比达19.4%）直接提升细分任务性能
多模态融合：语音-文本跨模态架构设计支持复杂场景理解
轻量化适配：在有限算力条件下验证高效训练范式

六、应用前景展望

学术研究：为资源受限机构提供可扩展的语音理解研究平台
工业落地：开源商用特性加速智能客服、语音分析等场景应用
技术演进：验证语音与语言模型融合路径的有效性，推动端到端语音理解发展

火龙果频道

您可能还喜欢...