AI-NEWS · 2024年 7月 17日

Qwen2-Audio:千问系列的音频多模态模型 无需文字即可语音交互

归纳总结

Qwen2-Audio:阿里云推出的革新性音频多模态模型

  1. 产品概述

    • 阿里云发布了一款名为 Qwen2-Audio 的大规模音频语言模型。
    • 模型可接受多种音频信号输入,进行音频分析或直接回答语音指令,提升了语音交互体验。
  2. 功能与特点

    • 提供两种音频交互模式:音聊天和音频分析。
    • 用户无需输入文字即可与 Qwen2-Audio 进行语音交互。
    • 能智能理解音频内容,并按照语音命令做出响应。
    • 在包含多扬声器对话和语音命令的音频段中,可以直接理解命令并提供解释和响应。
    • 优化了模型在事实性和期望行为遵守方面的性能。
  3. 性能表现

    • 根据 AIR-Bench 的评估结果,Qwen2-Audio 在专注于音频指令跟踪功能的测试中优于以前的 SOTA(如 Gemini-1.5-pro)。
    • 展示了跨语音、声音、音乐和混合音频子集的最先进指令跟踪功能。
    • 英语自动语音识别(ASR)结果显示其性能优于以前的多任务学习模型。
  4. 型号与开放性

    • 推出两款型号:Qwen2-Audio 和 Qwen-Audio-Chat。
    • Qwen2-Audio 是开源的,旨在促进多模态语言社区的进步。
  5. 研究与评估

    • 研究人员将全面评估 Qwen2-Audio 模型在各种任务中的性能,无需特定任务微调。
    • 在 AIR-Bench 的聊天基准上,Qwen2-Audio 表现出实质性的改进,显著优于其他 LALM。

重点

  • 阿里云发布的 Qwen2-Audio 模型提升了语音交互体验。
  • Qwen2-Audio 可以接受多种音频信号输入,进行音频分析或直接回答语音指令,拓展了语音交互功能。
  • 通过三段训练过程,Qwen2-Audio 的模型结构、训练方法和性能表现得到了全面展示,为用户带来优质的音频交互体验。

Source:https://www.aibase.com/news/10271