AI-NEWS · 2024年 7月 8日

阿里通义音频生成大模型 FunAudioLLM 开源 支持情绪语音对话、有声读物等场景

阿里通义音频生成大模型 FunAudioLLM 开源总结

概述

阿里通义实验室近日开源了FunAudioLLM,这一音频生成大模型旨在提升人类与大型语言模型(LLMs)之间的自然语音交互体验。该项目包含两个核心模型:SenseVoice和CosyVoice。

核心模型介绍

  1. CosyVoice

    • 功能:专注于自然语音生成,支持多语言、音色和情感控制。
    • 应用场景:多语言语音生成、零样本语音生成、跨语言声音合成、指令执行。
    • 技术细节:通过15万小时的数据训练,支持中英日粤韩五种语言。具备快速模拟音色和细粒度情感、韵律控制的能力。
  2. SenseVoice

    • 功能:高精度多语言语音识别、情感辨识和音频事件检测。
    • 应用场景:自动语音识别、语言识别、情感识别、音频事件检测。
    • 技术细节:经过40万小时的数据训练,支持超过50种语言,识别效果优于Whisper模型,在中文和粤语上提升超过50%。具备快速推理速度。

应用场景

FunAudioLLM可广泛应用于多种人机交互场景,包括:

  • 多语言翻译
  • 情绪语音对话
  • 互动播客
  • 有声读物

通过结合SenseVoice、LLMs和CosyVoice,能够实现无缝的语音到语音翻译、情感语音聊天应用程序以及互动式播客电台。

技术原理

  • CosyVoice:基于语音量化编码,支持自然流畅的语音生成。
  • SenseVoice:提供全面的语音处理功能,包括自动语音识别、语言识别、情感识别和音频事件检测。

开源信息

  • 发布平台:ModelScope和Huggingface
  • 代码和模型:在GitHub上提供训练、推理和微调代码。
  • 在线体验:CosyVoice和SenseVoice模型均在ModelScope上提供在线体验。

项目地址

https://github.com/FunAudioLLM

数据分析和深度观点

  1. 数据规模

    • CosyVoice通过15万小时数据训练,SenseVoice通过40万小时数据训练。这些大规模数据训练为模型提供了强大的基础,使其在多语言和情感识别等方面表现出色。
  2. 性能提升

    • SenseVoice在中文和粤语上的识别性能提升超过50%,这对于需要高精度语音识别的应用场景尤为重要,如客服系统和智能助理。
  3. 市场潜力

    • 多语言支持和情感识别功能使得FunAudioLLM在全球市场具有广泛应用前景,尤其是在跨国企业和多语言服务平台上。
  4. 创新性

    • 结合LLMs、SenseVoice和CosyVoice的综合能力,为用户提供了无缝的语音到语音翻译和情感交互体验,这在当前的AI语音技术领域具有较高的创新性和竞争优势。

总体来看,FunAudioLLM的开源不仅丰富了语音生成和识别的技术生态,还为各类应用场景提供了强大的技术支持,具有显著的商业和技术价值。

Source:https://www.aibase.com/news/10074