AI-NEWS · 2024年 8月 9日

ByteDance and Shanghai Jiao Tong University Launch New Speech Model LSLM for Interactive Listening and Speaking

归纳总结:

项目背景与合作:

  • 开发单位:上海交通大学X-LANCE人工智能实验室与字节跳动合作。
  • 项目名称:LSLM(Listen-Speak Language Model)。

技术特点:

  • 全双工语言模型:实现AI助手在对话中同步听和说,达到真正的实时互动。
  • 核心优势:"边听边说"功能,即使在嘈杂环境中也能正常工作。
  • 创新点:通过令牌解码器进行文本到语音转换(TTS),结合流式自监督学习(SSL)编码器,实现实时自回归生成和对话轮次检测。

实验结果:

  • 融合策略:研究团队探索了早期融合、中期融合和后期融合三种策略,其中中期融合在语音生成和实时交互之间达到了最佳平衡。
  • 噪声抗性:在命令和声音基础的FDM实验设置中表现出强抗噪能力和对多样指令的高敏感度。

应用前景:

  • 用户体验:可无缝集成现有AI系统,大幅提升用户体验,无需完全重构框架。
  • 未来应用场景:家庭、办公室和公共空间中的对话系统将能更自然地与人类实时互动,改变我们与机器沟通的方式,并可能重塑整个人人机互动的格局。

商业与技术意义:

  • 技术演示:展示了在清晰和嘈杂环境下LSLM相较于传统TTS的优势,以及从简单半双工到全双工语音模型的演变过程。
  • 行业影响:LSLM技术的成熟预示着未来AI助手将提供更加丰富、顺畅和类似人类的互动体验,标志着新的人机交互时代的开始,模糊了人机对话的界限。

结论:

  • LSLM的出现不仅具有学术意义,还为语音交互技术的商业应用开辟了新可能,融合科技与人性的高度将进一步提升。

项目链接:

© Copyright AIbase Base 2024, 点击查看来源 – https://www.aibase.com/news/10941

Source:https://www.aibase.com/news/10941