AI-NEWS · 2024年 8月 9日

ByteDance and Shanghai Jiao Tong University Launch New Speech Model LSLM for Interactive Listening and Speaking

归纳总结：

项目背景与合作：

开发单位：上海交通大学X-LANCE人工智能实验室与字节跳动合作。
项目名称：LSLM（Listen-Speak Language Model）。

技术特点：

全双工语言模型：实现AI助手在对话中同步听和说，达到真正的实时互动。
核心优势："边听边说"功能，即使在嘈杂环境中也能正常工作。
创新点：通过令牌解码器进行文本到语音转换（TTS），结合流式自监督学习（SSL）编码器，实现实时自回归生成和对话轮次检测。

实验结果：

融合策略：研究团队探索了早期融合、中期融合和后期融合三种策略，其中中期融合在语音生成和实时交互之间达到了最佳平衡。
噪声抗性：在命令和声音基础的FDM实验设置中表现出强抗噪能力和对多样指令的高敏感度。

应用前景：

用户体验：可无缝集成现有AI系统，大幅提升用户体验，无需完全重构框架。
未来应用场景：家庭、办公室和公共空间中的对话系统将能更自然地与人类实时互动，改变我们与机器沟通的方式，并可能重塑整个人人机互动的格局。

商业与技术意义：

技术演示：展示了在清晰和嘈杂环境下LSLM相较于传统TTS的优势，以及从简单半双工到全双工语音模型的演变过程。
行业影响：LSLM技术的成熟预示着未来AI助手将提供更加丰富、顺畅和类似人类的互动体验，标志着新的人机交互时代的开始，模糊了人机对话的界限。

结论：

LSLM的出现不仅具有学术意义，还为语音交互技术的商业应用开辟了新可能，融合科技与人性的高度将进一步提升。

项目链接：

https://top.aibase.com/tool/lslm

© Copyright AIbase Base 2024, 点击查看来源 – https://www.aibase.com/news/10941

Source:https://www.aibase.com/news/10941

您可能还喜欢...