AI-NEWS · 2026年 1月 20日

英伟达发布实时语音交互黑科技

NVIDIA发布PersonaPlex-7B-v1：全双工“黑科技”重新定义实时语音交互

发布日期：2026年1月19日
来源：AIbase
阅读时长：约3分钟

核心概述

NVIDIA研究团队正式发布了一款名为PersonaPlex-7B-v1的全双工语音到语音对话模型。该模型彻底打破了传统AI语音助手“听一次，答一次”的僵化模式，旨在实现更接近人类交互的自然对话体验。

技术突破

1. 全双工交互模式

支持实时语音流处理，允许用户在AI说话时插话或重叠对话，实现快速响应。
模拟真人对话：AI可以边听边说，即使用户突然打断，也能迅速回应。

2. 单一模型架构

摒弃复杂流水线：不再需要传统的自动语音识别、大语言模型、文本转语音等多阶段处理。
端到端设计：采用单一的Transformer架构，同时预测文本和语音标记，从底层提升对话的自然度。
关键优势：显著降低响应延迟，使AI能够处理自然打断、重叠语音和即时反馈。

3. 深度个性化控制

双模态引导：通过“语音+文本”双重引导，用户不仅能定义AI的角色背景，还能精确控制其语气和语调。
高定制性：支持长达200个token的系统提示词和特定的语音嵌入，可灵活定制AI的个性、业务知识和情感语调。
训练数据：结合海量真实通话数据与合成场景进行训练，使模型在拥有自然语言习惯的同时，能严格遵守特定行业的业务规则。

性能表现

当前评估结果显示，PersonaPlex-7B-v1在对话流畅度和任务完成率上，超越了大多数开源和闭源系统。

总结

PersonaPlex-7B-v1代表了实时语音交互技术的一次重要演进，其全双工能力和端到端设计为解决AI对话中的延迟与不自然问题提供了新的方案，为更拟人化的AI助手应用奠定了基础。

火龙果频道

您可能还喜欢...