字节跳动发布全双工语音模型

4 月 9 日，字节跳动 Seed 团队发布了 Seeduplex。简单来说，这就是把咱们平时那种“你一句我一句”的轮替式对话，变成了像跟真人聊天一样，可以同时说话、实时互动的全双工模式。

目前，这个模型已经直接放到了抖音 App 里，作为语音功能的核心升级。这意味着全双工技术终于从实验室里跑通了，真正落到了几亿用户的手机上。

这玩意儿到底强在哪？

Seeduplex 最大的突破在于“边听边说”的同步处理。以前那种半双工模式，你得等对方说完、系统回个“已收到”才能接着说，听着挺别扭的。现在不一样，它能同时处理双方的声音，听起来自然多了。

具体效果上，这模型确实有点东西：

还有个挺有意思的细节是响应速度。以前那种模型，你得等挺久它才反应过来。现在通过动态停止技术，响应延迟大概省了 250 毫秒。虽然听起来不多，但在这种实时对话里，就是那种“话到嘴边”的感觉，流畅度上了一个台阶。

另外，工程团队也做了不少优化，用了推测采样和量化技术，解决了高并发下的卡顿问题。用户实测下来，对呼叫的满意度绝对值提升了 8.34%，说明大家确实觉得好用。

以后会怎么发展？

Seeduplex 上线不仅仅是抖音语音变聪明了，它更像是一个信号：语音助手正在从单纯的“听指令”变成能真正“思考”和“执行”的伙伴。

想象一下，未来的语音助手可能会结合视觉能力。你现在跟它说话，它不仅能听，还能“看”到你手里的东西、眼前的场景，然后综合起来给你建议。这就是所谓的“听、看、想、说”一体化。

当然，说这种“多模态协同”和“重塑行业标准”的话，听着挺宏大，但归根结底，还是看它能不能真正解决咱们日常使用中的那些小毛病——比如反应慢、听不懂方言、或者总被噪音搞晕。Seeduplex 是个很好的开始，但离那种完全无感的智能体验，可能还有段路要走。

如果你用过抖音的语音功能，现在试试跟它多聊两句，看看那种“随时能插嘴”的感觉是不是跟以前不太一样了。

近期新闻