4 月 9 日,字节跳动 Seed 团队发布了 Seeduplex。简单来说,这就是把咱们平时那种“你一句我一句”的轮替式对话,变成了像跟真人聊天一样,可以同时说话、实时互动的全双工模式。
目前,这个模型已经直接放到了抖音 App 里,作为语音功能的核心升级。这意味着全双工技术终于从实验室里跑通了,真正落到了几亿用户的手机上。
这玩意儿到底强在哪?
Seeduplex 最大的突破在于“边听边说”的同步处理。以前那种半双工模式,你得等对方说完、系统回个“已收到”才能接着说,听着挺别扭的。现在不一样,它能同时处理双方的声音,听起来自然多了。
具体效果上,这模型确实有点东西:
- 不容易乱说话:误响应率降了 50%。以前你还没开口,AI 就抢着接话,现在这种情况少了一半。
- 不会随便打断你:误打断率降了 40%。哪怕你正卡壳思考,或者周围有点噪音,它都能耐着性子等你把话说完,或者准确识别出你想说什么,不会让你觉得被冒犯。
- 抗干扰能力强:就算你在地铁上、在嘈杂的菜市场,或者旁边有人跟你抢着说话,它也能从一堆声音里把你的意图抓出来。
还有个挺有意思的细节是响应速度。以前那种模型,你得等挺久它才反应过来。现在通过动态停止技术,响应延迟大概省了 250 毫秒。虽然听起来不多,但在这种实时对话里,就是那种“话到嘴边”的感觉,流畅度上了一个台阶。
另外,工程团队也做了不少优化,用了推测采样和量化技术,解决了高并发下的卡顿问题。用户实测下来,对呼叫的满意度绝对值提升了 8.34%,说明大家确实觉得好用。
以后会怎么发展?
Seeduplex 上线不仅仅是抖音语音变聪明了,它更像是一个信号:语音助手正在从单纯的“听指令”变成能真正“思考”和“执行”的伙伴。
想象一下,未来的语音助手可能会结合视觉能力。你现在跟它说话,它不仅能听,还能“看”到你手里的东西、眼前的场景,然后综合起来给你建议。这就是所谓的“听、看、想、说”一体化。
当然,说这种“多模态协同”和“重塑行业标准”的话,听着挺宏大,但归根结底,还是看它能不能真正解决咱们日常使用中的那些小毛病——比如反应慢、听不懂方言、或者总被噪音搞晕。Seeduplex 是个很好的开始,但离那种完全无感的智能体验,可能还有段路要走。
如果你用过抖音的语音功能,现在试试跟它多聊两句,看看那种“随时能插嘴”的感觉是不是跟以前不太一样了。
