AI-NEWS · 2026年 2月 11日

美团联手AAuto推AI语音评测

AI外呼告别“盲人摸象”!AAuto与美团联合推出VoiceAgentEval:首个行业评测基准让AI更“人”性化

发布日期:2026年2月10日
来源:AIbase Daily
阅读时长:约3分钟

核心摘要

长期以来,AI外呼行业缺乏公认的“度量衡”。如今,声网(Agora)与美团、xbench合作,正式推出了面向AI外呼场景的智能评测基准——VoiceAgentEval,旨在填补行业空白,加速AI模型向真实商业场景的转化。

VoiceAgentEval的三大亮点

1. 拒绝实验室数据,测试真实业务“真金”

该评测基准最大的特点是 “实战性”

  • 覆盖广泛:涵盖6大业务领域的30个子场景,力求还原最真实的市场需求。
  • 语料真实:基于真实外呼业务数据构建,摒弃了传统的僵硬剧本。
  • 二维评估:不仅检查文本生成的逻辑是否正确,还新增了语音维度评估,全面考察AI在对话中的整体表现。

2. 150个模拟对话,让AI练习更顺畅

为测试模型的任务遵循能力和通用交互能力,该评测框架通过用户模拟器构建了150个虚拟对话场景。这如同给AI进行了一系列“模拟考试”,评估其在面对不同用户反馈时,能否稳健地推进业务流程。

行业影响与初步结果

当前AI外呼的佼佼者

根据信息,通过该评测标准的初步筛选,AI外呼场景综合性能前三的模型已经出炉。这一结果不仅为行业树立了技术标杆,也为相关企业(如北京三块科技有限公司等)后续的AI业务部署提供了权威参考。

背景与意义

VoiceAgentEval的推出,标志着AI外呼行业从“各自为政”走向标准化评估。通过聚焦真实业务场景和多维度评测,它有望:

  • 推动AI外呼技术更贴近实际应用需求。
  • 帮助企业更科学地选择和部署AI外呼解决方案。
  • 促进整个行业的技术透明度和良性竞争。

本文由AIbase Daily团队提供,聚焦AI领域热点,关注开发者,解读技术趋势与创新产品应用。

火龙果频道