AI外呼告别“盲人摸象”！AAuto与美团联合推出VoiceAgentEval：首个行业评测基准让AI更“人”性化

发布日期：2026年2月10日
来源：AIbase Daily
阅读时长：约3分钟

核心摘要

长期以来，AI外呼行业缺乏公认的“度量衡”。如今，声网（Agora）与美团、xbench合作，正式推出了面向AI外呼场景的智能评测基准——VoiceAgentEval，旨在填补行业空白，加速AI模型向真实商业场景的转化。

该评测基准最大的特点是 “实战性”：

为测试模型的任务遵循能力和通用交互能力，该评测框架通过用户模拟器构建了150个虚拟对话场景。这如同给AI进行了一系列“模拟考试”，评估其在面对不同用户反馈时，能否稳健地推进业务流程。

根据信息，通过该评测标准的初步筛选，AI外呼场景综合性能前三的模型已经出炉。这一结果不仅为行业树立了技术标杆，也为相关企业（如北京三块科技有限公司等）后续的AI业务部署提供了权威参考。

VoiceAgentEval的推出，标志着AI外呼行业从“各自为政”走向标准化评估。通过聚焦真实业务场景和多维度评测，它有望：

本文由AIbase Daily团队提供，聚焦AI领域热点，关注开发者，解读技术趋势与创新产品应用。