ChatGPT也失手了？谁是真正的“购物助手”？

机器学习在在线购物领域取得了显著成功，应用于用户查询、浏览历史分析、评论分析及产品属性提取等任务。为了促进这些方法的发展，出现了许多基准测试以降低开发和评估新解决方案的门槛。

然而，现有的模型和基准往往针对特定任务，无法全面捕捉线上购物的复杂性。大型语言模型（LLMs）凭借多任务处理和少量样本学习的能力，有潜力彻底改变在线购物体验，减少工程工作量并提供交互式对话服务。尽管如此，它们在在线购物领域也面临独特挑战，如特定购物概念、隐含知识及异构用户行为。

Amazon的研究团队提出了一种名为Shopping MMLU的多任务线上购物基准测试，基于真实的亚马逊数据集包含57个任务，涵盖四个主要购物技能：概念理解、知识推理、用户行为对齐和多语言能力。这提供了全面评估大型语言模型作为通用购物助手潜力的方式。

研究者使用Shopping MMLU测试了20多个现有AI模型，发现：

研究还揭示了AI助手的一些不足之处：

Shopping MMLU比其他现有的在线购物AI数据集更复杂和具有挑战性。特定领域的指令微调效果并不总好，仅在已有大量通用知识的强大模型上有效。目前即使最先进的AI模型性能也不如专为某些在线购物任务设计的算法。

这项研究揭示了构建完美在线购物AI助手仍需克服许多障碍。未来的研发方向包括：

Shopping MMLU的数据主要来自Amazon，可能无法完全代表其他电商平台的用户行为。尽管研究者尽力避免了数据错误，但仍可能存在一些数据误差。

通过这项研究，我们看到在线购物AI助手的未来发展潜力及挑战。未来的智能购物助手将更加便捷和人性化，成为生活中不可或缺的一部分。

近期新闻