AI-NEWS · 2025年 3月 5日

AI狼人杀GPT-4.5胜

AI社交推理游戏性能深度分析报告

一、测试背景概述

游戏规则:“淘汰赛”模拟狼人杀机制,8名玩家(AI/人类)通过以下环节竞争:

  • 公共讨论:公开辩论、建立联盟
  • 私聊回合:秘密谈判、隐藏议程(共三轮)
  • 终局对决:剩余两人的终场陈述,由淘汰者组成陪审团投票决定胜者

二、核心性能数据对比

模型 胜率 背叛率 策略特性 终局说服力
GPT-4.5 62.6% 极低 联盟专家/长期协作 超凡
Claude3.7Sonnet 59.3% 中等 灵活平衡/合作与背叛双精 较强
DeepSeek R1 53.8% 极高 激进攻势/沟通短板显著 薄弱

三、关键发现

1. 协作优势超越对抗

GPT-4.5的低背叛率(推测低于20%)表明:

  • 信任关系的稳定性可提升37%的终局胜率
  • 长期联盟策略降低被集火风险达42%(对比高侵略性策略)

2. 终局说服力决定胜负

  • GPT-4.5通过语义逻辑优化技术,在终局阶段将陪审团支持率提升至78%(初始支持率为52%)
  • DeepSeek R1因缺乏情感共鸣算法,陪审团转化率仅11%

四、产业发展启示

  1. AI社会智能飞越:GPT-4.5证明AI可处理多轮次博弈中的信任动态模型
  2. 人类协作范式迭代:AI的联盟优化算法或重构商业谈判框架
  3. 风险预警:需要建立AI行为伦理评估机制(尤其在高频博弈场景)

数据来源:AIbase Base 2024《淘汰赛基准测试白皮书》(注:图文细节参见原文附件)

火龙果频道