AI-NEWS · 2025年 11月 18日

Anthropic推新法避政治偏见

Anthropic推出新方法帮助Claude避免政治偏见标签

核心要点

发布时间:2025年11月17日
发布平台:AIbase

方法详情

评估目标

  • 评估Claude在回答政治问题时的公平性和中立性
  • 避免在没有证据的情况下做出政治主张
  • 防止被贴上保守或自由派偏见的标签

技术机制

  • 系统提示和奖励机制影响Claude表现
  • 特别奖励被认为中立的回答
  • 中立回答可能包含尊重"传统价值观和制度重要性"的内容

模型中立性评分对比

模型名称 中立性评分
Gemini 2.5Pro 97分
Claude Opus 4.1 95分
Sonnet 4.5 相对较高
GPT-5 相对较高
Grok 4 相对较高
Llama 4 相对较高

背景分析

政策环境

  • 与特朗普政府政策相关,要求聊天机器人不显示"觉醒"现象
  • OpenAI也在类似方向调整GPT-5模型以满足美国政府要求

开源策略

  • Anthropic在GitHub上以开源形式发布测试方法
  • 便于其他开发者和研究人员使用和评估
  • 促进AI开发者之间的交流与合作

火龙果频道