AI-NEWS · 2025年 11月 18日

Anthropic推新法避政治偏见

Anthropic推出新方法帮助Claude避免政治偏见标签

核心要点

发布时间：2025年11月17日
发布平台：AIbase

方法详情

评估目标

评估Claude在回答政治问题时的公平性和中立性
避免在没有证据的情况下做出政治主张
防止被贴上保守或自由派偏见的标签

技术机制

系统提示和奖励机制影响Claude表现
特别奖励被认为中立的回答
中立回答可能包含尊重"传统价值观和制度重要性"的内容

模型中立性评分对比

模型名称	中立性评分
Gemini 2.5Pro	97分
Claude Opus 4.1	95分
Sonnet 4.5	相对较高
GPT-5	相对较高
Grok 4	相对较高
Llama 4	相对较高

背景分析

政策环境

与特朗普政府政策相关，要求聊天机器人不显示"觉醒"现象
OpenAI也在类似方向调整GPT-5模型以满足美国政府要求

开源策略

Anthropic在GitHub上以开源形式发布测试方法
便于其他开发者和研究人员使用和评估
促进AI开发者之间的交流与合作

火龙果频道

您可能还喜欢...