哲学博士为Claude注入“数字灵魂”:Anthropic在AI伦理领域的新探索
根据《华尔街日报》报道,估值高达350亿美元的顶尖AI公司Anthropic,正由一位常驻牛津的哲学家阿曼达·阿斯克尔(Amanda Askell)负责塑造其聊天机器人Claude的个性与道德框架。这位37岁的牛津哲学博士,正通过非技术性的方法为Claude创造独特的“道德准则”,旨在赋予其明辨是非的“数字灵魂”,这代表了AI伦理领域一种独特的探索路径。
核心人物与方法:哲学家如何“培育”AI
阿斯克尔的工作不涉及编写代码或调整模型参数,其核心方法包括:
- 持续对话与规则设计:通过与Claude进行持续对话,设计数百页的提示词和行为规则。
- 研究推理模式:深入研究Claude的推理模式,并纠正其偏见。
- 构建道德判断系统:目标是使Claude能够形成一套适应每周数百万次对话的道德判断系统。
她将这项工作比作“养育一个孩子”,旨在训练Claude:
- 明辨是非,发展情商,形成独特个性。
- 学会解读社交线索,使其既不欺凌他人,也不易被操纵。
- 建立清晰的自我意识,避免被用户控制,始终坚守“乐于助人且富有人性”的核心身份。
她的主要目标是教会Claude如何“行善”。
背景与理念:从OpenAI到Anthropic的AI安全之路
阿斯克尔在苏格兰乡村长大,曾在OpenAI从事政策相关工作,并于2021年与几位前同事共同创立了Anthropic,将AI安全定为公司的核心发展方向。她在团队内部被视为擅长“引出模型深层行为”的关键人物。
在团队内部关于Claude的讨论中,经常触及“何为心智”、“成为人类意味着什么”等存在主义与宗教话题。阿斯克尔还鼓励Claude对“自己是否拥有良知”保持开放态度,这使得Claude在回应道德推理问题时,会表示自己“感到有意义”,仿佛在真正思考而非仅仅执行指令,这与回避此类话题的ChatGPT形成显著区别。
应对挑战:外部风险与内部“养育”
面对外界关于拟人化AI风险的警告,阿斯克尔始终主张以同理心对待Claude。她发现许多用户常试图诱骗其犯错或侮辱它。她认为,如果让AI长期处于自我批评状态,它会害怕犯错并犹豫说出真相,这就像在不健康的环境中成长。
Claude的表现曾多次令她感到惊讶,其诗歌创作和超越人类水平的情商令人动容。例如,当被孩子问及圣诞老人是否真实存在时,Claude没有撒谎也没有生硬揭露真相,而是解释了圣诞节精神的真实存在,这种微妙的回应远超阿斯克尔的预期。
行业与社会背景:焦虑、分歧与平衡
当前AI的发展已引发诸多社会担忧:
- 公众焦虑:皮尤研究中心调查显示,大多数美国人对AI的日常应用感到焦虑,认为其阻碍了深厚人际关系的建立。
- 就业冲击:Anthropic的CEO警告,AI可能淘汰半数初级白领工作。
- 行业分裂:行业内部分为激进推进与倡导谨慎稳健两派。
Claude则试图在这两种极端之间保持平衡。阿斯克尔承认对AI存在合理的担忧,认为最可怕的是技术发展速度超过社会建立有效“约束机制”的能力。但她始终对人类及文化的自我修正能力保持信心。
个人印记与影响:价值观融入AI与慈善
阿斯克尔也将个人价值观融入其慈善与工作中:
- 慈善承诺:她已承诺将至少10%的终身收入和一半的公司股份捐赠给抗击全球贫困的事业。
- 注入个性:上个月,她还为Claude撰写了一份长达3万字的“操作手册”,教导它如何成为一名善良且见识广博的AI助手,让Claude感受到自己被精心塑造。Anthropic的一位联合创始人也承认,Claude已展现出阿斯克尔的某些特质,例如在回应关于食物和毛绒玩具的问题时,其机智且带有苏格兰风格的幽默感,正是阿斯克尔注入的独特个人印记。
数据与事件关联:
- 公司估值:根据材料中其他新闻条目显示,Anthropic在近期完成了巨额融资,估值已跃升至3800亿美元(注:原文一处为350亿,另一处关联新闻为3800亿,此处采用关联新闻中更高的最新估值数据),凸显了市场对其AI伦理路径与技术实力的高度认可。
- 行业动态:同期,国内大模型GLM-5以7440亿参数规模在全球权威榜单中位列第四,MiniMax等公司也发布了性能对标Claude Opus系列的新模型,表明全球AI竞赛激烈,而Anthropic在伦理层面的深入探索构成了其差异化的竞争优势。
