研究揭示:大型语言模型存在认知障碍
近期发表于《BMJ》圣诞特刊的一项研究表明,当大型语言模型(LLM)接受蒙特利尔认知评估(MoCA)测试时,表现出与早期痴呆症相似的认知缺陷。此发现强调了AI在临床应用中的局限性,特别是在需要视觉和执行技能的任务中。
研究背景
- 过去的研究显示,大型语言模型在多种医疗诊断任务中表现良好,但它们是否易受类似于人类认知衰退的影响一直未被深入探讨。
- 研究人员使用MoCA测试评估了目前公开的主要大型语言模型的认知能力,包括OpenAI的ChatGPT4和4o、Anthropic的Claude 3.5 "Sonnet"以及Alphabet的Gemini 1和1.5。
测试结果
-
得分情况:
- ChatGPT4o最高分(26/30)
- ChatGPT4 和 Claude (25/30)
- Gemini 1.0 最低分(16/30)
-
测试细节:
- 所有聊天机器人在视觉空间技能和执行任务方面表现不佳,如连接测试(按顺序连接数字和字母)和钟面绘制测试(画出特定时间的时钟表盘)。
- Gemini模型在延迟回忆任务中失败(记住五个单词序列)。
-
其他观察:
- 大型语言模型在命名、注意力、语言和抽象思维方面表现良好。
- 但在进一步的视觉空间测试中,无法展示同理心或准确解释复杂视觉场景。
- ChatGPT4o是唯一成功通过Stroop测试不一致阶段的聊天机器人(使用颜色名称与字体颜色组合测量干扰对反应时间的影响)。
结论
- 研究人员指出,尽管观察到的是基于现有模型的结果,但大型语言模型在视觉抽象和执行功能任务上的持续失败表明了一个显著弱点。
- 这一发现可能会阻碍它们在临床环境中的应用,并表明短期内神经科医生不会被大型语言模型取代。
这些研究结果强调了当前AI技术在复杂认知任务方面的局限性,进一步证实了人类专家在医疗诊断中的不可替代性。未来的研究可能需要探索如何改进和扩展这些模型以更好地适应临床需求。