核心结论
麻省总医院 MESH 孵化器团队最近在《JAMA Network Open》上发表了一项研究,结论有点扎心:虽然生成式 AI 在医疗圈里吵得沸沸扬扬,但想让它独自搞定临床诊断?目前看来,大概率是痴人说梦。
简单来说,现在的 AI 模型离“独立上岗”还差得远,只能当个辅助工具,得有个真人医生在旁边盯着,否则直接拿来用风险太大。
他们是怎么测的?
- 拿谁练手:21 种大语言模型,从 ChatGPT、DeepSeek 到 Claude、Gemini、Grok,基本把市面上的热门选手都请出来了。
- 拿什么考:29 个真实的临床病例。
- 怎么考:没搞“上帝视角”的一口食。他们设计了一套多轮测试,像剥洋葱一样,一步步释放患者症状、化验单和片子,逼着 AI 像医生一样,在信息不全的情况下动态地猜。
数据说话:AI 到底行不行?
1. 全知全能 vs. 现场解题:差距大到离谱
研究结果直接戳破了 AI 的“幻觉”:
- 当答案都摆在面前时:只要把患者的完整信息(症状 + 化验 + 片子)一股脑全喂给它,所有模型都能给出正确的最终诊断,准确率超过 90%。这时候 AI 其实像个超级搜索引擎,只是把已有的信息拼凑了一下。
- 当它得自己动脑子时:一旦把信息藏起来,只给一部分,让它自己去鉴别诊断(也就是在信息不全时进行逻辑推演),**超过 80%**的模型直接翻车。它们没法系统地分析、筛选多种可能的疾病,逻辑链一断,全崩。
2. 综合打分:PrIME-LLM 指数
为了量化这种“半吊子”能力,研究团队搞了个 PrIME-LLM 指数,从初诊、开检查到定方案,全流程跑一遍。
- 得分很尴尬:各模型得分都在 64% 至 78% 之间徘徊。
- 我的观点:这分数看着还行,其实是个伪命题。它证明了现在的 AI 擅长的是“填空题”(信息完整时的答案揭示),但在“问答题”(信息缺失时的开放逻辑推理)上,它们基本上是在瞎蒙。
咱们该咋办?
- 别太乐观:大语言模型现在只能当个“实习生”,绝对禁止在没有专业医生监督的情况下直接用来给病人看病。
- 真正的难点在哪:从简单的“查资料”跨越到真正的“逻辑推理”,这是医疗 AI 目前卡在半山腰过不去的坎儿。
- 我的担忧:很多医院可能太急功近利,还没看到 AI 能独立干活,就急着把它塞进临床流程。这不仅是技术上的不成熟,更是把病人的命当儿戏。
注:以上观点基于麻省总医院团队的研究数据整理,旨在还原真实的医疗 AI 现状,而非盲目吹捧或全盘否定。
