AI 医生？麻省总医院：还差得远

核心结论

麻省总医院 MESH 孵化器团队最近在《JAMA Network Open》上发表了一项研究，结论有点扎心：虽然生成式 AI 在医疗圈里吵得沸沸扬扬，但想让它独自搞定临床诊断？目前看来，大概率是痴人说梦。

简单来说，现在的 AI 模型离“独立上岗”还差得远，只能当个辅助工具，得有个真人医生在旁边盯着，否则直接拿来用风险太大。

拿谁练手：21 种大语言模型，从 ChatGPT、DeepSeek 到 Claude、Gemini、Grok，基本把市面上的热门选手都请出来了。
拿什么考：29 个真实的临床病例。
怎么考：没搞“上帝视角”的一口食。他们设计了一套多轮测试，像剥洋葱一样，一步步释放患者症状、化验单和片子，逼着 AI 像医生一样，在信息不全的情况下动态地猜。

研究结果直接戳破了 AI 的“幻觉”：

当答案都摆在面前时：只要把患者的完整信息（症状 + 化验 + 片子）一股脑全喂给它，所有模型都能给出正确的最终诊断，准确率超过 90%。这时候 AI 其实像个超级搜索引擎，只是把已有的信息拼凑了一下。
当它得自己动脑子时：一旦把信息藏起来，只给一部分，让它自己去鉴别诊断（也就是在信息不全时进行逻辑推演），**超过 80%**的模型直接翻车。它们没法系统地分析、筛选多种可能的疾病，逻辑链一断，全崩。

为了量化这种“半吊子”能力，研究团队搞了个 PrIME-LLM 指数，从初诊、开检查到定方案，全流程跑一遍。

得分很尴尬：各模型得分都在 64% 至 78% 之间徘徊。
我的观点：这分数看着还行，其实是个伪命题。它证明了现在的 AI 擅长的是“填空题”（信息完整时的答案揭示），但在“问答题”（信息缺失时的开放逻辑推理）上，它们基本上是在瞎蒙。

注：以上观点基于麻省总医院团队的研究数据整理，旨在还原真实的医疗 AI 现状，而非盲目吹捧或全盘否定。