Google Vantage：用 AI 玩“角色扮演”测学生

别再只盯着那张卷子了

教育界的老毛病我们都懂：传统的标准化测试，比如让你算个数学题或者背段阅读理解，只能确认孩子脑子里有没有装进那点死知识。但真正决定一个成年人能不能在社会上混得开的“持久技能”——比如跟同事吵架怎么不撕破脸、被老板骂了怎么还能想出新点子、或者面对一堆歪理怎么怼回去——这些根本测不出来。

现有的测试方案其实也挺尴尬。像 PISA 那种大考，为了公平，题目全是选择题，或者剧本都写好了让你按步骤演。这确实控制了变量，但学生心里会想：“这哪是真实世界？这分明是过家家。”结果就是，分数再高，出了考场也没用。而且，想既让场景像真的，又能保证每次考试结果都能拿来对比，这在技术上简直是个死结。

Google AI Research 团队没打算死磕这个死结，他们搞了个叫 Vantage 的新东西。简单说，就是让大语言模型（LLM）来扮演学生身边的那些“人”。

这里有个挺有意思的设计：他们没用那种乱七八糟的一堆独立 AI，而是只用一个大模型，让它瞬间分裂出好几个不同性格的角色。

为了验证这玩意儿行不行，他们搞了个实验，找了 188 个 18 到 25 岁的年轻人，让他们跟 AI 聊了 30 分钟。最后收集了 373 条对话记录，然后找了两名纽约大学的人类评分员，再加上这套 AI 评估工具，三方一起打分。

结果有点出人意料：AI 的打分跟人类专家打分，挺像的。 更重要的是，在这个架构下，AI 在测“创造力”和“批判性思维”这两项时，甚至比独立 AI 还要准。

说实话，看完这个，我最大的感觉是：教育评估终于肯动起来了。

以前的测试像是在给学生“做题”，问的是“是什么”；Vantage 像是给学生“做局”，看的是“怎么做”和“怎么应对突发状况”。学生得在 AI 构建的动态环境里真实地演一出戏，这时候流出的每一句话、每一个情绪波动，都是最真实的证据。

而且，这不仅仅是技术上的胜利，更是算力的胜利。以前想搞个真实的多人模拟，服务器成本能炸，现在用一个模型就能模拟出一群有性格的角色，成本压下来了，场景却更真了。

最后，不得不承认，AI 的地位变了。以前我们是拿着尺子量 AI，现在 AI 手里也拿尺子了，而且量得还挺准，特别是在那些特别难量化的高阶思维上，甚至比人类专家还敏锐。

当然，我也得泼点冷水。这毕竟还是基于文本的对话，虽然能测出逻辑和反应，但那些微妙的眼神交流、肢体语言，或者那种沉默的压迫感，文本 AI 可能还是有点吃力。不过，能走到这一步，已经够让人兴奋了。

未来的路还长，但至少现在，我们不用再为了“怎么考”这个问题发愁了。