AI-NEWS · 2026年 4月 15日

Google Vantage:用 AI 玩“角色扮演”测学生

别再只盯着那张卷子了

教育界的老毛病我们都懂:传统的标准化测试,比如让你算个数学题或者背段阅读理解,只能确认孩子脑子里有没有装进那点死知识。但真正决定一个成年人能不能在社会上混得开的“持久技能”——比如跟同事吵架怎么不撕破脸、被老板骂了怎么还能想出新点子、或者面对一堆歪理怎么怼回去——这些根本测不出来。

现有的测试方案其实也挺尴尬。像 PISA 那种大考,为了公平,题目全是选择题,或者剧本都写好了让你按步骤演。这确实控制了变量,但学生心里会想:“这哪是真实世界?这分明是过家家。”结果就是,分数再高,出了考场也没用。而且,想既让场景像真的,又能保证每次考试结果都能拿来对比,这在技术上简直是个死结。

Google 搞了个新玩意儿,叫 Vantage

Google AI Research 团队没打算死磕这个死结,他们搞了个叫 Vantage 的新东西。简单说,就是让大语言模型(LLM)来扮演学生身边的那些“人”。

这里有个挺有意思的设计:他们没用那种乱七八糟的一堆独立 AI,而是只用一个大模型,让它瞬间分裂出好几个不同性格的角色。

  • 比如要测“怎么解决冲突”,这个执行型 LLM 会主动在旁边挑刺,故意制造矛盾,逼着坐在屏幕前的学生去反应。
  • 这比让几个独立的 AI 自己瞎聊要靠谱多了,因为有个“总导演”在控场,对话不会跑偏,留下的行为数据也更丰富,方便打分。

数据说话,但别太激动

为了验证这玩意儿行不行,他们搞了个实验,找了 188 个 18 到 25 岁的年轻人,让他们跟 AI 聊了 30 分钟。最后收集了 373 条对话记录,然后找了两名纽约大学的人类评分员,再加上这套 AI 评估工具,三方一起打分。

结果有点出人意料:AI 的打分跟人类专家打分,挺像的。 更重要的是,在这个架构下,AI 在测“创造力”和“批判性思维”这两项时,甚至比独立 AI 还要准。

我怎么看这事儿?

说实话,看完这个,我最大的感觉是:教育评估终于肯动起来了。

以前的测试像是在给学生“做题”,问的是“是什么”;Vantage 像是给学生“做局”,看的是“怎么做”和“怎么应对突发状况”。学生得在 AI 构建的动态环境里真实地演一出戏,这时候流出的每一句话、每一个情绪波动,都是最真实的证据。

而且,这不仅仅是技术上的胜利,更是算力的胜利。以前想搞个真实的多人模拟,服务器成本能炸,现在用一个模型就能模拟出一群有性格的角色,成本压下来了,场景却更真了。

最后,不得不承认,AI 的地位变了。以前我们是拿着尺子量 AI,现在 AI 手里也拿尺子了,而且量得还挺准,特别是在那些特别难量化的高阶思维上,甚至比人类专家还敏锐。

当然,我也得泼点冷水。这毕竟还是基于文本的对话,虽然能测出逻辑和反应,但那些微妙的眼神交流、肢体语言,或者那种沉默的压迫感,文本 AI 可能还是有点吃力。不过,能走到这一步,已经够让人兴奋了。

未来的路还长,但至少现在,我们不用再为了“怎么考”这个问题发愁了。

火龙果频道