AI-NEWS · 2026年 6月 6日

腾讯开源 PlanningBench:让大模型学会“真”规划

腾讯开源 PlanningBench:让大模型学会“真”规划

腾讯混元大模型团队联手中国人民大学高乾团队,最近搞了个大动作:开源了一个叫 PlanningBench 的框架。这东西主要干两件事:评估大模型到底会不会“规划”,顺便教它们怎么规划。

说实话,现在的 LLM(大语言模型)有个挺尴尬的问题:它们特别能“吹牛”,但往往“一本正经地胡说八道”。让你做个多步骤的计划,它能给你列出一堆逻辑通顺的步骤,但让你真去执行?崩。

PlanningBench 就是为了解决这个“幻觉”问题来的。

这玩意儿到底能干嘛?

它不是那种随便搞点指令微调出来的数据集,而是真·闭环系统。简单说,就是专门用来生成和验证“真实场景”下的规划数据。

它的核心逻辑其实挺有意思,分几步走:

1. 别瞎编,要“从生活里找灵感”

很多评估基准都是人坐在屋里编出来的,太假。PlanningBench 不一样,它从现实世界里“扒”要素:

  • 任务(Tasks):到底要干啥。
  • 约束(Constraints):有什么不能干。
  • 难度(Difficulty):这事儿有多难。

基于这些,他们把30 多种规划任务类型都打包了。

2. 六大“杀手锏”场景

为了打破大模型“单项冠军、全能废柴”的毛病,这个框架覆盖了六个最要命的实际应用:

  • 调度类(比如排个班)
  • 资源分配(比如分点人手)
  • 人员排班(具体到谁几点到)
  • 路线规划(怎么跑最顺)
  • 生产运营(工厂怎么转)
  • 应急服务(出事了怎么救)

你看,这六个方向,基本涵盖了大模型在 B 端(企业端)能碰到的所有硬骨头。

3. 难度控制:别光堆字数

以前的做法是:“行,为了增加难度,我把 Prompt 再长一倍!”结果呢?模型只是学会了“写长文”,脑子还是没长开。

PlanningBench 从底层逻辑卡难度:

  • 任务结构:是不是环环相扣?
  • 约束层级:限制条件是一层还是多层?
  • 资源紧张度:资源够不够用?

这种设计才狠,生成的数据能精准模拟真实挑战,而不是简单的文字游戏。

4. 最绝的一招:双重评估

这是我觉得最值回票价的地方。以前的评估只看最后结果行不行,PlanningBench 加了两个维度:

  • 本地合规性:你每一步推理是不是都符合当下的条件?别跳步。
  • 全局成功性:最后那个结果,真能落地吗?

这就好比你考试,不仅要看最后答案对不对,还要看你每一步推导有没有逻辑漏洞。这招能直接筛掉那些“看似正确,实则无法执行”的虚假计划,逼着模型学点真本事。

实测效果:真香

用这套数据训练出来的模型,表现确实不一样:

  • 信号更稳:因为数据是可验证的,模型学到的奖励信号很清晰,不容易“飘”。
  • 泛化力强:在没见过的测试集上,模型性能直接起飞。

这证明了一个道理:在规划能力这个领域,高质量的数据比海量垃圾数据管用一万倍

我的几点观察

看着这份开源项目,我有几个想法:

  1. 从“幻觉”到“落地”
    大模型以前总被骂“一本正经胡说八道”。PlanningBench 引入的“全局成功评估”直接打脸,强迫模型生成能落地的方案,而不是只顾着文风优美。

  2. 数据质量 > 数据数量
    以前大家拼命刷数据量,现在看 PlanningBench,大家应该明白:基于真实挑战的高保真数据才是王道。

  3. 产学研终于不“打架”了
    腾讯出场景(物流、应急),人大出理论(算法、验证)。这种合作模式比单纯搞个 Demo 要有用得多,阿里、百度他们看着都得眼红,赶紧去抄作业。

  4. 规划能力是下一个战场
    参数规模再堆也没用了,怎么让模型把复杂任务拆解开一步步搞定,才是关键。PlanningBench 的出现,意味着大模型训练的风向要从“知识问答”彻底转向“复杂任务规划”了。

总的来说,这不仅仅是一个工具,更像是给大模型规划能力立的一个新规矩:别光会聊天,得会干活。

火龙果频道