腾讯开源 PlanningBench：让大模型学会“真”规划

腾讯混元大模型团队联手中国人民大学高乾团队，最近搞了个大动作：开源了一个叫 PlanningBench 的框架。这东西主要干两件事：评估大模型到底会不会“规划”，顺便教它们怎么规划。

说实话，现在的 LLM（大语言模型）有个挺尴尬的问题：它们特别能“吹牛”，但往往“一本正经地胡说八道”。让你做个多步骤的计划，它能给你列出一堆逻辑通顺的步骤，但让你真去执行？崩。

PlanningBench 就是为了解决这个“幻觉”问题来的。

这玩意儿到底能干嘛？

它不是那种随便搞点指令微调出来的数据集，而是真·闭环系统。简单说，就是专门用来生成和验证“真实场景”下的规划数据。

它的核心逻辑其实挺有意思，分几步走：

1. 别瞎编，要“从生活里找灵感”

很多评估基准都是人坐在屋里编出来的，太假。PlanningBench 不一样，它从现实世界里“扒”要素：

任务（Tasks）：到底要干啥。
约束（Constraints）：有什么不能干。
难度（Difficulty）：这事儿有多难。

基于这些，他们把30 多种规划任务类型都打包了。

2. 六大“杀手锏”场景

为了打破大模型“单项冠军、全能废柴”的毛病，这个框架覆盖了六个最要命的实际应用：

调度类（比如排个班）
资源分配（比如分点人手）
人员排班（具体到谁几点到）
路线规划（怎么跑最顺）
生产运营（工厂怎么转）
应急服务（出事了怎么救）

你看，这六个方向，基本涵盖了大模型在 B 端（企业端）能碰到的所有硬骨头。

3. 难度控制：别光堆字数

以前的做法是：“行，为了增加难度，我把 Prompt 再长一倍！”结果呢？模型只是学会了“写长文”，脑子还是没长开。

PlanningBench 从底层逻辑卡难度：

任务结构：是不是环环相扣？
约束层级：限制条件是一层还是多层？
资源紧张度：资源够不够用？

这种设计才狠，生成的数据能精准模拟真实挑战，而不是简单的文字游戏。

4. 最绝的一招：双重评估

这是我觉得最值回票价的地方。以前的评估只看最后结果行不行，PlanningBench 加了两个维度：

本地合规性：你每一步推理是不是都符合当下的条件？别跳步。
全局成功性：最后那个结果，真能落地吗？

这就好比你考试，不仅要看最后答案对不对，还要看你每一步推导有没有逻辑漏洞。这招能直接筛掉那些“看似正确，实则无法执行”的虚假计划，逼着模型学点真本事。

实测效果：真香

用这套数据训练出来的模型，表现确实不一样：

信号更稳：因为数据是可验证的，模型学到的奖励信号很清晰，不容易“飘”。
泛化力强：在没见过的测试集上，模型性能直接起飞。

这证明了一个道理：在规划能力这个领域，高质量的数据比海量垃圾数据管用一万倍。

我的几点观察

看着这份开源项目，我有几个想法：

从“幻觉”到“落地”：
大模型以前总被骂“一本正经胡说八道”。PlanningBench 引入的“全局成功评估”直接打脸，强迫模型生成能落地的方案，而不是只顾着文风优美。
数据质量 > 数据数量：
以前大家拼命刷数据量，现在看 PlanningBench，大家应该明白：基于真实挑战的高保真数据才是王道。
产学研终于不“打架”了：
腾讯出场景（物流、应急），人大出理论（算法、验证）。这种合作模式比单纯搞个 Demo 要有用得多，阿里、百度他们看着都得眼红，赶紧去抄作业。
规划能力是下一个战场：
参数规模再堆也没用了，怎么让模型把复杂任务拆解开一步步搞定，才是关键。PlanningBench 的出现，意味着大模型训练的风向要从“知识问答”彻底转向“复杂任务规划”了。

总的来说，这不仅仅是一个工具，更像是给大模型规划能力立的一个新规矩：别光会聊天，得会干活。

火龙果频道

近期新闻

AI-NEWS · 2026年 6月 6日

腾讯开源 PlanningBench：让大模型学会“真”规划

腾讯开源 PlanningBench：让大模型学会“真”规划

这玩意儿到底能干嘛？

1. 别瞎编，要“从生活里找灵感”

2. 六大“杀手锏”场景

3. 难度控制：别光堆字数

4. 最绝的一招：双重评估

实测效果：真香

我的几点观察

您可能还喜欢...

AI-NEWS · 2026年 6月 6日

腾讯开源 PlanningBench：让大模型学会“真”规划

这玩意儿到底能干嘛？

1. 别瞎编，要“从生活里找灵感”

2. 六大“杀手锏”场景

3. 难度控制：别光堆字数

4. 最绝的一招：双重评估

实测效果：真香

我的几点观察

您可能还喜欢...

Nexos.ai获3500万美元A轮融资

高盛：AI 基建被低估，2030 年需求爆炸

阿里云开源通义万相2.2