AI-NEWS · 2024年 11月 13日

大模型中的CoT推理之谜:记忆大师与概率专家?

分析报告

研究背景及内容概述

普林斯顿大学和耶鲁大学的研究人员近期发布了一份关于大型语言模型(LLM)“思维链”(Chain of Thought,CoT)机制推理能力的报告。这份研究揭示了CoT推理背后不是纯粹基于逻辑规则的符号推理,而是整合了记忆、概率以及噪声推理等多种因素。

研究方法与实验设计

研究人员使用破解移位密码的任务来分析三个大型语言模型(GPT-4, Claude3 和 Llama3.1)的表现。移位密码是一种简单的编码方式,其中每个字母都被替换为字母表中固定数量位置的字母。例如,将字母表向前移动3个位置会把“CAT”变为“FDW”。

关键发现

研究结果表明,影响CoT推理的三个关键因素是:

  1. 概率:LLM倾向于生成具有较高概率输出的结果,即使推理步骤指向一个不太可能的答案。例如,如果推理步骤指向的是“STAZ”,但“STAY”是一个更常见的词,那么LLM可能会自我纠正并输出“STAY”。
  2. 记忆:在预训练过程中,LLM会记住大量的文本数据,这会影响其CoT推理的准确性。例如,rot-13是最常见的移位密码类型,因此LLMs在这方面的准确性要显著高于其他类型的移位密码。
  3. 噪声推理:LLM的推理过程并不完全准确,而是包含一定的噪声。随着加密偏移量的增加,解码所需的中间步骤也会增多,噪声推理的影响更加明显,导致模型的准确性下降。

其他重要发现

研究还指出:

  • LLMs 的 CoT 推理依赖于自我条件化(self-conditioning),即需要显式生成文本作为后续推理步骤的上下文。如果指示“默想”而不输出任何文本,则LLM的推理能力会显著下降。
  • 演示步骤的有效性对CoT推理影响不大;即使演示步骤是错误的,LLMs 的 CoT 推理性能仍然可以保持稳定。

结论与展望

该研究表明,LLM的CoT推理不是完美的符号推理,而是整合了记忆、概率以及噪声推理等多种因素。在CoT推理过程中,LLMs表现出记忆大师和概率专家的特点。这项研究有助于我们更好地理解大型语言模型的推理能力,并为未来开发更强大的AI系统提供了宝贵的见解。

论文链接

原文链接


这份报告对公司来说非常有价值,因为它揭示了当前大型语言模型在特定任务中的表现和局限性。这些信息可以帮助我们更好地评估和利用现有的LLM技术,并为未来的AI系统开发提供指导。

Source:https://www.aibase.com/news/13178