大模型时代警钟:理查德·萨顿呼吁重燃对智能理解的科学探索
核心观点
在RL China 2025开幕式上,伦敦大学学院王军教授与"强化学习之父"理查德·萨顿进行了深度对话,探讨智能本质及其未来发展方向。
萨顿的主要论点
对大语言模型的批判
- 学习能力缺失:大语言模型在训练后失去学习能力,因为缺乏明确目标和奖励机制
- 非真正智能:当前LLMs虽然在实际应用中表现出强大能力,但并非真正理解智能的方式
强化学习的优势
- 环境交互驱动:通过与环境互动实现目标,更好地理解和模拟智能运作过程
- 目标导向:真正的智能需要明确定义目标和"奖励"信号驱动的学习
技术方法建议
- 经验学习核心:强调从经验中学习是强化学习的核心,而非单纯依赖梯度下降等方法
- 结合探索:需要将搜索与梯度下降相结合,探索更多可能性
行业与科研平衡
资金影响
- 行业资金涌入促进了应用发展
- 但不应让科学研究偏离长期目标
对年轻研究者的建议
- 关注基础科学
- 人工智能探索是长期过程,非短期可解决的问题
- 科学界必须致力于探索未解决的基础问题
重要提醒
在追求技术进步的同时,不应忽视对智能本质的深入理解。
信息来源:AIbase Daily,2025年9月28日