AI-NEWS · 2025年 10月 29日

小模型训练效率飙升百倍

小模型训练效率提升100倍!Thinking Machine推出在线策略蒸馏技术,OpenAI前CTO亲自点赞

核心技术突破

在线策略蒸馏(On-Policy Distillation) 是AI初创公司Thinking Machine最新发布的突破性训练方法,能够将小模型在特定任务上的训练效率提升50-100倍

技术原理:AI"实时教练"模式

该技术巧妙结合了强化学习与监督学习的优势:

  • 强化学习:允许模型通过试错自主探索,灵活性高但效率低
  • 监督微调:直接提供答案,效率高但缺乏灵活性
  • 在线策略蒸馏:为"学生模型"配备"实时教练",在自主生成内容时,由强大的教师模型动态评估和指导每一步

通过最小化两个模型间的KL散度,实现了精确稳定的知识传递,有效防止模型走捷径或过拟合,显著提升泛化能力。

测试成果显著

数学推理任务表现

  • 训练步骤减少:仅需原强化学习方法的1/7到1/10
  • 计算成本降低:总体计算成本降低两个数量级(100倍)
  • 性能对标:仅用17-110个训练步骤,就能达到32B大模型的性能水平

解决关键问题

成功解决了企业AI部署中的"灾难性遗忘"问题。在企业助手实验中,模型在学习新业务知识的同时,保留了原有的对话和工具调用能力。

团队背景与行业意义

核心团队

研究由Kevin Lu领导,他曾是OpenAI多个关键项目的负责人,现在将大模型训练的先进经验带回高效小模型生态系统。

行业影响

  • 降低门槛:使中小企业和资源有限的研究团队能够高效训练专业级模型
  • 范式转变:从"唯大模型论"转向"高效智能"新模式
  • 商业化加速:为"小而专"模型的商业落地提供关键引擎

相关论文

  • 论文主题:在线策略蒸馏
  • 发布机构:Thinking Machine

其他AI领域重要动态

1. Mistral AI推出Studio平台

  • 提供安全、透明、可扩展的AI解决方案
  • 基于欧盟基础设施,解决数据主权和合规挑战
  • 实现AI决策的全栈可观测性

2. NVIDIA开源OmniVinci全模态理解模型

  • 在多个基准测试中领先顶级模型19.05分
  • 仅使用0.2万亿训练token,数据效率是竞争对手的6倍
  • 实现视觉、音频和文本的统一理解

3. 蚂蚁集团开源BaiLing大模型

  • 专门针对长文本编程
  • 采用混合线性注意力机制与稀疏MoE架构
  • 仅激活6.1B参数,性能媲美40B稠密模型

4. 其他重要发布

  • Anthropic为Claude推出金融分析新功能
  • MiniMax发布海螺2.3模型,实现电影级视频生成
  • 字节跳动豆包AI编程实现历史性升级
  • 红杉资本投资Rogo Technologies,估值7.5亿美元

火龙果频道