小模型训练效率提升100倍！Thinking Machine推出在线策略蒸馏技术，OpenAI前CTO亲自点赞

核心技术突破

在线策略蒸馏（On-Policy Distillation） 是AI初创公司Thinking Machine最新发布的突破性训练方法，能够将小模型在特定任务上的训练效率提升50-100倍。

技术原理：AI"实时教练"模式

该技术巧妙结合了强化学习与监督学习的优势：

强化学习：允许模型通过试错自主探索，灵活性高但效率低
监督微调：直接提供答案，效率高但缺乏灵活性
在线策略蒸馏：为"学生模型"配备"实时教练"，在自主生成内容时，由强大的教师模型动态评估和指导每一步

通过最小化两个模型间的KL散度，实现了精确稳定的知识传递，有效防止模型走捷径或过拟合，显著提升泛化能力。

测试成果显著

数学推理任务表现

训练步骤减少：仅需原强化学习方法的1/7到1/10
计算成本降低：总体计算成本降低两个数量级（100倍）
性能对标：仅用17-110个训练步骤，就能达到32B大模型的性能水平

解决关键问题

成功解决了企业AI部署中的"灾难性遗忘"问题。在企业助手实验中，模型在学习新业务知识的同时，保留了原有的对话和工具调用能力。

团队背景与行业意义

核心团队

研究由Kevin Lu领导，他曾是OpenAI多个关键项目的负责人，现在将大模型训练的先进经验带回高效小模型生态系统。

行业影响

降低门槛：使中小企业和资源有限的研究团队能够高效训练专业级模型
范式转变：从"唯大模型论"转向"高效智能"新模式
商业化加速：为"小而专"模型的商业落地提供关键引擎

其他AI领域重要动态

1. Mistral AI推出Studio平台

提供安全、透明、可扩展的AI解决方案
基于欧盟基础设施，解决数据主权和合规挑战
实现AI决策的全栈可观测性

2. NVIDIA开源OmniVinci全模态理解模型

在多个基准测试中领先顶级模型19.05分
仅使用0.2万亿训练token，数据效率是竞争对手的6倍
实现视觉、音频和文本的统一理解

3. 蚂蚁集团开源BaiLing大模型

专门针对长文本编程
采用混合线性注意力机制与稀疏MoE架构
仅激活6.1B参数，性能媲美40B稠密模型

4. 其他重要发布

Anthropic为Claude推出金融分析新功能
MiniMax发布海螺2.3模型，实现电影级视频生成
字节跳动豆包AI编程实现历史性升级
红杉资本投资Rogo Technologies，估值7.5亿美元

火龙果频道

近期新闻

AI-NEWS · 2025年 10月 29日

小模型训练效率飙升百倍

小模型训练效率提升100倍！Thinking Machine推出在线策略蒸馏技术，OpenAI前CTO亲自点赞

核心技术突破

技术原理：AI"实时教练"模式

测试成果显著

数学推理任务表现

解决关键问题

团队背景与行业意义

核心团队

行业影响

相关论文

其他AI领域重要动态

1. Mistral AI推出Studio平台

2. NVIDIA开源OmniVinci全模态理解模型

3. 蚂蚁集团开源BaiLing大模型

4. 其他重要发布

您可能还喜欢...

AI-NEWS · 2025年 10月 29日

小模型训练效率提升100倍！Thinking Machine推出在线策略蒸馏技术，OpenAI前CTO亲自点赞

核心技术突破

技术原理：AI"实时教练"模式

测试成果显著

数学推理任务表现

解决关键问题

团队背景与行业意义

核心团队

行业影响

相关论文

其他AI领域重要动态

1. Mistral AI推出Studio平台

2. NVIDIA开源OmniVinci全模态理解模型

3. 蚂蚁集团开源BaiLing大模型

4. 其他重要发布

您可能还喜欢...

Win11将推AI动态壁纸

DeepMind CEO: Artificial Intelligence is Both Overhyped and Underestimated

美国卫生部报告AI使用增66%