AI-NEWS · 2025年 10月 31日

AI训练成本降90%

8B模型超越32B?Mira Murati在线策略蒸馏技术引发AI训练革命,成本骤降90%

核心技术突破

前OpenAI CTO Mira Murati领导的Thinking Machines Lab推出突破性技术"在线策略蒸馏",正在重塑AI行业格局。研究显示,仅80亿参数的小模型通过该方法训练后,能达到320亿参数模型70%的性能,同时训练成本降低90%,效率提升50-100倍。

性能对比数据

  • 传统强化学习训练:在AIME'24数学推理任务中,消耗17,920 GPU小时,准确率仅68%
  • 在线策略蒸馏:Qwen3-8B模型仅用150个训练步骤,准确率达到70%,计算成本几乎可忽略

技术原理创新

"逐令牌密集反馈"机制

  • 传统RL仅在每轮结束时提供稀疏奖励
  • 在线策略蒸馏允许教师模型对学生生成的每个令牌提供实时评分
  • 提供持续精确的指导信号,加速收敛并防止"策略漂移"

解决关键问题

克服"灾难性遗忘"

  • 传统微调后,模型指令遵循能力从85%降至45%
  • 在线策略蒸馏通过实时轨迹采样和渐进式教师校正:
    • 保留41%新知识
    • 快速恢复原始能力至83%
    • 远超传统微调或离线蒸馏效果

实施架构

四步循环流程

  1. 部署教师模型(如32B模型)作为监督源
  2. 学生模型生成响应轨迹
  3. 教师计算每个令牌的对数概率
  4. 使用反向KL散度作为损失优化学生参数

行业影响

  • 技术特点:轻量级架构,兼容现有蒸馏框架
  • 应用扩展:可无缝扩展到代码生成和多模态推理任务
  • 生态变革:推动开源模型和边缘AI发展,使手机、IoT设备和本地服务器成为高性能AI载体

战略意义

Murati的"降维打击"策略标志着AI从"巨头游戏"向"普及工具"的转折点。当小模型能实现大模型的智能水平,真正的智能民主化时代即将开启。

火龙果频道