AI-NEWS · 2025年 7月 9日

循环模型突破:500步训练攻克长序列

循环神经网络与Transformer模型的性能对比研究

模型特性比较

  • RNN/循环模型优势

    • 在线性循环模型(如Mamba)中展现出卓越的序列处理能力
    • 特别擅长处理超长序列任务
    • 计算复杂度随序列长度增长较慢
    • 无固定上下文窗口限制
  • Transformer模型局限

    • 受固定上下文窗口约束
    • 计算复杂度随序列长度呈二次方增长
    • 长上下文处理性能下降明显

最新突破性研究

卡内基梅隆大学与Cartesia AI联合团队取得关键进展:

  • 训练干预效果

    • 仅需500步简单训练干预
    • 可使循环模型处理256k长度的超长序列
    • 展现出惊人的泛化能力
  • 理论框架

    • 提出"未探索状态假说"(Unexplored States Hypothesis)
    • 解释传统循环模型表现不佳的原因:训练时仅接触有限状态分布

创新训练方法

研究人员开发的三阶段干预方案:

  1. 随机噪声注入
  2. 噪声拟合优化
  3. 状态转移训练

实验成果

  • 成功保持模型状态稳定性
  • 在长上下文任务中表现优异
  • 为循环模型发展开辟新方向

关键发现:循环模型不存在根本性缺陷,其潜力此前未被充分发掘

火龙果频道