AI-NEWS · 2024年 7月 19日

微软Q-Sparse模型:8B参数性能直逼7B模型 训练微调轻松搞定!

微软Q-Sparse模型:8B参数性能直逼7B模型 训练微调轻松搞定!

背景与挑战

  • 大型语言模型(LLMs)因其卓越的自然语言处理能力而著称,但部署面临高计算成本和内存占用等实际问题。

Q-Sparse方法简介

  • Q-Sparse是一种简单但有效的方法,通过在激活中应用top-K稀疏化和训练中的直通估计器,实现了LLMs的完全稀疏激活。
  • 优势
    • 提高推理效率,保持与基线LLMs相当的结果。
    • 提出了适用于稀疏激活LLMs的推理最优扩展法则。
    • 可用于从头开始训练、现成LLMs的继续训练和微调。
    • 适用于全精度和1位LLMs(例如BitNet b1.58)。

稀疏激活的优势

  • 减少矩阵乘法的计算量。
  • 减少输入/输出(I/O)的传输量,这是推理阶段的主要瓶颈。

实现细节

  • 在每个线性投影中应用top-K稀疏化函数,实现激活的全稀疏性。
  • 使用直通估计器计算激活的梯度。
  • 引入平方ReLU函数进一步提高激活的稀疏性。

实验验证

  • 发现
    • 性能随着模型大小和稀疏比率的增加而提高。
    • 给定固定稀疏比率S,性能与模型大小N呈幂律扩展法则。
    • 给定固定参数N,性能与稀疏比率S呈指数律扩展法则。
  • 设置
    • 从头开始训练、继续训练和微调设置中使用相同架构和训练过程,区别在于使用预训练权重初始化模型并启用稀疏函数继续训练。

未来探索

  • 将Q-Sparse与1位LLMs(如BitNet b1.58)和混合专家(MoE)结合使用,提高效率。
  • 使Q-Sparse与批量模式兼容,为LLMs的训练和推理提供更多灵活性。

Source:https://www.aibase.com/news/10299