微软Q-Sparse模型:8B参数性能直逼7B模型 训练微调轻松搞定!
背景与挑战
- 大型语言模型(LLMs)因其卓越的自然语言处理能力而著称,但部署面临高计算成本和内存占用等实际问题。
Q-Sparse方法简介
- Q-Sparse是一种简单但有效的方法,通过在激活中应用top-K稀疏化和训练中的直通估计器,实现了LLMs的完全稀疏激活。
- 优势:
- 提高推理效率,保持与基线LLMs相当的结果。
- 提出了适用于稀疏激活LLMs的推理最优扩展法则。
- 可用于从头开始训练、现成LLMs的继续训练和微调。
- 适用于全精度和1位LLMs(例如BitNet b1.58)。
稀疏激活的优势
- 减少矩阵乘法的计算量。
- 减少输入/输出(I/O)的传输量,这是推理阶段的主要瓶颈。
实现细节
- 在每个线性投影中应用top-K稀疏化函数,实现激活的全稀疏性。
- 使用直通估计器计算激活的梯度。
- 引入平方ReLU函数进一步提高激活的稀疏性。
实验验证
- 发现:
- 性能随着模型大小和稀疏比率的增加而提高。
- 给定固定稀疏比率S,性能与模型大小N呈幂律扩展法则。
- 给定固定参数N,性能与稀疏比率S呈指数律扩展法则。
- 设置:
- 从头开始训练、继续训练和微调设置中使用相同架构和训练过程,区别在于使用预训练权重初始化模型并启用稀疏函数继续训练。
未来探索
- 将Q-Sparse与1位LLMs(如BitNet b1.58)和混合专家(MoE)结合使用,提高效率。
- 使Q-Sparse与批量模式兼容,为LLMs的训练和推理提供更多灵活性。
Source:https://www.aibase.com/news/10299