AI-NEWS · 2024年 7月 19日

微软Q-Sparse模型：8B参数性能直逼7B模型训练微调轻松搞定！

微软Q-Sparse模型：8B参数性能直逼7B模型训练微调轻松搞定！

背景与挑战

大型语言模型（LLMs）因其卓越的自然语言处理能力而著称，但部署面临高计算成本和内存占用等实际问题。

Q-Sparse方法简介

Q-Sparse是一种简单但有效的方法，通过在激活中应用top-K稀疏化和训练中的直通估计器，实现了LLMs的完全稀疏激活。
优势：
- 提高推理效率，保持与基线LLMs相当的结果。
- 提出了适用于稀疏激活LLMs的推理最优扩展法则。
- 可用于从头开始训练、现成LLMs的继续训练和微调。
- 适用于全精度和1位LLMs（例如BitNet b1.58）。

稀疏激活的优势

减少矩阵乘法的计算量。
减少输入/输出（I/O）的传输量，这是推理阶段的主要瓶颈。

实现细节

在每个线性投影中应用top-K稀疏化函数，实现激活的全稀疏性。
使用直通估计器计算激活的梯度。
引入平方ReLU函数进一步提高激活的稀疏性。

实验验证

发现：
- 性能随着模型大小和稀疏比率的增加而提高。
- 给定固定稀疏比率S，性能与模型大小N呈幂律扩展法则。
- 给定固定参数N，性能与稀疏比率S呈指数律扩展法则。
设置：
- 从头开始训练、继续训练和微调设置中使用相同架构和训练过程，区别在于使用预训练权重初始化模型并启用稀疏函数继续训练。

未来探索

将Q-Sparse与1位LLMs（如BitNet b1.58）和混合专家(MoE)结合使用，提高效率。
使Q-Sparse与批量模式兼容，为LLMs的训练和推理提供更多灵活性。

Source:https://www.aibase.com/news/10299

您可能还喜欢...