LazyLLM 提高 LLM 长文本推理效率
背景
苹果公司研究团队和 Meta AI 联合推出了 LazyLLM 技术,旨在解决大型语言模型(LLM)处理长提示时的效率问题。
问题
- 当前 LLM 在处理长文本时,计算注意力的复杂度呈平方关系增长,导致速度慢。
- 例如,在使用 Llama2 模型时,首个 token 的计算时间是后续解码步骤的21倍,占生成时间的23%。
解决方案:LazyLLM
-
核心机制
- 动态选择重要 token 的计算方式,加速推理。
- 根据之前层的注意力分数评估每个 token 的重要性,逐步削减计算量。
- 可恢复被削减的 token 以确保准确性,通过 Aux Cache 存储剪枝 token 的隐含状态,提高恢复效率。
-
优势
- 兼容性:适用于任何变换器基础的 LLM。
- 无需再训练:实施过程中不需要对模型进行再训练。
- 广泛适用:在多种语言任务上表现有效。
-
性能表现
- TTFT(Total Time to First Token)速度提升显著:Llama2 提升达 2.89 倍,XGen 提升达 4.77 倍。
- 准确率几乎与基线持平。
- 在问答、摘要生成、代码补全等任务上实现更快的生成速度,同时在性能与速度之间取得良好平衡。
总结
LazyLLM 通过动态选择重要 token 和引入 Aux Cache 机制,大幅提高了 LLM 在长文本推理中的效率,特别是在预填充和解码阶段,实现了 TTFT 速度提升,并且保证了较高的准确性。该技术兼容现有变换器基础的 LLM,无需对模型进行再训练,易于实施,适用于多种语言任务。
链接
划重点:
🌟 LazyLLM 通过动态选择重要 token,加速 LLM 推理过程,特别是在长文本场景中表现突出。
⚡ 该技术能够显著提高推理速度,TTFT 速度提升可达4.77倍,同时保持较高的准确性。
🔧 LazyLLM 不需要对现有模型进行改动,可与任何变换器基础的 LLM 兼容,易于实施。