AI-NEWS · 2024年 7月 24日

苹果研究团队出品！LazyLLM：提高LLM长文本推理效率

LazyLLM 提高 LLM 长文本推理效率

背景

苹果公司研究团队和 Meta AI 联合推出了 LazyLLM 技术，旨在解决大型语言模型（LLM）处理长提示时的效率问题。

问题

当前 LLM 在处理长文本时，计算注意力的复杂度呈平方关系增长，导致速度慢。
例如，在使用 Llama2 模型时，首个 token 的计算时间是后续解码步骤的21倍，占生成时间的23%。

解决方案：LazyLLM

核心机制
- 动态选择重要 token 的计算方式，加速推理。
- 根据之前层的注意力分数评估每个 token 的重要性，逐步削减计算量。
- 可恢复被削减的 token 以确保准确性，通过 Aux Cache 存储剪枝 token 的隐含状态，提高恢复效率。
优势
- 兼容性：适用于任何变换器基础的 LLM。
- 无需再训练：实施过程中不需要对模型进行再训练。
- 广泛适用：在多种语言任务上表现有效。
性能表现
- TTFT（Total Time to First Token）速度提升显著：Llama2 提升达 2.89 倍，XGen 提升达 4.77 倍。
- 准确率几乎与基线持平。
- 在问答、摘要生成、代码补全等任务上实现更快的生成速度，同时在性能与速度之间取得良好平衡。

总结

LazyLLM 通过动态选择重要 token 和引入 Aux Cache 机制，大幅提高了 LLM 在长文本推理中的效率，特别是在预填充和解码阶段，实现了 TTFT 速度提升，并且保证了较高的准确性。该技术兼容现有变换器基础的 LLM，无需对模型进行再训练，易于实施，适用于多种语言任务。

链接

论文地址: https://arxiv.org/abs/2407.14057

划重点:

🌟 LazyLLM 通过动态选择重要 token，加速 LLM 推理过程，特别是在长文本场景中表现突出。
⚡ 该技术能够显著提高推理速度，TTFT 速度提升可达4.77倍，同时保持较高的准确性。
🔧 LazyLLM 不需要对现有模型进行改动，可与任何变换器基础的 LLM 兼容，易于实施。

Source:https://www.aibase.com/news/10527

您可能还喜欢...