AI-NEWS · 2025年 7月 10日

英伟达联手港大推快速KV缓存

Fast-dLLM:提升扩散语言模型推理效率的创新技术

研究背景

  • 研发团队:NVIDIA、香港大学和MIT联合研发
  • 技术目标:提升扩散语言模型(Diffusion Language Models)的推理效率
  • 传统模型局限:开源扩散语言模型在实际应用中推理速度仍落后于自回归模型

技术突破

1. KV缓存机制创新

  • 传统挑战:扩散模型使用双向注意力机制,难以直接应用KV缓存
  • 解决方案
    • 将文本生成过程划分为多个块(block)
    • 每个块包含固定数量token
    • 预计算并存储其他块的KV缓存
  • 效果:避免冗余计算,提高生成速度

2. 基于置信度的并行解码策略

  • 问题背景:并行解码时生成质量下降
  • 创新方案
    • 计算每个token的置信度
    • 仅解码置信度高于阈值的token
  • 优势:保持生成文本的连贯性和准确性

性能测试

测试环境

  • 硬件:NVIDIA A100 80GB GPU
  • 测试模型:LLaDA和Dream扩散语言模型
  • 测试任务:数学推理、代码生成等

关键数据

测试项目 性能指标
KV缓存测试(块大小32) 吞吐量54.4 tokens/s,准确率78.5%
LLaDA模型加速比 KV Cache加速3.2倍
并行解码加速2.5倍
组合加速 总加速8.1倍
生成长度1024时 端到端加速高达27.6倍

技术优势

  1. 显著提升推理速度(最高27.6倍加速)
  2. 保持生成质量稳定
  3. 有效解决并行解码质量下降问题

火龙果频道