AI-NEWS · 2024年 8月 10日

Mobile Large Model Runs 5 Times Faster! Microsoft Research Asia Opens New Technology for Ultra-Fast Experience on CPUs

归纳总结:T-MAC技术推动移动大模型在CPU上的超快速运行

背景

  • 随着智能设备的普及,提升这些设备的智能处理能力成为关键,但受限于硬件资源(尤其是内存和计算能力)。
  • 大型语言模型(LLMs)需要大量内存和计算资源,目前难以在边缘设备上高效部署。

T-MAC技术简介

  • 全称: Table-Lookup-based MAC
  • 核心方法: 基于查找表的低位量化大语言模型在CPU上的高效操作。
  • 主要创新: 将传统的数据类型乘法运算转化为基于位的查找表(LUT)查找,减少乘法和加法运算,大幅提高计算效率。

T-MAC实现步骤

  1. 将权重矩阵分解成多个一位矩阵。
  2. 预计算激活向量与所有可能的一位模式的积,并将结果存储在查找表中。
  3. 推理过程中,通过查找表索引和累加操作快速获得最终矩阵乘法结果。

性能表现

  • 性能提升: 相较于现有的llama.cpp实现,T-MAC使吞吐量提升4倍,能耗降低70%。
  • 适用设备: 即使是低端设备(如Raspberry Pi5)也能以超过成人平均阅读速度生成tokens。

应用场景

  • 实时语音识别、自然语言处理
  • 智能家居设备中的更智能互动体验

意义与前景

  • 高效节能: 提供了一种高效且节能的解决方案,使低位大语言模型能够在边缘设备上部署。
  • 智能升级: 提升设备智能水平,丰富用户智能体验。
  • 发展潜力: 随着技术持续发展和优化,T-MAC在边缘智能领域的作用将愈发重要。

开源与论文地址

来源: AIbase新闻

Source:https://www.aibase.com/news/10960