AI-NEWS · 2024年 8月 10日

Mobile Large Model Runs 5 Times Faster! Microsoft Research Asia Opens New Technology for Ultra-Fast Experience on CPUs

归纳总结：T-MAC技术推动移动大模型在CPU上的超快速运行

背景

随着智能设备的普及，提升这些设备的智能处理能力成为关键，但受限于硬件资源（尤其是内存和计算能力）。
大型语言模型（LLMs）需要大量内存和计算资源，目前难以在边缘设备上高效部署。

T-MAC技术简介

全称: Table-Lookup-based MAC
核心方法: 基于查找表的低位量化大语言模型在CPU上的高效操作。
主要创新: 将传统的数据类型乘法运算转化为基于位的查找表（LUT）查找，减少乘法和加法运算，大幅提高计算效率。

T-MAC实现步骤

将权重矩阵分解成多个一位矩阵。
预计算激活向量与所有可能的一位模式的积，并将结果存储在查找表中。
推理过程中，通过查找表索引和累加操作快速获得最终矩阵乘法结果。

性能表现

性能提升: 相较于现有的llama.cpp实现，T-MAC使吞吐量提升4倍，能耗降低70%。
适用设备: 即使是低端设备（如Raspberry Pi5）也能以超过成人平均阅读速度生成tokens。

应用场景

实时语音识别、自然语言处理
智能家居设备中的更智能互动体验

意义与前景

高效节能: 提供了一种高效且节能的解决方案，使低位大语言模型能够在边缘设备上部署。
智能升级: 提升设备智能水平，丰富用户智能体验。
发展潜力: 随着技术持续发展和优化，T-MAC在边缘智能领域的作用将愈发重要。

开源与论文地址

开源地址: GitHub – T-MAC
论文地址: Arxiv – T-MAC Paper

来源: AIbase新闻

Source:https://www.aibase.com/news/10960

您可能还喜欢...