AI-NEWS · 2024年 10月 26日

Meta AI’s New Quantized Version Llama 3.2: 2x Speed Increase and 56% Size Reduction, Now Runnable on Mobile Devices

### Meta AI发布量化Llama3.2模型

近日，Meta AI发布了新的量化Llama3.2模型，提供1B和3B版本。该模型专为微调、蒸馏和跨设备部署设计。

主要特点：

多语言文本和图像处理：支持多种语言的文本和图像处理。
尺寸与内存优化：量化后，1B和3B模型平均减小56%，减少41%的内存使用，并实现2-3倍的速度提升。适合移动设备和边缘计算环境。
量化策略：采用8位和4位量化技术，降低原始32位浮点精度对权重和激活的要求，显著减少了内存需求和计算成本。这意味着量化后的Llama3.2模型可以在标准消费级GPU或CPU上运行，几乎没有任何性能损失。

业务和技术影响：

应用场景：用户现在可以使用手机等设备进行实时讨论摘要、日历工具调用等多种智能应用。
合作伙伴关系：Meta AI与Qualcomm和MediaTek等行业领导者合作，将这些模型部署在基于Arm CPU的系统芯片上，确保广泛的设备高效使用。早期测试显示，量化后的Llama3.2模型在主要自然语言处理基准上的性能达到原始Llama3模型的95%，内存使用减少近60%。
成本和环境影响：这一趋势有助于推动可持续和包容性的AI开发。

关键点：

Meta AI的量化Llama3.2模型显著减少了模型大小和计算资源需求，提供1B和3B版本。
推理速度提升2-4倍，适用于消费级硬件，适合实时应用。
量化后的Llama3.2在自然语言处理方面表现几乎与原始模型一样好，使企业和研究人员能够实现AI应用。

Source:https://www.aibase.com/news/12728

您可能还喜欢...