腾讯混元发布首个工业级2Bit端侧模型：0.3B参数量实现性能逆转

发布日期：2026年2月10日

核心摘要

腾讯混元（Hunyuan）正式发布了超小模型 HY-1.8B-2Bit，这是业界首个工业级2Bit量化解决方案的端侧（边缘）模型。该模型通过创新技术，将等效参数量压缩至 0.3B，内存占用仅约 600MB，其体积小于部分常用手机应用，旨在面向消费级硬件实现高效部署。

在模型部署中，量化位数越低，通常精度损失越大。为解决此问题，腾讯混元团队放弃了传统的训练后量化（PTQ）策略，转而采用 量化感知训练（QAT），并结合了数据优化、弹性拉伸量化与策略创新。

实验数据显示，HY-1.8B-2Bit在数学、代码、科学等核心指标上的表现，与4Bit PTQ模型版本相当。这意味着在显著压缩模型体积的同时，其仍保持了强大的“全能”能力。

得益于极致的压缩，该模型在真实端侧设备上的生成速度相比原精度模型提升了 23倍。具体性能数据如下：

硬件平台	性能提升详情
MacBook M4	在1024输入长度内，首字延迟加速 38倍，生成速度保持 2倍以上的稳定提升。
天玑9500	相比Q4格式，首字延迟加速 1.52倍，生成速度加速约 1.5倍。

此外，该模型完整保留了Hunyuan-1.8B-Instruct的长、短思维链能力，用户可根据任务复杂度灵活切换。

目前，该模型已提供 GGUF-int2格式 的权重，并已在 Arm SME2技术平台 完成适配，可广泛应用于对离线部署和隐私保护要求高的手机、耳机、智能家居等场景。

腾讯混元表示，未来将通过强化学习和模型蒸馏等技术，进一步缩小低比特模型与全精度模型之间的能力差距。

此次发布标志着大模型在端侧“瘦身健体”落地取得重大突破，为AI在资源受限的边缘设备上实现高性能、低功耗部署提供了新的工业级解决方案。