极低比特量化技术在T2I模型上的应用研究
背景
文本到图像(Text-to-Image,简称T2I)生成模型如DALLE3和Adobe Firefly3展示了强大的生成能力,并具有广泛的实际应用场景。然而,这些模型通常包含数十亿的参数,需要大量内存资源,这使得它们在诸如移动设备等资源受限平台上部署面临巨大挑战。
研究方法
来自字节跳动(ByteDance)和POSTECH的研究人员探索了T2I模型的极低比特量化技术。其中,FLUX.1-dev因其公开性和优秀性能成为研究重点。研究人员采用了名为1.58位量化的技术来压缩FLUX模型中的视觉转换器权重,使其缩减到只有-1、0、1三个值。这种量化方法不需要访问图像数据,完全依赖于FLUX.1-dev模型的自我监督。
研究成果
存储空间优化
通过这种方法,模型的存储空间减少了7.7倍,因为1.58位权重使用2位带符号整数进行存储,实现了从16位精度到压缩后的转换。为了进一步提高推断效率,研究人员开发了一种针对低比特计算优化的自定义内核,将推理内存使用量减少超过5.1倍,并改进了推理延迟。
性能评估
在GenEval和T2I Compbench基准测试中显示,1.58位FLUX显著提高了计算效率,同时保持生成质量与全精度FLUX模型相当。具体而言,研究人员量化了99.5%的视觉转换器参数(总计约119亿),大幅降低了存储需求。实验结果显示,在T2I CompBench和GenEval数据集上,1.58位FLUX的表现与原始FLUX模型基本一致。
推理速度提升
在低性能GPU(如L20和A10)上的推理速度改进更为显著。
总结
- 模型压缩:模型存储空间减少了7.7倍。
- 内存优化:推理内存使用量减少超过5.1倍。
- 性能保留:1.58位FLUX在GenEval和T2I Compbench基准测试中保持与全精度FLUX模型相当的性能。
- 无需图像数据:量化过程不需要访问任何图像数据,仅依赖于模型自我监督。
- 自定义内核:采用了一种针对低比特计算优化的自定义内核,增强了推断效率。
尽管1.58位FLUX在速度提升和高分辨率图像细节渲染方面仍有一些局限性,其对提高模型效率和减少资源消耗的巨大潜力预计会为未来研究提供新的见解。