更高精度训练总是更好吗？

在人工智能领域，模型规模越大，其能力似乎越强。为了开发更强大的语言模型，各大科技公司都在不断增加模型参数和训练数据的量级，但随之而来的是成本急剧上升。因此，如何找到一种既经济又高效的模型训练方法成为了一个重要课题。

哈佛大学和斯坦福大学的研究人员最近发表了一篇论文，揭示了模型精度在语言模型训练中的重要作用，可以视为解锁“成本代码”的关键因素之一。

1. 模型精度的定义

模型精度指的是模型参数及计算过程中使用的数字位数。
传统的深度学习模型通常使用32位浮点数（FP32）进行训练。近年来，随着硬件的进步，可以采用更低精度的数值类型，如16位浮点数（FP16）或8位整数（INT8）。

2. 精度降低对性能的影响
通过广泛的实验，研究人员分析了在不同精度下模型训练和推理的成本及性能变化，并提出了新的“精度感知”扩展规则。主要发现如下：

减少计算负载：使用更低的精度可以有效减小模型的有效参数数量，从而减轻训练所需的计算负荷。
- 同样的计算预算内，可以训练更大规模的模型；或者在相同的规模下，通过使用更低精度来节省大量计算资源。
性能提升的可能性：在某些情况下，使用较低精度进行训练甚至能提高模型性能。例如，在需要“后训练量化”的场景中，低精度训练能使模型更具稳健性以应对量化后的精度降低问题。

通过分析扩展规则，研究人员得出了一些有趣的结论：

该研究存在一定局限性：

尽管如此，这项研究仍具有重要意义。它揭示了模型精度和性能、训练成本之间的复杂关系，并为设计和训练更强大且经济的语言模型提供了宝贵的见解。

近期新闻