Meta公司昨晚宣布开源其最新大语言模型Llama 3.1 405B。以下是该消息的归纳总结:
-
模型基本信息:
- Llama 3.1 405B拥有1280亿参数。
- 预训练上下文长度为8K,后续通过128K上下文长度持续训练。
-
性能和比较:
- 在多项任务中的表现可与GPT-4相媲美。
-
技术优化:
- 改进了预训练数据的预处理和策划流程。
- 提升了训练后数据的质量保证和筛选方法。
-
计算资源:
- 预训练涉及15.6万亿个标记和3.8×10^25次浮点运算。
- 使用超过16,000块H100 GPU进行训练。
- 量化从16位(BF16)至8位(FP8)以降低计算需求。
-
附加功能和开发:
- 集成了图像、视频和语音功能,但尚未正式发布。
- 更新了许可协议,允许使用Llama模型改进其他模型。
-
模型应用和潜力:
- 提升了70B和8B模型的训练后质量。
- 采用监督式微调(SFT)、拒绝采样和直接偏好优化等方法完善聊天模型。
- 主要使用合成数据进行SFT样本生成。
-
未来展望:
- Meta期待开源模型带来的创新,并推动大语言模型技术的进一步发展。
这一开源举措将为AI领域带来新的机遇和挑战,促进大语言模型技术的发展。