Meta推出开源大语言模型Llama 3.1 405B，性能堪比GPT-4

Meta公司昨晚宣布开源其最新大语言模型Llama 3.1 405B。以下是该消息的归纳总结：

模型基本信息：
- Llama 3.1 405B拥有1280亿参数。
- 预训练上下文长度为8K，后续通过128K上下文长度持续训练。
性能和比较：
- 在多项任务中的表现可与GPT-4相媲美。
技术优化：
- 改进了预训练数据的预处理和策划流程。
- 提升了训练后数据的质量保证和筛选方法。
计算资源：
- 预训练涉及15.6万亿个标记和3.8×10^25次浮点运算。
- 使用超过16,000块H100 GPU进行训练。
- 量化从16位（BF16）至8位(FP8)以降低计算需求。
附加功能和开发：
- 集成了图像、视频和语音功能，但尚未正式发布。
- 更新了许可协议，允许使用Llama模型改进其他模型。
模型应用和潜力：
- 提升了70B和8B模型的训练后质量。
- 采用监督式微调（SFT）、拒绝采样和直接偏好优化等方法完善聊天模型。
- 主要使用合成数据进行SFT样本生成。
未来展望：
- Meta期待开源模型带来的创新，并推动大语言模型技术的进一步发展。

这一开源举措将为AI领域带来新的机遇和挑战，促进大语言模型技术的发展。

近期新闻