Llama 3.1 发布包含8B、70B 和 405B 版本性能媲美GPT4o等闭源模型

Llama 3.1 模型发布总结

Meta发布了最新的Llama 3.1模型，包括8B、70B和405B版本，性能媲美GPT-4等闭源模型。

版本与规模
- 8B: 适合消费者级GPU，高效部署。
- 70B: 适合大规模AI本地应用。
- 405B: 适用于合成数据、LLM评审和蒸馏，具备4050亿参数。
训练与资源
- 训练405B模型使用了超过16,000个NVIDIA H100 GPU，历时数月。
- 使用超过15万亿个token进行预训练。
新特性
- 上下文长度扩展至128K token（之前为8K）。
- 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等8种语言。
- 增强的工具使用能力，如搜索和Wolfram Alpha数学推理。
- 更宽松的许可证，允许使用模型输出改进其他LLMs。
性能与功能
- 在一般知识、可控性、数学、工具使用和多语言翻译方面表现优异。
- 强大的编程和推理能力，能生成高质量代码和解决复杂逻辑任务。
- 多模态扩展，支持图像、视频和语音功能（尚在开发中）。
技术突破
- 模型量化到8位（FP8），提高推理效率，降低计算成本。
- 高质量的预训练和后训练数据筛选流程。
- 多轮对齐和合成数据生成，提升详细性和安全性。
评估与架构
- 使用150多个基准数据集全面评估，涵盖多种语言和任务。
- 采用标准解码器-仅变换器模型架构，避免专家混合模型确保训练稳定性。

马克·扎克伯格强调开源AI的重要性，认为其将类似于Linux的发展路径，对开发者、Meta和整个世界都有利。开源AI将逐渐成为行业标准，推动全球技术平等发展和应用。

更多详细内容可参考：https://llama.meta.com/

近期新闻