AI-NEWS · 2024年 7月 24日

Llama 3.1 发布 包含8B、70B 和 405B 版本 性能媲美GPT4o等闭源模型

Llama 3.1 模型发布总结

主要内容:

Meta发布了最新的Llama 3.1模型,包括8B、70B和405B版本,性能媲美GPT-4等闭源模型。

关键数据和特性:

  1. 版本与规模

    • 8B: 适合消费者级GPU,高效部署。
    • 70B: 适合大规模AI本地应用。
    • 405B: 适用于合成数据、LLM评审和蒸馏,具备4050亿参数。
  2. 训练与资源

    • 训练405B模型使用了超过16,000个NVIDIA H100 GPU,历时数月。
    • 使用超过15万亿个token进行预训练。
  3. 新特性

    • 上下文长度扩展至128K token(之前为8K)。
    • 支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等8种语言。
    • 增强的工具使用能力,如搜索和Wolfram Alpha数学推理。
    • 更宽松的许可证,允许使用模型输出改进其他LLMs。
  4. 性能与功能

    • 在一般知识、可控性、数学、工具使用和多语言翻译方面表现优异。
    • 强大的编程和推理能力,能生成高质量代码和解决复杂逻辑任务。
    • 多模态扩展,支持图像、视频和语音功能(尚在开发中)。
  5. 技术突破

    • 模型量化到8位(FP8),提高推理效率,降低计算成本。
    • 高质量的预训练和后训练数据筛选流程。
    • 多轮对齐和合成数据生成,提升详细性和安全性。
  6. 评估与架构

    • 使用150多个基准数据集全面评估,涵盖多种语言和任务。
    • 采用标准解码器-仅变换器模型架构,避免专家混合模型确保训练稳定性。

战略意义:

马克·扎克伯格强调开源AI的重要性,认为其将类似于Linux的发展路径,对开发者、Meta和整个世界都有利。开源AI将逐渐成为行业标准,推动全球技术平等发展和应用。

详细信息:

更多详细内容可参考:https://llama.meta.com/

Source:https://xiaohu.ai/p/11686