AI-NEWS · 2024年 7月 24日

Meta推出开源大语言模型Llama 3.1 405B,性能堪比GPT-4

Meta公司昨晚宣布开源其最新大语言模型Llama 3.1 405B。以下是该消息的归纳总结:

  1. 模型基本信息

    • Llama 3.1 405B拥有1280亿参数。
    • 预训练上下文长度为8K,后续通过128K上下文长度持续训练。
  2. 性能和比较

    • 在多项任务中的表现可与GPT-4相媲美。
  3. 技术优化

    • 改进了预训练数据的预处理和策划流程。
    • 提升了训练后数据的质量保证和筛选方法。
  4. 计算资源

    • 预训练涉及15.6万亿个标记和3.8×10^25次浮点运算。
    • 使用超过16,000块H100 GPU进行训练。
    • 量化从16位(BF16)至8位(FP8)以降低计算需求。
  5. 附加功能和开发

    • 集成了图像、视频和语音功能,但尚未正式发布。
    • 更新了许可协议,允许使用Llama模型改进其他模型。
  6. 模型应用和潜力

    • 提升了70B和8B模型的训练后质量。
    • 采用监督式微调(SFT)、拒绝采样和直接偏好优化等方法完善聊天模型。
    • 主要使用合成数据进行SFT样本生成。
  7. 未来展望

    • Meta期待开源模型带来的创新,并推动大语言模型技术的进一步发展。

这一开源举措将为AI领域带来新的机遇和挑战,促进大语言模型技术的发展。

Source:https://www.aibase.com/news/10517