AI-NEWS · 2024年 7月 24日

最强开源模型来了!Llama3.1以405B参数领先GPT-4o

归纳总结

Llama3.1模型发布及其影响

  • 发布背景:Meta AI团队发布了新一代大型语言模型Llama3.1,拥有405B参数,标志着开源AI模型首次在性能上与闭源模型(如GPT-4o和Claude3.5Sonnet)并驾齐驱,甚至在某些方面实现超越。

  • 技术特点

    • 上下文长度扩展:上下文长度扩展到128K,能够处理更复杂的任务和理解更长的文本信息。
    • 多语言支持:新增对八种语言(英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语)的支持。
    • 性能卓越:在常识、可操纵性、数学、工具使用和多语言翻译等方面表现出色。
    • 训练规模:在超过15万亿个token上进行训练,为业界首创。
    • 架构优化:采用标准的仅解码器的Transformer架构,并进行了细微调整,通过SFT(监督微调)和DPO(直接偏好优化)提高性能。
  • 训练资源:模型算力规模扩展到了超过16000个H100GPU。

  • CEO观点:Meta CEO扎克伯格强调开源AI在开放性、可修改性和成本效率方面的优势,认为开源AI将成为行业转折点,并推动AI技术普及和发展。

  • 合作与生态系统:Meta正与多家公司合作,支持开发者微调和蒸馏自己的模型,这些模型将在主要云平台(AWS、Azure、Google、Oracle等)上提供。

  • 未来前景:Llama3.1的发布预示着开源人工智能可能成为行业标准,为AI的普及和应用开辟新的道路。

参考链接Meta官方详细介绍

Source:https://www.aibase.com/news/10523