AI-NEWS · 2025年 4月 6日

Meta发布Llama 4

Meta Llama 4系列模型技术分析报告

核心模型架构

  1. 混合专家系统(MoE)

    • 采用动态稀疏化MoE架构
    • 主要子模型:
      • Scout版:17B激活参数/109B总参数
      • Maverick版:17B激活参数/400B总参数
      • Behemoth版:288B参数
  2. 多模态支持

    • 创新性"early fusion" token处理技术
    • 图像理解能力("Image Grounding")
    • 跨模态关联能力(如"labrador→golden retriever"图像文本关联)

关键性能指标

模型版本 上下文长度 参数量级 专家数
Scout 1000 token 17B/109B 16
Maverick 100 token 17B/400B 128
Behemoth 30 token 288B 16

技术突破

  1. 训练优化

    • 采用NVIDIA H100 GPU集群
    • 实现"mid-training"动态调整技术
    • 相比Llama 3提升30-40%训练效率
  2. 基准测试表现

    • STEM领域超越MATH-500基准
    • 对比测试:
      • 超越GPT-4.5/Claude Sonnet 3.7
      • 与GPT-4o/Gemini 2.0 Flash/DeepSeek V3竞争

生态部署

  1. 硬件需求

    • 最小部署单元:10台H100 GPU
    • Meta计划2025年部署650个AI节点
  2. 特色能力

    • 支持零样本(0-shot)学习
    • 增强的RAG检索能力
    • 多语言支持(12种语言)

市场定位

  • Scout版:长文本处理专家
  • Maverick版:高精度推理专家
  • Behemoth版:复杂任务处理

注:所有技术参数截至2024年8月,实际表现可能随部署环境变化。

火龙果频道