AI-NEWS · 2025年 11月 26日

全球首款纯AMD大模型发布

全球首个纯AMD训练的MoE大模型ZAYA1发布:14T训练数据,CCA注意力性能比肩Qwen3!

核心要点

AMD与IBM、AI初创公司Zyphra联合发布ZAYA1,这是全球首个完全在AMD硬件上训练的MoE基础模型。该模型在14T tokens上进行了预训练,综合性能与Qwen3系列相当,其数学/STEM推理能力在未经指令微调的情况下已接近Qwen3专业版水平。

技术细节

训练规模

  • 计算集群:128个IBM云节点,配备8张AMD Instinct MI300X显卡,总计1024张显卡
  • 技术栈:InfinityFabric和ROCm,峰值性能达750 PFLOPs
  • 训练数据:14T tokens,采用课程学习方式,涵盖通用网页、数学、代码和推理内容
  • 版本规划:后续训练版本将单独发布

架构创新

  1. CCA注意力机制:卷积压缩嵌入注意力头,内存使用减少32%,长上下文吞吐量提升18%
  2. 线性路由MoE:精细化专家粒度和负载平衡正则化,Top-2路由准确率提升2.3个百分点,在稀疏度达70%时仍保持高利用率

基准测试表现

ZAYA1-Base(非指令版本)在MMLU-Redux、GSM-8K、MATH和ScienceQA等基准测试中与Qwen3-Base相当,在CMATH和OCW-Math上表现显著更优,展现了强大的STEM潜力。

发布计划与产业意义

  • 版本规划:指令微调和RLHF版本将于2026年第一季度发布,届时将提供API和权重下载
  • 产业验证:AMD表示此次合作验证了MI300X和ROCm在大规模MoE训练中的可行性
  • 未来目标:计划与更多云服务提供商复制"纯AMD"集群解决方案,目标在2026年实现训练超过1000亿参数MoE模型时与NVIDIA解决方案成本相当

相关AI新闻摘要

腾讯发布HunyuanOCR开源模型

  • 参数规模:10亿参数
  • 技术特点:基于混元多模态架构,采用端到端设计
  • 核心组件:原生分辨率视频编码器、自适应视觉适配器、轻量级语言模型
  • 性能表现:在多个OCR基准测试中达到SOTA水平

亚马逊LEO卫星网络

  • 测试阶段:正式开启企业测试
  • 连接速度:最高1Gbps下行链路
  • 终端类型:Ultra、Pro、Nano三种终端
  • 网络架构:所有流量通过AWS骨干网路由,实现安全的卫星-云-AI集成
  • 商业化计划:2025年底推出,2026年全面商业化

中国AI应用下载表现

  • 应用名称:灵光(Ant Group出品)
  • 下载成绩:4天内突破100万次下载
  • 排名表现:App Store免费榜第六名
  • 功能特色:包含"灵光对话"等三大功能,支持用户轻松创建应用

其他重要发布

  • Google Gemini 3:支持100万token上下文窗口,在LMArena排名第一
  • 微博Vibe Thinker:15亿参数,训练成本仅7800元,数学表现超越DeepSeek R1
  • Grok 5延迟:推迟至2026年第一季度发布,参数规模达6万亿
  • 微软投资:在葡萄牙投资100亿建设AI数据中心

火龙果频道