全球首个纯AMD训练的MoE大模型ZAYA1发布:14T训练数据,CCA注意力性能比肩Qwen3!
核心要点
AMD与IBM、AI初创公司Zyphra联合发布ZAYA1,这是全球首个完全在AMD硬件上训练的MoE基础模型。该模型在14T tokens上进行了预训练,综合性能与Qwen3系列相当,其数学/STEM推理能力在未经指令微调的情况下已接近Qwen3专业版水平。
技术细节
训练规模
- 计算集群:128个IBM云节点,配备8张AMD Instinct MI300X显卡,总计1024张显卡
- 技术栈:InfinityFabric和ROCm,峰值性能达750 PFLOPs
- 训练数据:14T tokens,采用课程学习方式,涵盖通用网页、数学、代码和推理内容
- 版本规划:后续训练版本将单独发布
架构创新
- CCA注意力机制:卷积压缩嵌入注意力头,内存使用减少32%,长上下文吞吐量提升18%
- 线性路由MoE:精细化专家粒度和负载平衡正则化,Top-2路由准确率提升2.3个百分点,在稀疏度达70%时仍保持高利用率
基准测试表现
ZAYA1-Base(非指令版本)在MMLU-Redux、GSM-8K、MATH和ScienceQA等基准测试中与Qwen3-Base相当,在CMATH和OCW-Math上表现显著更优,展现了强大的STEM潜力。
发布计划与产业意义
- 版本规划:指令微调和RLHF版本将于2026年第一季度发布,届时将提供API和权重下载
- 产业验证:AMD表示此次合作验证了MI300X和ROCm在大规模MoE训练中的可行性
- 未来目标:计划与更多云服务提供商复制"纯AMD"集群解决方案,目标在2026年实现训练超过1000亿参数MoE模型时与NVIDIA解决方案成本相当
相关AI新闻摘要
腾讯发布HunyuanOCR开源模型
- 参数规模:10亿参数
- 技术特点:基于混元多模态架构,采用端到端设计
- 核心组件:原生分辨率视频编码器、自适应视觉适配器、轻量级语言模型
- 性能表现:在多个OCR基准测试中达到SOTA水平
亚马逊LEO卫星网络
- 测试阶段:正式开启企业测试
- 连接速度:最高1Gbps下行链路
- 终端类型:Ultra、Pro、Nano三种终端
- 网络架构:所有流量通过AWS骨干网路由,实现安全的卫星-云-AI集成
- 商业化计划:2025年底推出,2026年全面商业化
中国AI应用下载表现
- 应用名称:灵光(Ant Group出品)
- 下载成绩:4天内突破100万次下载
- 排名表现:App Store免费榜第六名
- 功能特色:包含"灵光对话"等三大功能,支持用户轻松创建应用
其他重要发布
- Google Gemini 3:支持100万token上下文窗口,在LMArena排名第一
- 微博Vibe Thinker:15亿参数,训练成本仅7800元,数学表现超越DeepSeek R1
- Grok 5延迟:推迟至2026年第一季度发布,参数规模达6万亿
- 微软投资:在葡萄牙投资100亿建设AI数据中心
