AI-NEWS · 2025年 11月 26日

全球首款纯AMD大模型发布

全球首个纯AMD训练的MoE大模型ZAYA1发布：14T训练数据，CCA注意力性能比肩Qwen3！

核心要点

AMD与IBM、AI初创公司Zyphra联合发布ZAYA1，这是全球首个完全在AMD硬件上训练的MoE基础模型。该模型在14T tokens上进行了预训练，综合性能与Qwen3系列相当，其数学/STEM推理能力在未经指令微调的情况下已接近Qwen3专业版水平。

技术细节

训练规模

计算集群：128个IBM云节点，配备8张AMD Instinct MI300X显卡，总计1024张显卡
技术栈：InfinityFabric和ROCm，峰值性能达750 PFLOPs
训练数据：14T tokens，采用课程学习方式，涵盖通用网页、数学、代码和推理内容
版本规划：后续训练版本将单独发布

架构创新

CCA注意力机制：卷积压缩嵌入注意力头，内存使用减少32%，长上下文吞吐量提升18%
线性路由MoE：精细化专家粒度和负载平衡正则化，Top-2路由准确率提升2.3个百分点，在稀疏度达70%时仍保持高利用率

基准测试表现

ZAYA1-Base（非指令版本）在MMLU-Redux、GSM-8K、MATH和ScienceQA等基准测试中与Qwen3-Base相当，在CMATH和OCW-Math上表现显著更优，展现了强大的STEM潜力。

发布计划与产业意义

版本规划：指令微调和RLHF版本将于2026年第一季度发布，届时将提供API和权重下载
产业验证：AMD表示此次合作验证了MI300X和ROCm在大规模MoE训练中的可行性
未来目标：计划与更多云服务提供商复制"纯AMD"集群解决方案，目标在2026年实现训练超过1000亿参数MoE模型时与NVIDIA解决方案成本相当

相关AI新闻摘要

腾讯发布HunyuanOCR开源模型

参数规模：10亿参数
技术特点：基于混元多模态架构，采用端到端设计
核心组件：原生分辨率视频编码器、自适应视觉适配器、轻量级语言模型
性能表现：在多个OCR基准测试中达到SOTA水平

亚马逊LEO卫星网络

测试阶段：正式开启企业测试
连接速度：最高1Gbps下行链路
终端类型：Ultra、Pro、Nano三种终端
网络架构：所有流量通过AWS骨干网路由，实现安全的卫星-云-AI集成
商业化计划：2025年底推出，2026年全面商业化

中国AI应用下载表现

应用名称：灵光（Ant Group出品）
下载成绩：4天内突破100万次下载
排名表现：App Store免费榜第六名
功能特色：包含"灵光对话"等三大功能，支持用户轻松创建应用

其他重要发布

Google Gemini 3：支持100万token上下文窗口，在LMArena排名第一
微博Vibe Thinker：15亿参数，训练成本仅7800元，数学表现超越DeepSeek R1
Grok 5延迟：推迟至2026年第一季度发布，参数规模达6万亿
微软投资：在葡萄牙投资100亿建设AI数据中心

火龙果频道

您可能还喜欢...