NeurIPS 2025最佳论文揭晓:阿里通义千问团队荣获中国唯一大奖
核心成果
- 获奖论文:《注意力门控机制打造更优基础模型》
- 获奖团队:阿里巴巴通义千问团队
- 获奖类别:NeurIPS 2025最佳论文奖
- 特殊意义:本届四篇获奖论文中唯一的中国团队作品
会议背景
- 投稿规模:20,000篇论文
- 录用率:仅25%
- 竞争程度:史上最激烈
技术突破
核心机制:注意力门控
- 工作原理:在标准注意力机制后添加可学习门控
- 实时决策:动态选择参与下游计算的注意力头和标记
- 形象比喻:如同"安检门",在信息到达前馈神经网络前过滤无关信息
性能表现
| 模型类型 | 参数量 | 训练数据 | 性能提升 |
|---|---|---|---|
| 稠密模型 | 1.7B | 3.5T tokens | – 参数量增加1% – 困惑度降低0.2 – MMLU得分提升2分 |
| MoE模型 | 15B | 3.5T tokens | 同等显著提升 |
验证结果
- 数据集:The Pile所有子领域
- 表现:均观察到一致性改进
- 优势:同时提升计算效率和模型鲁棒性
应用与开源
- 产品集成:已应用于即将发布的Qwen3-Next模型
- 代码开源:在GitHub开放源代码和1.7B实验模型
- 社区验证:供研究社区重新验证
未来规划
- 技术扩展:将门控思想延伸至多模态和长文本场景
- 愿景目标:使"可自我过滤的注意力"成为下一代大模型标准组件
发布时间
- 发布日期:2025年11月28日
- 来源:AIbase Daily团队
