AI-NEWS · 2025年 11月 29日

阿里通义千问获NeurIPS最佳论文

NeurIPS 2025最佳论文揭晓:阿里通义千问团队荣获中国唯一大奖

核心成果

  • 获奖论文:《注意力门控机制打造更优基础模型》
  • 获奖团队:阿里巴巴通义千问团队
  • 获奖类别:NeurIPS 2025最佳论文奖
  • 特殊意义:本届四篇获奖论文中唯一的中国团队作品

会议背景

  • 投稿规模:20,000篇论文
  • 录用率:仅25%
  • 竞争程度:史上最激烈

技术突破

核心机制:注意力门控

  • 工作原理:在标准注意力机制后添加可学习门控
  • 实时决策:动态选择参与下游计算的注意力头和标记
  • 形象比喻:如同"安检门",在信息到达前馈神经网络前过滤无关信息

性能表现

模型类型 参数量 训练数据 性能提升
稠密模型 1.7B 3.5T tokens – 参数量增加1%
– 困惑度降低0.2
– MMLU得分提升2分
MoE模型 15B 3.5T tokens 同等显著提升

验证结果

  • 数据集:The Pile所有子领域
  • 表现:均观察到一致性改进
  • 优势:同时提升计算效率和模型鲁棒性

应用与开源

  • 产品集成:已应用于即将发布的Qwen3-Next模型
  • 代码开源:在GitHub开放源代码和1.7B实验模型
  • 社区验证:供研究社区重新验证

未来规划

  • 技术扩展:将门控思想延伸至多模态和长文本场景
  • 愿景目标:使"可自我过滤的注意力"成为下一代大模型标准组件

发布时间

  • 发布日期:2025年11月28日
  • 来源:AIbase Daily团队

火龙果频道