AI-NEWS · 2025年 11月 29日

阿里通义千问获NeurIPS最佳论文

NeurIPS 2025最佳论文揭晓：阿里通义千问团队荣获中国唯一大奖

核心成果

获奖论文：《注意力门控机制打造更优基础模型》
获奖团队：阿里巴巴通义千问团队
获奖类别：NeurIPS 2025最佳论文奖
特殊意义：本届四篇获奖论文中唯一的中国团队作品

会议背景

投稿规模：20,000篇论文
录用率：仅25%
竞争程度：史上最激烈

技术突破

核心机制：注意力门控

工作原理：在标准注意力机制后添加可学习门控
实时决策：动态选择参与下游计算的注意力头和标记
形象比喻：如同"安检门"，在信息到达前馈神经网络前过滤无关信息

性能表现

模型类型	参数量	训练数据	性能提升
稠密模型	1.7B	3.5T tokens	– 参数量增加1% – 困惑度降低0.2 – MMLU得分提升2分
MoE模型	15B	3.5T tokens	同等显著提升

验证结果

数据集：The Pile所有子领域
表现：均观察到一致性改进
优势：同时提升计算效率和模型鲁棒性

应用与开源

产品集成：已应用于即将发布的Qwen3-Next模型
代码开源：在GitHub开放源代码和1.7B实验模型
社区验证：供研究社区重新验证

未来规划

技术扩展：将门控思想延伸至多模态和长文本场景
愿景目标：使"可自我过滤的注意力"成为下一代大模型标准组件

发布时间

发布日期：2025年11月28日
来源：AIbase Daily团队

火龙果频道

您可能还喜欢...