阿里云“曦颜-SQL”在全球SQL诊断评测榜单中强势夺冠
发布日期:2025年12月5日
来源:AIbase AI新闻
核心摘要
近日,阿里云飞天实验室自主研发的数据分析智能体“曦颜-SQL”(XiYan-SQL)在全球权威SQL诊断评测基准BIRD-CRITIC(亦称SWE-SQL)中表现卓越,成功登顶全部公开榜单,超越国内外多个顶尖团队,创造了SQL诊断与修复的新行业记录。
评测背景:BIRD-CRITIC基准
该基准由学术界与谷歌云联合推出,旨在探究“大语言模型能否解决真实数据库应用中的用户问题”。其特点包括:
- 场景真实:评测题目汇编了企业环境中常见的数据库错误、性能问题及查询需求。
- 覆盖广泛:涵盖MySQL、PostgreSQL、SQL Server、Oracle等主流数据库系统。
- 难度较高:题目不仅包含简单查询,还涉及复杂的插入、更新、删除操作,以及大量模型未曾见过的新场景,整体难度远高于传统的“自然语言转SQL”测试。
夺冠成绩
曦颜-SQL在本次评测中,于三项重要榜单均取得第一名:
- BIRD-CRITIC-1.0-Open
- BIRD-CRITIC-PG
- BIRD-CRITIC-Flash
该成绩在跨方言鲁棒性、复杂SQL处理能力、真实问题修复率、分布外泛化性等多个维度获得了权威验证。
技术亮点
曦颜-SQL采用了多项创新方法以确保其高性能:
- 模式过滤:优化数据库结构理解。
- 多生成器集成:融合不同生成策略。
- 候选重组与最优选择:从多个候选方案中挑选最佳SQL。
这些技术使模型不仅能生成高质量SQL,还能充分考虑语句的可执行性与可维护性,使其能够在存在脏数据、异构模式、跨方言差异的真实系统中提供高可用的诊断与修复方案。
产品化应用
基于曦颜-SQL技术构建的生成式商业智能(GBI)产品“曦颜”(XiYan),已在阿里云百炼平台上线,提供SQL生成与诊断服务。
关键要点总结
- 行业领先:曦颜-SQL在权威评测中夺冠,超越众多国内外顶尖团队。
- 评测严苛:评测覆盖多种主流数据库,难度高于传统SQL生成测试。
- 技术开源:相关技术与模型已开源,支持开发者体验与贡献。
