AI-NEWS · 2025年 12月 7日

阿里云SQL诊断全球夺冠

阿里云“曦颜-SQL”在全球SQL诊断评测榜单中强势夺冠

发布日期:2025年12月5日
来源:AIbase AI新闻

核心摘要

近日,阿里云飞天实验室自主研发的数据分析智能体“曦颜-SQL”(XiYan-SQL)在全球权威SQL诊断评测基准BIRD-CRITIC(亦称SWE-SQL)中表现卓越,成功登顶全部公开榜单,超越国内外多个顶尖团队,创造了SQL诊断与修复的新行业记录。

评测背景:BIRD-CRITIC基准

该基准由学术界与谷歌云联合推出,旨在探究“大语言模型能否解决真实数据库应用中的用户问题”。其特点包括:

  • 场景真实:评测题目汇编了企业环境中常见的数据库错误、性能问题及查询需求。
  • 覆盖广泛:涵盖MySQL、PostgreSQL、SQL Server、Oracle等主流数据库系统。
  • 难度较高:题目不仅包含简单查询,还涉及复杂的插入、更新、删除操作,以及大量模型未曾见过的新场景,整体难度远高于传统的“自然语言转SQL”测试。

夺冠成绩

曦颜-SQL在本次评测中,于三项重要榜单均取得第一名:

  1. BIRD-CRITIC-1.0-Open
  2. BIRD-CRITIC-PG
  3. BIRD-CRITIC-Flash

该成绩在跨方言鲁棒性、复杂SQL处理能力、真实问题修复率、分布外泛化性等多个维度获得了权威验证。

技术亮点

曦颜-SQL采用了多项创新方法以确保其高性能:

  • 模式过滤:优化数据库结构理解。
  • 多生成器集成:融合不同生成策略。
  • 候选重组与最优选择:从多个候选方案中挑选最佳SQL。
    这些技术使模型不仅能生成高质量SQL,还能充分考虑语句的可执行性与可维护性,使其能够在存在脏数据、异构模式、跨方言差异的真实系统中提供高可用的诊断与修复方案。

产品化应用

基于曦颜-SQL技术构建的生成式商业智能(GBI)产品“曦颜”(XiYan),已在阿里云百炼平台上线,提供SQL生成与诊断服务。

关键要点总结

  1. 行业领先:曦颜-SQL在权威评测中夺冠,超越众多国内外顶尖团队。
  2. 评测严苛:评测覆盖多种主流数据库,难度高于传统SQL生成测试。
  3. 技术开源:相关技术与模型已开源,支持开发者体验与贡献。

火龙果频道