AI-NEWS · 2025年 10月 22日

谷歌AI推出癌症基因检测模型

Google AI推出DeepSomatic:新型癌症细胞基因突变识别模型

核心要点

Google研究团队与加州大学圣克鲁兹分校研究人员合作开发了DeepSomatic人工智能模型,专门用于识别癌细胞中的基因变异。在与儿童医院的合作研究中,该模型成功识别出10个其他工具未能检测到的儿科白血病细胞突变。

技术原理

多平台兼容性

DeepSomatic采用专为癌症基因组设计的小变异检测器,兼容:

  • Illumina短读长测序
  • PacBio HiFi长读长测序
  • Oxford Nanopore长读长测序

技术架构

  • 基础扩展:基于DeepVariant进行扩展
  • 检测范围:能够检测单核苷酸变异(SNVs)和小片段插入缺失(indels)
  • 工作流程:支持肿瘤-正常样本和仅肿瘤样本工作流程,包括福尔马林固定石蜡包埋(FFPE)模型

核心算法

通过将比对后的读段转换为类似图像的张量,编码:

  • 碱基堆叠信息
  • 碱基质量
  • 比对上下文

使用卷积神经网络对候选位点进行分类,区分体细胞变异和非变异,最终生成VCF或gVCF文件。

数据集与基准测试

训练数据

使用CASTLE(癌症标准长读长评估)数据集进行训练和评估,包含:

  • 6对匹配的肿瘤和正常细胞系
  • 全基因组测序覆盖Illumina、PacBio HiFi和Oxford Nanopore三种技术

资源开放

研究团队已发布基准测试集,供其他研究人员重复使用,填补了多技术体细胞训练和测试资源的空白。

性能表现

检测精度优势

在单核苷酸变异和小片段插入缺失检测方面显著优于现有方法:

插入缺失检测F1分数对比:

  • Illumina测序

    • DeepSomatic:约90
    • 其他方法:仅80
  • PacBio测序

    • DeepSomatic:超过80

变异发现

研究团队报告发现了329,011个体细胞变异,进一步验证了DeepSomatic在插入缺失检测方面的强大能力。

技术优势

  1. 多平台适应性:张量设计能够总结不同技术平台的局部单倍型和错误模式
  2. 高精度检测:在关键指标上显著超越主流方法
  3. 资源开放性:提供可重用的训练和测试资源
  4. 临床应用价值:已在儿科白血病研究中证明其实际价值

火龙果频道