Google DeepMind发布TxGemma系列模型分析报告
一、核心模型概览
-
基础模型架构
- TxGemma系列包含3种参数量级:
- 2B参数版本(20亿参数)
- 9B参数版本(90亿参数)
- 27B参数版本(270亿参数)
- TxGemma系列包含3种参数量级:
-
功能分支
- TxGemma-Predict(预测专用)
- 覆盖全量级(2B/9B/27B)
- TxGemma-Chat(对话专用)
- 仅提供9B/27B版本
- TxGemma-Predict(预测专用)
二、性能表现
-
学术基准测试
- 在Agentic-Tx评估框架下:
- 27B预测版在"Humanity's Last Exam"测试中达到66分
- 显著优于同类Tx-LLM模型的45分基准
- ChemBench化学领域测试:
- 准确率提升至50%(基线26%)
- 在Agentic-Tx评估框架下:
-
多模态能力
- 与Gemini 2.0 Pro集成实现Agentic-Tx工作流
- 支持18种专业场景处理
三、训练数据特征
- 主要数据源:
- PubMed医学文献
- Wikipedia百科
- 全网爬取数据(Web)
- 采用TrialBench AI 4进行数据清洗
四、部署渠道
- 官方平台
- Google Vertex AI Model Garden
- 第三方平台
- Hugging Face模型库
- 开发者资源
- 提供交互式Demo
- 配套Notebook教程
五、技术亮点
- 首次实现预测/聊天双模式并行架构
- 在27B量级实现:
- 较传统LLM提升47%的推理效率(66 vs 45)
- 化学领域准确率翻倍(50% vs 26%)
注:所有测试数据基于Google内部Agentic-Tx评估框架,对比基线为Tx-LLM系列模型