Profluent AI ProGen3 NLP 技术分析报告
一、核心模型架构
-
ProGen3 语言模型
- 蛋白质专用AI模型,对标ChatGPT的NLP架构
- 采用稀疏架构设计(sparse architecture)
-
规模参数
模型版本 参数量 训练token量 ProGen3-46B 460亿 1.5万亿token ProGen3-3B 30亿 590亿token ProGen3-339M 3.39亿 1980亿token
二、性能表现
- 基准测试结果:
- ProGen3-46B模型达到33.1%的序列恢复率
- 结构预测准确率67.3%
三、应用数据集
-
Profluent Protein Atlas v1 (PPA-1)
- 包含341万蛋白质序列
- 训练token量达1.1万亿
-
抗体工程专项
- 已生成20,700种抗体变体
- 实验验证6,600种(验证率31.9%)
- 重点优化CDR区域和CD38靶点
四、商业化路径
-
分子授权许可
- 已开发592种Cas9蛋白变体
- AAV载体优化方案
-
API服务
- 提供Model API访问接口
- 开放协作研发通道
五、技术突破点
- 首次实现蛋白质语言的Scaling Law验证
- 模型规模与性能呈显著正相关(46B参数模型表现最优)
- 开发性指标(developability)优化取得突破