AI-NEWS · 2025年 4月 22日

ProGen3:蛋白质生成新突破

Profluent AI ProGen3 NLP 技术分析报告

一、核心模型架构

  1. ProGen3 语言模型

    • 蛋白质专用AI模型,对标ChatGPT的NLP架构
    • 采用稀疏架构设计(sparse architecture)
  2. 规模参数

    模型版本 参数量 训练token量
    ProGen3-46B 460亿 1.5万亿token
    ProGen3-3B 30亿 590亿token
    ProGen3-339M 3.39亿 1980亿token

二、性能表现

  • 基准测试结果
    • ProGen3-46B模型达到33.1%的序列恢复率
    • 结构预测准确率67.3%

三、应用数据集

  1. Profluent Protein Atlas v1 (PPA-1)

    • 包含341万蛋白质序列
    • 训练token量达1.1万亿
  2. 抗体工程专项

    • 已生成20,700种抗体变体
    • 实验验证6,600种(验证率31.9%)
    • 重点优化CDR区域和CD38靶点

四、商业化路径

  1. 分子授权许可

    • 已开发592种Cas9蛋白变体
    • AAV载体优化方案
  2. API服务

    • 提供Model API访问接口
    • 开放协作研发通道

五、技术突破点

  • 首次实现蛋白质语言的Scaling Law验证
  • 模型规模与性能呈显著正相关(46B参数模型表现最优)
  • 开发性指标(developability)优化取得突破

火龙果频道