LOGOS 开源:谁在真正关心科学 AI
阿里巴巴(Alibaba) 旗下的 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院,在 6 月 18 日开源了一个叫 LOGOS 的模型。说实在的,看到新闻标题时我第一反应是“又一个科学大模型?”,但细看后觉得这玩意儿有点东西。
到底解决了什么麻烦?
说实话,现在的科学 AI 圈子里,不同学科之间就像是在讲着完全不同的方言。
- 数据没法互通:蛋白质、小分子、还有那些复杂的材料,它们的结构差异大到没法放在一起比较。
- 训练太费劲:以前的做法要么依赖复杂的 3D 坐标,要么用专门的几何神经网络。结果就是算力烧钱、模型泛化能力差,换个新课题就得从头训练一遍。这对搞科研的人来说简直是折磨。
LOGOS 是怎么搞定的?
LOGOS 的核心思路其实挺简单粗暴:它给科学界搞了一套共享的“词汇表”。
- 统一编码:不管你是蛋白质、抗体,还是金属有机框架(MOF)材料,LOGOS 都能把它们编码成一样的离散 Token 序列。这就好比把英语、法语、德语都翻译成某种“世界语”。
- 不再死磕 3D:以前大家为了处理 3D 空间信息,算力消耗巨大。LOGOS 直接利用类似读文本的序列预测方法,就能构建复杂的 3D 交互规则。
- 知识互通:因为用了同一套编码,不同学科的数据底层就能对话了。
性能真的有那么神吗?
看数据吧,这确实有点“不讲道理”的好:
- 参数效率惊人:LOGOS-1B 版本(参数量 10 亿)在多项任务上超越了微软的 NatureLM,但参数量只有后者的 1/56。这意味着什么?意味着同样的效果,你只需要微软模型五十六分之一的资源。
- 不用调优也能用:很多模型有个毛病,预训练完还得花大价钱微调才能用。LOGOS 直接激活就能生成,省去了繁琐的微调步骤。这对那些不太懂 AI 算法的化学或生物研究员来说,简直是福音。
资源怎么拿?
- 语料库:包含了 7 种模态的数据,Token 总数有 448.7 亿。
- 怎么下:模型权重、推理代码和技术报告都开源了。去 HuggingFace 或 GitHub 就能拉下来。
我的想法
说实话,对于“LOGOS 的开源标志着 AI for Science 的关键转折点”这种说法,我持保留态度。
它确实是个突破,但也没必要捧得那么高。
- 范式转移? 从专用模型转向多模态通用模型,这听起来很宏大,但现实是,大多数科学家还是习惯用传统的专用工具。通用模型真的能立刻取代它们吗?可能短期内不会。
- 降低门槛? 理论上是这样,但实际用起来,科研人员还得学会怎么把他们的数据转成 LOGOS 的格式,怎么调整 Prompt。这门槛可能并没有那么低。
- 行业影响? 阿里巴巴和人大高瓴合作,确实有产学研的优势。但让全球科学界真的接受一套新的“科学语法”,难度恐怕比模型本身大得多。
总的来说,LOGOS 是个很棒的尝试,证明了用文本序列来处理科学数据是可行的,效率也高。但它离“重塑科研范式”还有很长的路要走。现在它更像是一个好用的工具箱,而不是能替代所有现有方法的魔法棒。
注:本文基于 6 月 18 日发布的公开信息整理,如有更新请以官方为准。
