LOGOS 开源：谁在真正关心科学 AI

阿里巴巴（Alibaba）旗下的 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院，在 6 月 18 日开源了一个叫 LOGOS 的模型。说实在的，看到新闻标题时我第一反应是“又一个科学大模型？”，但细看后觉得这玩意儿有点东西。

说实话，现在的科学 AI 圈子里，不同学科之间就像是在讲着完全不同的方言。

数据没法互通：蛋白质、小分子、还有那些复杂的材料，它们的结构差异大到没法放在一起比较。
训练太费劲：以前的做法要么依赖复杂的 3D 坐标，要么用专门的几何神经网络。结果就是算力烧钱、模型泛化能力差，换个新课题就得从头训练一遍。这对搞科研的人来说简直是折磨。

LOGOS 的核心思路其实挺简单粗暴：它给科学界搞了一套共享的“词汇表”。

统一编码：不管你是蛋白质、抗体，还是金属有机框架（MOF）材料，LOGOS 都能把它们编码成一样的离散 Token 序列。这就好比把英语、法语、德语都翻译成某种“世界语”。
不再死磕 3D：以前大家为了处理 3D 空间信息，算力消耗巨大。LOGOS 直接利用类似读文本的序列预测方法，就能构建复杂的 3D 交互规则。
知识互通：因为用了同一套编码，不同学科的数据底层就能对话了。

看数据吧，这确实有点“不讲道理”的好：

参数效率惊人：LOGOS-1B 版本（参数量 10 亿）在多项任务上超越了微软的 NatureLM，但参数量只有后者的 1/56。这意味着什么？意味着同样的效果，你只需要微软模型五十六分之一的资源。
不用调优也能用：很多模型有个毛病，预训练完还得花大价钱微调才能用。LOGOS 直接激活就能生成，省去了繁琐的微调步骤。这对那些不太懂 AI 算法的化学或生物研究员来说，简直是福音。

说实话，对于“LOGOS 的开源标志着 AI for Science 的关键转折点”这种说法，我持保留态度。

它确实是个突破，但也没必要捧得那么高。

范式转移？ 从专用模型转向多模态通用模型，这听起来很宏大，但现实是，大多数科学家还是习惯用传统的专用工具。通用模型真的能立刻取代它们吗？可能短期内不会。
降低门槛？ 理论上是这样，但实际用起来，科研人员还得学会怎么把他们的数据转成 LOGOS 的格式，怎么调整 Prompt。这门槛可能并没有那么低。
行业影响？ 阿里巴巴和人大高瓴合作，确实有产学研的优势。但让全球科学界真的接受一套新的“科学语法”，难度恐怕比模型本身大得多。

总的来说，LOGOS 是个很棒的尝试，证明了用文本序列来处理科学数据是可行的，效率也高。但它离“重塑科研范式”还有很长的路要走。现在它更像是一个好用的工具箱，而不是能替代所有现有方法的魔法棒。

注：本文基于 6 月 18 日发布的公开信息整理，如有更新请以官方为准。

近期新闻