Liquid AI 刚刚把他们的边侧大模型 LFM2.5 开源了。这玩意儿是专门给手机、笔记本这种消费级硬件准备的,主打一个“在本地跑,别上云”。
到底强在哪?
简单来说,它用了个稀疏混合专家(Sparse MoE)的架构,参数总量是 83 亿,但每次生成一个词,只激活 15 亿参数。这种设计让它在本地设备上跑起来不卡,还能省不少电。
相比上一代 LFM,它主要变了三处:
- 胃口变大了
上下文窗口从 32K 直接翻倍到了 128K,训练数据也从 12 TB 涨到了 38 TB。 - 会“思考”了
作为纯推理模型,它在蹦出最终答案前,会先把思维链(Reasoning Chain) 写出来,逻辑更清晰。 - 会多种语言
靠着高度压缩的词汇表,它能搞定包括中文、阿拉伯语在内的 9 种语言。 - 管住了“幻觉”
针对长推理容易出的“死循环”和胡编乱造问题,团队加了两手强化学习:- 用偏好优化去打断那些死循环。
- 用反幻觉奖励机制,让它学会对自己知识库以外的东西说“不”。
跑起来怎么样?
- 跑分:在逻辑推理和反幻觉测试上,成绩突飞猛进,甚至跟参数更大的模型掰手腕了。
- 工具调用:默认就能输出 Python 函数,系统提示词改一下也能切 JSON,挺方便。
- 速度实测:
- 在 M5 Max 芯片 上,解码速度能跑到 253 bytes/s。
- 普通 移动设备 上大概 30 bytes/s 左右。
- 注:这个速度算是把隐私保护和运行效率勉强平衡下来了。
生态方面:
发布当天就兼容 llama.cpp、MLX、vLLM 和 SGLang 这些主流框架。
背景补充:
LFM 系列是 Liquid AI 搞出来的,这帮人之前还做过 LLM-Studio 这种开源工具,算是专门推 AI 落地到边缘端的老油条了。
总的来说,这是个挺实在的开源项目,没有那种为了吹牛而堆砌的废话,就是实打实想解决端侧设备跑大模型难的问题。
