Liquid AI 发布 LFM2-VL 模型,为移动设备带来"紧凑灵敏"的AI视觉与语言能力
Liquid AI 近期发布了 LFM2-VL 系列视觉语言基础模型,标志着多模态AI正朝着"轻量化、快速化、可设备端部署"的方向加速发展。
模型规格
该系列包含两款模型:
- LFM2-VL-450M:专为资源受限的硬件环境设计,参数量少于5亿
- LFM2-VL-1.6B:虽然参数量更多,但仍保持轻量化特性,适合单GPU或设备端直接部署
技术特性
架构创新
LFM2-VL 基于 Liquid AI 之前的 LFM2 架构扩展而来,整合了视觉和语言处理能力:
- 支持多分辨率图像输入
- 能够同时处理文本和图像
- 采用语言模型主干、SigLIP2NaFlex 视觉编码器和多模态投影器架构
- 投影器使用两层MLP(含像素重排技术)减少图像令牌数量,提升处理速度
图像处理优势
- 支持原始分辨率图像输入(最高512×512),避免强制缩放导致的失真
- 对大尺寸图像采用非重叠分块处理方式,结合缩略图获取全局上下文信息
性能表现
- GPU推理速度提升高达2倍
- 在多项性能评估中表现优异:
- RealWorldQA:65.23
- InfoVQA:58.68
- OCRBench:742
- 在同类模型中推理效率领先
训练数据
模型使用约100亿多模态训练令牌,数据来源包括:
- 开源数据集
- 公司生成的合成图像数据
可用性与许可
发布平台
- 已在 Hugging Face 平台发布
- 提供 Colab 上的微调示例代码
- 兼容 Hugging Face Transformers 和 TRL 库
许可协议
采用基于 Apache 2.0 原则的"LFM1.0 许可协议":
- 允许学术使用
- 年收入低于1000万的企业可商业使用
- 年收入更高的企业需联系 Liquid AI 获取授权
应用前景
LFM2-VL 模型组合为设备端部署视觉与文本融合AI提供了新路径,特别适用于:
- 移动手机
- 笔记本电脑
- 可穿戴设备
帮助减少对云端的依赖,提升隐私保护和响应速度。
核心亮点
- 双重模型设计:针对不同资源环境提供450M和1.6B两种规格
- 速度与效率:GPU推理速度提升2倍,多模态任务性能优异
- 多平台友好:兼容主流开发工具,适合学术和中小企业商业应用
发布日期:2025年9月3日
数据来源:liquid.ai, Venturebeat