AI-NEWS · 2025年 9月 4日

Liquid AI推LFM2-VL模型

Liquid AI 发布 LFM2-VL 模型,为移动设备带来"紧凑灵敏"的AI视觉与语言能力

Liquid AI 近期发布了 LFM2-VL 系列视觉语言基础模型,标志着多模态AI正朝着"轻量化、快速化、可设备端部署"的方向加速发展。

模型规格

该系列包含两款模型:

  • LFM2-VL-450M:专为资源受限的硬件环境设计,参数量少于5亿
  • LFM2-VL-1.6B:虽然参数量更多,但仍保持轻量化特性,适合单GPU或设备端直接部署

技术特性

架构创新

LFM2-VL 基于 Liquid AI 之前的 LFM2 架构扩展而来,整合了视觉和语言处理能力:

  • 支持多分辨率图像输入
  • 能够同时处理文本和图像
  • 采用语言模型主干、SigLIP2NaFlex 视觉编码器和多模态投影器架构
  • 投影器使用两层MLP(含像素重排技术)减少图像令牌数量,提升处理速度

图像处理优势

  • 支持原始分辨率图像输入(最高512×512),避免强制缩放导致的失真
  • 对大尺寸图像采用非重叠分块处理方式,结合缩略图获取全局上下文信息

性能表现

  • GPU推理速度提升高达2倍
  • 在多项性能评估中表现优异:
    • RealWorldQA:65.23
    • InfoVQA:58.68
    • OCRBench:742
  • 在同类模型中推理效率领先

训练数据

模型使用约100亿多模态训练令牌,数据来源包括:

  • 开源数据集
  • 公司生成的合成图像数据

可用性与许可

发布平台

  • 已在 Hugging Face 平台发布
  • 提供 Colab 上的微调示例代码
  • 兼容 Hugging Face Transformers 和 TRL 库

许可协议

采用基于 Apache 2.0 原则的"LFM1.0 许可协议":

  • 允许学术使用
  • 年收入低于1000万的企业可商业使用
  • 年收入更高的企业需联系 Liquid AI 获取授权

应用前景

LFM2-VL 模型组合为设备端部署视觉与文本融合AI提供了新路径,特别适用于:

  • 移动手机
  • 笔记本电脑
  • 可穿戴设备

帮助减少对云端的依赖,提升隐私保护和响应速度。

核心亮点

  1. 双重模型设计:针对不同资源环境提供450M和1.6B两种规格
  2. 速度与效率:GPU推理速度提升2倍,多模态任务性能优异
  3. 多平台友好:兼容主流开发工具,适合学术和中小企业商业应用

发布日期:2025年9月3日
数据来源:liquid.ai, Venturebeat

火龙果频道