AI-NEWS · 2025年 8月 8日

小红书开源多模态大模型

小红书Hi Lab发布开源多模态大模型dots.vlm1

核心技术创新

  • 自主研发NaViT视觉编码器

    • 基于12亿参数规模
    • 支持动态分辨率处理
    • 采用纯视觉+图文双监督训练
    • 特别擅长处理表格/图表/公式等非传统结构图像
  • 数据构建优势

    • 自主构建大规模清洗数据集
    • 通过自研dots.ocr工具处理PDF文档
    • 人工重写网络数据提升图文对齐质量

性能表现

评估维度 对标模型 优势领域
MMMU基准 Gemini2.5Pro/Seed-VL1.5 复杂图表推理
MathVision 主流闭源模型 STEM数学推理
OCR推理 SOTA模型 奥数等高难度任务处理

当前局限:在极端复杂文本推理任务上仍落后于顶尖闭源模型

未来发展计划

  1. 扩大跨模态数据规模
  2. 引入强化学习等先进算法
  3. 持续优化模型推理泛化能力

注:该开源项目旨在推动多模态大模型生态发展

火龙果频道