小红书Hi Lab发布开源多模态大模型dots.vlm1
核心技术创新
-
自主研发NaViT视觉编码器:
- 基于12亿参数规模
- 支持动态分辨率处理
- 采用纯视觉+图文双监督训练
- 特别擅长处理表格/图表/公式等非传统结构图像
-
数据构建优势:
- 自主构建大规模清洗数据集
- 通过自研dots.ocr工具处理PDF文档
- 人工重写网络数据提升图文对齐质量
性能表现
评估维度 | 对标模型 | 优势领域 |
---|---|---|
MMMU基准 | Gemini2.5Pro/Seed-VL1.5 | 复杂图表推理 |
MathVision | 主流闭源模型 | STEM数学推理 |
OCR推理 | SOTA模型 | 奥数等高难度任务处理 |
当前局限:在极端复杂文本推理任务上仍落后于顶尖闭源模型
未来发展计划
- 扩大跨模态数据规模
- 引入强化学习等先进算法
- 持续优化模型推理泛化能力
注:该开源项目旨在推动多模态大模型生态发展