AI-NEWS · 2025年 8月 8日

小红书开源多模态大模型

小红书Hi Lab发布开源多模态大模型dots.vlm1

核心技术创新

自主研发NaViT视觉编码器：
- 基于12亿参数规模
- 支持动态分辨率处理
- 采用纯视觉+图文双监督训练
- 特别擅长处理表格/图表/公式等非传统结构图像
数据构建优势：
- 自主构建大规模清洗数据集
- 通过自研dots.ocr工具处理PDF文档
- 人工重写网络数据提升图文对齐质量

性能表现

评估维度	对标模型	优势领域
MMMU基准	Gemini2.5Pro/Seed-VL1.5	复杂图表推理
MathVision	主流闭源模型	STEM数学推理
OCR推理	SOTA模型	奥数等高难度任务处理

当前局限：在极端复杂文本推理任务上仍落后于顶尖闭源模型

未来发展计划

扩大跨模态数据规模
引入强化学习等先进算法
持续优化模型推理泛化能力

注：该开源项目旨在推动多模态大模型生态发展

火龙果频道

您可能还喜欢...