EVE模型概要
1. 背景与挑战
- 多模态大模型发展:国际上OpenAI、Google、Microsoft等在视觉语言多模态大模型领域取得了显著进展;国内机构如智谱AI和阶跃星辰也有突破。
- 现存问题:传统模型依赖视觉编码器,存在训练分离导致的视觉归纳偏置问题,影响部署效率和性能。
2. EVE模型创新
- 开发团队:智源研究院联合大连理工大学、北京大学等高校推出。
- 架构特点:去除视觉编码器,通过精细化训练策略和额外的视觉监督,将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。
3. 模型特点
- 原生视觉语言模型:处理任意图像长宽比,显著优于同类Fuyu-8B模型。
- 低数据和训练代价:使用公开数据(如OpenImages、SAM和LAION),训练时间较短。
- 透明高效:为纯解码器的原生多模态架构提供高效、透明的发展路径。
4. 模型结构
- Patch Embedding Layer:通过单层卷积层和平均池化层获取图像2D特征图,增强局部特征和全局信息。
- Patch Aligning Layer:整合多层网络视觉特征,实现与视觉编码器输出的细粒度对齐。
5. 训练策略
- 预训练阶段:大语言模型引导,建立视觉和语言初步联系。
- 生成式预训练阶段:提高模型对视觉-语言内容的理解能力。
- 监督式微调阶段:规范模型遵循语言指令和学习对话模式的能力。
6. 性能与潜力
- 基准测试表现优异:EVE在多个视觉语言基准测试中表现接近或优于基于编码器的主流多模态方法。
- 未来发展:进一步提升性能,优化无编码器架构,继续推动多模态模型的发展。
7. 资源链接