格灵深瞳开源了RWKV-CLIP模型,这是一种结合了Transformer和RNN优点的视觉语言表示学习器。该模型通过图文预训练任务,利用从网站获取的图像-文本对扩展数据集,显著提高了视觉和语言任务的性能。
为解决噪声数据问题并提高数据质量,研究团队引入了一个多样化的描述生成框架,使用大型语言模型(LLM)从网络文本、合成字幕和检测标签中合成和细化内容。
RWKV-CLIP模型采用双塔架构,融合了Transformer的有效并行训练和RNN的高效推理,通过多个空间混合和通道混合模块堆叠而成。在空间混合阶段,模型利用注意力机制进行全局线性复杂度计算,强化特征在通道层级的交互;在通道混合阶段进一步细化特征表示。模型在输入增强方面,通过随机选择原始文本、合成字幕或生成描述作为文本输入,提升了鲁棒性。
实验结果显示,RWKV-CLIP在多个下游任务(包括线性探测、零样本分类和零样本图像文本检索)中取得了最先进的性能,与基线模型相比实现了显著提升。跨模态分析表明,RWKV-CLIP学习到的表示在同一模态中表现出更清晰的可辨别性,并且在图像-文本模态空间中距离更近,展示了卓越的跨模态对齐性能。