新型多语言编码器mmBERT：速度与效率超越XLM-R！

模型概述

约翰斯·霍普金斯大学研究团队近期推出mmBERT，这是一款专为填补当前多语言自然语言处理领域空白而设计的新型多语言编码器。该模型在多项任务上表现优于XLM-R，速度比先前模型快2至4倍，为多语言应用研发提供更强支持。

双配置设计：
- 基础模型：22个Transformer层，隐藏层维度1152，总参数量约3.07亿
- 小型模型：参数量1.4亿
先进技术应用：
- 采用Gemma2分词器，支持256K词汇量
- 使用旋转位置嵌入（RoPE）和FlashAttention2技术，显著提升处理效率
- 序列长度从1024个令牌扩展至8192个令牌，可处理更长上下文信息

mmBERT不仅提升了多语言处理的速度和效率，更为下一代多语言自然语言处理系统奠定了坚实基础。它以高效和开放的方式重新定义了多语言编码器的潜力，标志着一个新时代的到来。

GitHub项目：可通过官方GitHub页面获取更多技术细节和源代码

注：本文源自AIbase Daily，扫描查看完整内容