Tilde AI发布开源TildeOpen LLM:支持多种欧洲语言的大语言模型
概述
2025年9月3日,拉脱维亚语言技术公司Tilde发布了开源基础大语言模型TildeOpen LLM。该模型专门设计用于支持欧洲语言,特别是来自代表性不足国家和地区的语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要一步。
技术规格
- 模型类型:密集解码器模型
- 参数量:30亿参数
- 许可证:CC-BY-4.0许可
- 支持语言:拉脱维亚语、立陶宛语、乌克兰语、土耳其语等多种欧洲语言
- 训练资源:使用欧洲超级计算机LUMI(芬兰)和JUPITER,消耗200万GPU小时计算资源(由欧盟委员会大型AI奖挑战赛提供)
训练细节
- 训练方法:基于EleutherAI启发的GPT-NeoX脚本
- 更新次数:45万次更新
- 训练token量:约20万亿token
- 训练过程:采用三阶段采样
- 语言间均匀分布
- 增强高容量语言的自然分布
- 均匀扫描确保平衡
模型架构
- 层数:60层
- 嵌入维度:6144
- 注意力头数:48
- 上下文窗口:8192 token
- 激活函数:SwiGLU
- 位置编码:RoPE
- 归一化:RMSNorm层归一化
创新特点
语言公平性
传统主流模型通常专注于英语等主要语言,在处理波罗的海、斯拉夫等较小欧洲语言时表现不佳,经常出现语法错误和表达生硬的问题。TildeOpen通过引入"公平分词器"解决这一问题:
- 以相似方式表示不同语言的文本
- 减少token数量
- 提高代表性不足语言的推理效率
数据主权
组织可以在本地数据中心或符合欧盟要求的安全云中自托管模型:
- 确保符合GDPR等数据保护法规
- 解决在美国或亚洲托管模型的主权问题
未来发展
作为基础模型,TildeOpen预计将发布更多专业版本,如指令调优的翻译模型,进一步增强其能力。通过Tilde的努力,拉脱维亚希望在保持语言多样性的同时,在全球科技领域确立自己的地位。
关键要点
- TildeOpen LLM是支持多种欧洲语言的开源大语言模型,特别关注小国语言的代表性
- 使用欧洲超级计算机资源和先进的三阶段采样技术训练,确保不同语言间的平衡和公平
- 组织可以自托管模型,遵守GDPR等数据保护法规,从而增强数据主权