AI-NEWS · 2025年 9月 9日

Tilde开源多语言大模型

Tilde AI发布开源TildeOpen LLM:支持多种欧洲语言的大语言模型

概述

2025年9月3日,拉脱维亚语言技术公司Tilde发布了开源基础大语言模型TildeOpen LLM。该模型专门设计用于支持欧洲语言,特别是来自代表性不足国家和地区的语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要一步。

技术规格

  • 模型类型:密集解码器模型
  • 参数量:30亿参数
  • 许可证:CC-BY-4.0许可
  • 支持语言:拉脱维亚语、立陶宛语、乌克兰语、土耳其语等多种欧洲语言
  • 训练资源:使用欧洲超级计算机LUMI(芬兰)和JUPITER,消耗200万GPU小时计算资源(由欧盟委员会大型AI奖挑战赛提供)

训练细节

  • 训练方法:基于EleutherAI启发的GPT-NeoX脚本
  • 更新次数:45万次更新
  • 训练token量:约20万亿token
  • 训练过程:采用三阶段采样
    1. 语言间均匀分布
    2. 增强高容量语言的自然分布
    3. 均匀扫描确保平衡

模型架构

  • 层数:60层
  • 嵌入维度:6144
  • 注意力头数:48
  • 上下文窗口:8192 token
  • 激活函数:SwiGLU
  • 位置编码:RoPE
  • 归一化:RMSNorm层归一化

创新特点

语言公平性

传统主流模型通常专注于英语等主要语言,在处理波罗的海、斯拉夫等较小欧洲语言时表现不佳,经常出现语法错误和表达生硬的问题。TildeOpen通过引入"公平分词器"解决这一问题:

  • 以相似方式表示不同语言的文本
  • 减少token数量
  • 提高代表性不足语言的推理效率

数据主权

组织可以在本地数据中心或符合欧盟要求的安全云中自托管模型:

  • 确保符合GDPR等数据保护法规
  • 解决在美国或亚洲托管模型的主权问题

未来发展

作为基础模型,TildeOpen预计将发布更多专业版本,如指令调优的翻译模型,进一步增强其能力。通过Tilde的努力,拉脱维亚希望在保持语言多样性的同时,在全球科技领域确立自己的地位。

关键要点

  1. TildeOpen LLM是支持多种欧洲语言的开源大语言模型,特别关注小国语言的代表性
  2. 使用欧洲超级计算机资源和先进的三阶段采样技术训练,确保不同语言间的平衡和公平
  3. 组织可以自托管模型,遵守GDPR等数据保护法规,从而增强数据主权

火龙果频道