Tilde AI发布开源TildeOpen LLM：支持多种欧洲语言的大语言模型

概述

2025年9月3日，拉脱维亚语言技术公司Tilde发布了开源基础大语言模型TildeOpen LLM。该模型专门设计用于支持欧洲语言，特别是来自代表性不足国家和地区的语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要一步。

技术规格

模型类型：密集解码器模型
参数量：30亿参数
许可证：CC-BY-4.0许可
支持语言：拉脱维亚语、立陶宛语、乌克兰语、土耳其语等多种欧洲语言
训练资源：使用欧洲超级计算机LUMI（芬兰）和JUPITER，消耗200万GPU小时计算资源（由欧盟委员会大型AI奖挑战赛提供）

训练细节

训练方法：基于EleutherAI启发的GPT-NeoX脚本
更新次数：45万次更新
训练token量：约20万亿token
训练过程：采用三阶段采样
1. 语言间均匀分布
2. 增强高容量语言的自然分布
3. 均匀扫描确保平衡

模型架构

层数：60层
嵌入维度：6144
注意力头数：48
上下文窗口：8192 token
激活函数：SwiGLU
位置编码：RoPE
归一化：RMSNorm层归一化

创新特点

语言公平性

传统主流模型通常专注于英语等主要语言，在处理波罗的海、斯拉夫等较小欧洲语言时表现不佳，经常出现语法错误和表达生硬的问题。TildeOpen通过引入"公平分词器"解决这一问题：

以相似方式表示不同语言的文本
减少token数量
提高代表性不足语言的推理效率

数据主权

组织可以在本地数据中心或符合欧盟要求的安全云中自托管模型：

确保符合GDPR等数据保护法规
解决在美国或亚洲托管模型的主权问题

未来发展

作为基础模型，TildeOpen预计将发布更多专业版本，如指令调优的翻译模型，进一步增强其能力。通过Tilde的努力，拉脱维亚希望在保持语言多样性的同时，在全球科技领域确立自己的地位。

关键要点

TildeOpen LLM是支持多种欧洲语言的开源大语言模型，特别关注小国语言的代表性
使用欧洲超级计算机资源和先进的三阶段采样技术训练，确保不同语言间的平衡和公平
组织可以自托管模型，遵守GDPR等数据保护法规，从而增强数据主权

火龙果频道

近期新闻

AI-NEWS · 2025年 9月 9日

Tilde开源多语言大模型

Tilde AI发布开源TildeOpen LLM：支持多种欧洲语言的大语言模型

概述

技术规格

训练细节

模型架构

创新特点

语言公平性

数据主权

未来发展

关键要点

您可能还喜欢...

AI-NEWS · 2025年 9月 9日

Tilde AI发布开源TildeOpen LLM：支持多种欧洲语言的大语言模型

概述

技术规格

训练细节

模型架构

创新特点

语言公平性

数据主权

未来发展

关键要点

您可能还喜欢...

小爱AI随机修图上线

英伟达发布Orchestrator-8B

Hebbia获得近1亿美元B轮融资 利用AI一次可以处理多达数百万份文档

Hebbia获得近1亿美元B轮融资利用AI一次可以处理多达数百万份文档