智源研究院开源全球首个万亿单体稠密模型Tele-FLM-1T

发布新模型：
- 北京智源人工智能研究院和中国电信人工智能研究院（TeleAI）联合发布了两个重要的AI模型：FLM-2-52B-Instruct和全球首个万亿单体稠密模型Tele-FLM-1T。
FLM-2-52B-Instruct：
- 基于Tele-FLM-52B基座模型进行指令微调。
- 专注提升中文对话能力，使用了100万条开源指令数据进行训练，并在3万条数据的子集上获得了最优结果。
- 数据涵盖数学题目、代码和多轮对话等。
- 在AlignBench评测平台上测试，结果显示其中文对话能力达到了GPT-4的90%。
Tele-FLM-1T：
- 全球首个开源的万亿参数稠密模型。
- 采用生长式预训练以节省成本。
- 模型结构基于GPT系列的decoder-only Transformers进行了改进，包括Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。
- 生长策略包括横向和纵向生长，并使用了基于MSG改进的保值算子。
- 预训练过程中采用了特定的超参数设置。
资源链接：
- FLM-2-52B-Instruct模型开源链接: Hugging Face
- Tele-FLM-1T模型开源链接: Hugging Face
- 52B +1T技术报告链接: arXiv
- 52B基座模型技术报告链接: arXiv

近期新闻