归纳总结
-
发布新模型:
- 北京智源人工智能研究院和中国电信人工智能研究院(TeleAI)联合发布了两个重要的AI模型:FLM-2-52B-Instruct和全球首个万亿单体稠密模型Tele-FLM-1T。
-
FLM-2-52B-Instruct:
- 基于Tele-FLM-52B基座模型进行指令微调。
- 专注提升中文对话能力,使用了100万条开源指令数据进行训练,并在3万条数据的子集上获得了最优结果。
- 数据涵盖数学题目、代码和多轮对话等。
- 在AlignBench评测平台上测试,结果显示其中文对话能力达到了GPT-4的90%。
-
Tele-FLM-1T:
- 全球首个开源的万亿参数稠密模型。
- 采用生长式预训练以节省成本。
- 模型结构基于GPT系列的decoder-only Transformers进行了改进,包括Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。
- 生长策略包括横向和纵向生长,并使用了基于MSG改进的保值算子。
- 预训练过程中采用了特定的超参数设置。
-
资源链接:
- FLM-2-52B-Instruct模型开源链接: Hugging Face
- Tele-FLM-1T模型开源链接: Hugging Face
- 52B +1T技术报告链接: arXiv
- 52B基座模型技术报告链接: arXiv