AI-NEWS · 2024年 7月 26日

智源研究院开源全球首个万亿单体稠密模型Tele-FLM-1T

归纳总结

  1. 发布新模型

    • 北京智源人工智能研究院和中国电信人工智能研究院(TeleAI)联合发布了两个重要的AI模型:FLM-2-52B-Instruct和全球首个万亿单体稠密模型Tele-FLM-1T。
  2. FLM-2-52B-Instruct

    • 基于Tele-FLM-52B基座模型进行指令微调。
    • 专注提升中文对话能力,使用了100万条开源指令数据进行训练,并在3万条数据的子集上获得了最优结果。
    • 数据涵盖数学题目、代码和多轮对话等。
    • 在AlignBench评测平台上测试,结果显示其中文对话能力达到了GPT-4的90%。
  3. Tele-FLM-1T

    • 全球首个开源的万亿参数稠密模型。
    • 采用生长式预训练以节省成本。
    • 模型结构基于GPT系列的decoder-only Transformers进行了改进,包括Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。
    • 生长策略包括横向和纵向生长,并使用了基于MSG改进的保值算子。
    • 预训练过程中采用了特定的超参数设置。
  4. 资源链接

    • FLM-2-52B-Instruct模型开源链接: Hugging Face
    • Tele-FLM-1T模型开源链接: Hugging Face
    • 52B +1T技术报告链接: arXiv
    • 52B基座模型技术报告链接: arXiv

Source:https://www.aibase.com/news/10586