AI-NEWS · 2024年 7月 25日

OpenBuddy开源大语言模型团队发布Llama3.1-8B模型中文版

Llama3.1-8B 模型发布与特性

Meta发布Llama3.1系列

  • 包含405B参数版本,性能接近甚至超越GPT-4。
  • 8B参数版本支持多语言:英语、德语、法语、意大利语、葡萄牙语、西班牙语、印地语和泰语。
  • 上下文长度高达131072 tokens,知识更新至2023年12月。

Llama3.1-8B-Instruct特点

  • 使用2500万条由405B模型生成的合成数据进行训练。
  • 在代码、数学等测试中表现出与GPT3.5Turbo相近的认知和推理能力。

OpenBuddy发布中文版模型

OpenBuddy-Llama3.1-8B-v22.1-131K

  • 利用Llama3.1-8B-Instruct模型,通过少量中文数据训练。
  • 新一代具备中文问答和跨语言翻译能力的开源模型。
  • 尽管原版不具备中文能力,但经过训练后在一些复杂问题上表现出强大认知潜力。

现状与挑战

优势

  • 在长文理解任务上表现稳定,得益于其原本的长文能力。

局限

  • 中文知识,特别是传统文化知识方面仍存在不足。

未来计划

增强训练

  • 对8B和70B模型进行更大规模的训练,提升中文知识储备、长文能力和认知能力。
  • 探索微调405B模型的可能性。

项目地址

Source:https://www.aibase.com/news/10555