Llama3.1-8B 模型发布与特性
Meta发布Llama3.1系列
- 包含405B参数版本,性能接近甚至超越GPT-4。
- 8B参数版本支持多语言:英语、德语、法语、意大利语、葡萄牙语、西班牙语、印地语和泰语。
- 上下文长度高达131072 tokens,知识更新至2023年12月。
Llama3.1-8B-Instruct特点
- 使用2500万条由405B模型生成的合成数据进行训练。
- 在代码、数学等测试中表现出与GPT3.5Turbo相近的认知和推理能力。
OpenBuddy发布中文版模型
OpenBuddy-Llama3.1-8B-v22.1-131K
- 利用Llama3.1-8B-Instruct模型,通过少量中文数据训练。
- 新一代具备中文问答和跨语言翻译能力的开源模型。
- 尽管原版不具备中文能力,但经过训练后在一些复杂问题上表现出强大认知潜力。
现状与挑战
优势
- 在长文理解任务上表现稳定,得益于其原本的长文能力。
局限
- 中文知识,特别是传统文化知识方面仍存在不足。
未来计划
增强训练
- 对8B和70B模型进行更大规模的训练,提升中文知识储备、长文能力和认知能力。
- 探索微调405B模型的可能性。
项目地址