RWKV-6-World 14B 模型概要
发布时间与背景:
- 发布日期:2024年7月19日
- 发布方:RWKV开源基金会
- 模型类型:稠密纯RNN大语言模型
- 参数规模:14B(140亿)
性能与测试结果:
- 英文性能:与Llama213B相当
- 多语言性能:显著领先,支持100多种语言和代码
- 基准测试:
- 评估项目:12个独立的英语基准测试;xLAMBDA、xStoryCloze、xWinograd和xCopa四种多语言基准测试
- 综合评分:在Uncheatable Eval排行榜上超过Llama213B和Qwen1.514B
技术特点:
- 架构改进:从RWKV-4到RWKV-6的改进带来了性能提升
- 训练数据:未使用任何基准测试的数据集进行优化,体现真实建模和泛化能力
下载与部署:
- 平台:Hugging Face、ModelScope、WiseModel
- 格式:Ai00只支持safetensor(.st)格式,也可在Ai00HF仓库中下载.st格式模型
- 显存需求:10G到28G,视量化方式不同而定
应用场景:
- 自然语言处理(情感分析、机器阅读理解)
- 散文诗文学创作
- 阅读并修改代码
- 金融学论文选题建议
- 提取新闻关键内容
- 一句话扩写文本
- 编写Python贪吃蛇小游戏
注意事项:
- 所有开源的RWKV模型为基底模型,具备一定指令和对话能力,但未针对特定任务进行优化
- 如需在特定任务上表现良好,建议使用相关数据集进行微调训练
项目地址: