Mistral Large 2 概述
Mistral AI 发布了其最新一代开源模型——Mistral Large 2,具备1230亿参数,并在代码生成、数学和推理能力上显著提升。以下是该模型的主要特性和评估结果。
核心特性
-
多语言支持:
- 支持多种自然语言(如英语、中文、法语等)以及80多种编程语言(如Python、Java、C++等)。
-
高级编程和推理能力:
- 在代码生成和推理能力上超越前代模型,与领先模型如GPT-4o、Claude 3 Opus、Llama 3 405B表现相当。
- 经过微调,减少了“幻觉”现象。
-
大上下文窗口:
- 提供128k的上下文窗口,适合长上下文应用。
-
增强的函数调用与检索技能:
- 能有效执行并行和顺序的函数调用,适用于复杂业务应用。
评估结果
-
总体性能:
- 在MMLU(多任务语言理解)评估中,预训练版本的准确率达到了84.0%,设立了新的性能/成本标准。
-
代码与推理能力:
- Human Eval(编程能力测试):92%
- GSM8K(数学基准测试):93%
-
多语言 MMLU 性能:
- 在多语言 MMLU 基准测试中表现优于之前的Mistral Large和其他同类模型。
-
指令跟随与对话能力:
- 在MT-Bench、Wild Bench 和 Arena Hard 基准测试中表现优异,尤其在处理精确指令和长多轮对话方面表现出色。
性能图表
-
多语言 MMLU 性能:
- 相较于其他模型(如Llama 3.1和Cohere Command R+),Mistral Large 2 在多语言 MMLU 基准测试中表现优异。
-
代码生成与推理性能:
- 在代码生成基准测试、MultiPL-E、GSM8K 和 MATH 基准测试中的表现卓越。
-
生成长度:
- 在 MT Bench 基准测试中的平均生成长度显示了其高效的内容生成能力。
资源链接
总结:Mistral Large 2 是一款功能强大的开源模型,具有优秀的多语言支持和高级编程能力,适合需要长上下文和复杂函数调用的应用场景。其在多个评估基准测试中的优异表现证明了其在性能和成本方面的新标准。
Source:https://xiaohu.ai/p/11812