Mistral 发布了两个 7B 小模型:Codestral Mamba 7B 和 Mathstral 7B
Codestral Mamba 7B
概述:
- 基于 Mamba 2 架构的代码模型
- 支持256K的上下文
- 可免费使用、修改和分发
特点:
- 线性时间推理:更高效处理大规模输入数据。
- 无限长度序列建模:处理长文本或代码表现优异。
- 高级代码和推理能力:专注代码生产力,理解和推理能力强。
- 高效上下文检索:可处理多达 256k tokens 的上下文信息。
- 多平台部署:
- 支持通过 mistral-inference SDK 部署
- 支持 TensorRT-LLM 部署,计划在 llama.cpp 提供本地支持
性能对比:
- 优于 CodeGemma 1.1 7B,特别是 HumanEval 和 HumanEval C++ 测试
- 超过 CodeLlama 7B,在 HumanEval 和 MBPP 基准测试中表现优异
- 总体优于 DeepSeek v1.5 7B,尤其在 HumanEval 和 HumanEval C++ 中表现突出
- 与更大的 Codestral 22B 相比,部分测试略逊一筹,但 HumanEval 和 HumanEval Bash 表现出色
- 超越 CodeLlama 34B 在多数测试中的结果
官方资源:
Mathstral 7B
概述:
- 专为数学推理和科学发现设计的模型
- 拥有32k的上下文窗口
- 基于 Mistral 7B 架构
特点:
- 高效数学推理:处理复杂、多步逻辑推理的高级数学问题表现出色。
- 大上下文窗口:适合复杂问题和长文本推理。
- 先进的性能:
- MATH测试成绩56.6%
- MMLU测试成绩63.47%
- 使用多数投票方法,MATH测试得分68.37%,64个候选者中使用强奖励模型得分74.59%
- 定制和微调能力:
- 支持通过 mistral-inference 和 mistral-finetune 工具进行模型部署和微调
官方资源:
Source:https://xiaohu.ai/p/11392