AI-NEWS · 2024年 7月 17日

Mistral 发布了2个7B小模型： Codestral Mamba 7B 和 Mathstral 7B

Mistral 发布了两个 7B 小模型：Codestral Mamba 7B 和 Mathstral 7B

Codestral Mamba 7B

概述：

基于 Mamba 2 架构的代码模型
支持256K的上下文
可免费使用、修改和分发

特点：

线性时间推理：更高效处理大规模输入数据。
无限长度序列建模：处理长文本或代码表现优异。
高级代码和推理能力：专注代码生产力，理解和推理能力强。
高效上下文检索：可处理多达 256k tokens 的上下文信息。
多平台部署：
- 支持通过 mistral-inference SDK 部署
- 支持 TensorRT-LLM 部署，计划在 llama.cpp 提供本地支持

性能对比：

优于 CodeGemma 1.1 7B，特别是 HumanEval 和 HumanEval C++ 测试
超过 CodeLlama 7B，在 HumanEval 和 MBPP 基准测试中表现优异
总体优于 DeepSeek v1.5 7B，尤其在 HumanEval 和 HumanEval C++ 中表现突出
与更大的 Codestral 22B 相比，部分测试略逊一筹，但 HumanEval 和 HumanEval Bash 表现出色
超越 CodeLlama 34B 在多数测试中的结果

官方资源：

Mathstral 7B

概述：

专为数学推理和科学发现设计的模型
拥有32k的上下文窗口
基于 Mistral 7B 架构

特点：

高效数学推理：处理复杂、多步逻辑推理的高级数学问题表现出色。
大上下文窗口：适合复杂问题和长文本推理。
先进的性能：
- MATH测试成绩56.6%
- MMLU测试成绩63.47%
- 使用多数投票方法，MATH测试得分68.37%，64个候选者中使用强奖励模型得分74.59%
定制和微调能力：
- 支持通过 mistral-inference 和 mistral-finetune 工具进行模型部署和微调

官方资源：

Source:https://xiaohu.ai/p/11392

您可能还喜欢...