AI-NEWS · 2024年 7月 17日

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B

Mistral 发布了两个 7B 小模型:Codestral Mamba 7B 和 Mathstral 7B

Codestral Mamba 7B

概述:

  • 基于 Mamba 2 架构的代码模型
  • 支持256K的上下文
  • 可免费使用、修改和分发

特点:

  1. 线性时间推理:更高效处理大规模输入数据。
  2. 无限长度序列建模:处理长文本或代码表现优异。
  3. 高级代码和推理能力:专注代码生产力,理解和推理能力强。
  4. 高效上下文检索:可处理多达 256k tokens 的上下文信息。
  5. 多平台部署
    • 支持通过 mistral-inference SDK 部署
    • 支持 TensorRT-LLM 部署,计划在 llama.cpp 提供本地支持

性能对比:

  • 优于 CodeGemma 1.1 7B,特别是 HumanEval 和 HumanEval C++ 测试
  • 超过 CodeLlama 7B,在 HumanEval 和 MBPP 基准测试中表现优异
  • 总体优于 DeepSeek v1.5 7B,尤其在 HumanEval 和 HumanEval C++ 中表现突出
  • 与更大的 Codestral 22B 相比,部分测试略逊一筹,但 HumanEval 和 HumanEval Bash 表现出色
  • 超越 CodeLlama 34B 在多数测试中的结果

官方资源:

Mathstral 7B

概述:

  • 专为数学推理和科学发现设计的模型
  • 拥有32k的上下文窗口
  • 基于 Mistral 7B 架构

特点:

  1. 高效数学推理:处理复杂、多步逻辑推理的高级数学问题表现出色。
  2. 大上下文窗口:适合复杂问题和长文本推理。
  3. 先进的性能
    • MATH测试成绩56.6%
    • MMLU测试成绩63.47%
    • 使用多数投票方法,MATH测试得分68.37%,64个候选者中使用强奖励模型得分74.59%
  4. 定制和微调能力
    • 支持通过 mistral-inference 和 mistral-finetune 工具进行模型部署和微调

官方资源:

Source:https://xiaohu.ai/p/11392