AI-NEWS · 2025年 5月 30日

DeepSeek R1-0528发布

DeepSeek-R1-0528 模型技术分析报告

一、核心模型参数对比

模型名称 参数量 训练数据版本 上下文长度 基准测试表现(AIME)
DeepSeek V3 Base R1 未披露 2024 12K-23K 2025版得分7087.5
Qwen3-8B Base 8B 2024 未披露 2024版得分10.0
Qwen3-235B 235B 未披露 未披露 对比基准模型

二、关键性能指标

  1. 推理能力

    • Tau-Bench专项测试表现:
      • Airline领域:53.5
      • Retail领域:63.9
    • 对比模型:
      • OpenAI o1-high/o3-high
      • Claude 4 Sonnet
      • Grok 3 mini
  2. 学术基准

    • 通过UC Berkeley、MIT、Cornell等机构的LiveCodeBench验证
    • 支持Chain-of-Thought(CoT)推理模式

三、技术特性

  1. API能力

    • 支持Function Calling和JSON输出格式
    • 上下文长度支持:
      • 标准版:32K/64K tokens
      • 扩展版:128K tokens(需通过R1 App API)
  2. 部署信息

    • 模型托管平台:
      • Hugging Face
      • Model Scope
    • 开源协议:MIT License
    • 第三方API接入渠道:
      • Openrouter
      • Novita
      • Nebius等

四、架构亮点

  1. 包含685B参数的检查点版本
  2. 支持14B规模的MTP(多任务处理)
  3. 提供完整的tokenizer配置工具(tool calls)

五、商业应用价值

  1. 在零售领域(Tau-Bench 63.9)表现优于航空领域(53.5)
  2. 与Qwen3系列模型形成明确的技术代差(8B vs 235B参数版本)
  3. 扩展上下文处理能力(128K)适合长文档分析场景

火龙果频道