AI-NEWS · 2025年 3月 9日

DeepSeek-V3/R1推理系统概览

DeepSeek-V3R1 性能与架构分析报告

1. 概述

DeepSeek-V3R1 是一款高性能的AI推理系统,采用了专家并行(Expert Parallelism, EP)和混合专家(Mixture of Experts, MoE)架构,旨在优化大规模语言模型的推理效率。该系统在H800 GPU上运行,支持FP8和BF16混合精度计算,显著提升了吞吐量和降低了延迟。

2. 关键性能指标

  • 吞吐量:73.7k tokens
  • 延迟:14.8k tokens
  • AGI(Artificial General Intelligence)评分:6
  • H800 GPU节点数:87,072
  • 推理服务时间:2025年2月27日12:00至2025年2月28日12:00

3. 架构细节

3.1 专家并行(EP)

  • 路由专家(Routed Expert):256个专家,8个EP组
  • 共享专家(Shared Expert):32个专家,4个DP组
  • GPU利用率:9:1(路由专家),2:1(共享专家)

3.2 混合专家(MoE)

  • 路由专家:144个专家,18个EP组
  • 共享专家:32个专家,4个DP组
  • GPU利用率:2:1

4. 负载均衡机制

4.1 Prefill阶段

  • DP核心注意力分发:GPU核心注意力分发,token分发
  • GPU核心注意力分发:GPU token分发

4.2 Decode阶段

  • DP KVCache分发:GPU KVCache分发
  • GPU KVCache分发:GPU分发

4.3 专家并行负载均衡

  • MoE机制:GPU专家并行负载均衡

5. 性能优化

  • 通信与计算重叠:在Prefill和Decode阶段实现了通信与计算的重叠,显著提升了系统效率。
  • 双批次(Dual-Batch)微批次:通过微批次处理,进一步优化了GPU利用率。

6. 成本与收益分析

  • 理论收入:562,027
  • 成本:545
  • token处理量:0.14M token, 0.55M token, 2.19M token

7. 结论

DeepSeek-V3R1 通过其高效的专家并行架构和混合专家机制,在大规模语言模型推理中展现了卓越的性能。其优化的负载均衡机制和通信与计算重叠技术,使得系统在高吞吐量和低延迟之间取得了良好的平衡。未来,随着硬件和算法的进一步优化,DeepSeek-V3R1有望在AI推理领域继续保持领先地位。

火龙果频道