Qwen3与Deepseek R1技术分析报告
核心产品对比
-
Qwen3系列:
- 参数量级覆盖4B-235B(Qwen3-235B-A22B达2350亿参数)
- 支持32K长上下文窗口
- 预训练数据量达36万亿tokens(较Qwen2.5提升100%)
-
Deepseek-R1:
- 具体参数未披露
- 定位为开源模型
关键技术突破
-
混合思维模式:
- 可切换Thinking/Non-Thinking模式
- 支持
enablethinking
指令控制
-
多模态能力:
- 支持PDF、4K图像处理
- STEM专项优化(5万亿tokens训练数据)
-
训练架构:
- 采用MoE(混合专家)架构
- 包含:
- 长链思维(Long CoT)
- 推理强化学习(Reasoning RL)
- 通用强化学习(General RL)
多语言与代理能力
- 支持119种语言
- 集成Qwen-Agent框架
- 具备MCP(多任务控制协议)
应用生态
- 官方应用:chat.qwen.ai
- 硬件需求:
- Qwen3-30B-A3B需24GB显存
- Qwen3-32B需8-14GB显存
行业定位
与竞品对比:
- 参数规模超越Gemini 2.5 Pro
- 接近Grok-3水平
- 显著优于Qwen2.5-72B-Instruct
数据亮点:Qwen3预训练数据量达Qwen2.5的2倍(36T vs 18T tokens),显示算力投入的指数级增长。