AI-NEWS · 2025年 4月 29日

阿里云开源Qwen3模型

Qwen3与Deepseek R1技术分析报告

核心产品对比

  • Qwen3系列

    • 参数量级覆盖4B-235B(Qwen3-235B-A22B达2350亿参数)
    • 支持32K长上下文窗口
    • 预训练数据量达36万亿tokens(较Qwen2.5提升100%)
  • Deepseek-R1

    • 具体参数未披露
    • 定位为开源模型

关键技术突破

  1. 混合思维模式

    • 可切换Thinking/Non-Thinking模式
    • 支持enablethinking指令控制
  2. 多模态能力

    • 支持PDF、4K图像处理
    • STEM专项优化(5万亿tokens训练数据)
  3. 训练架构

    • 采用MoE(混合专家)架构
    • 包含:
      • 长链思维(Long CoT)
      • 推理强化学习(Reasoning RL)
      • 通用强化学习(General RL)

多语言与代理能力

  • 支持119种语言
  • 集成Qwen-Agent框架
  • 具备MCP(多任务控制协议)

应用生态

  • 官方应用:chat.qwen.ai
  • 硬件需求:
    • Qwen3-30B-A3B需24GB显存
    • Qwen3-32B需8-14GB显存

行业定位

与竞品对比:

  • 参数规模超越Gemini 2.5 Pro
  • 接近Grok-3水平
  • 显著优于Qwen2.5-72B-Instruct

数据亮点:Qwen3预训练数据量达Qwen2.5的2倍(36T vs 18T tokens),显示算力投入的指数级增长。

火龙果频道