AI-NEWS · 2025年 7月 10日

Hugging Face发布3B小模型

Hugging Face发布开源轻量级大语言模型SmolLM3

核心亮点

  • 3B参数媲美4B模型:在多项基准测试中超越同级Llama-3.2-3B和Qwen2.5-3B,性能接近Gemma3等4B参数模型
  • 双模态推理设计:支持"思考"(think)和"非思考"(no-think)模式,复杂任务性能提升显著
  • 128K长上下文支持:通过YaRN技术扩展上下文窗口,训练支持64K,推理可达128K
  • 六语言无缝切换:原生支持英/法/西/德/意/葡语,含少量中/俄/阿语训练数据

技术细节

模型架构

  • 参数量:30亿(3B)
  • 类型:仅解码器Transformer
  • 关键技术:
    • 分组查询注意力(GQA)
    • NoPE位置编码技术
  • 预训练数据:11.2万亿token,涵盖网页/代码/数学/推理数据

性能表现

测试项目 思考模式 非思考模式 提升幅度
AIME2025 36.7 9.3 +294%
LiveCodeBench 30.0 15.2 +97%
GPQA Diamond 41.7 35.7 +17%

多语言能力

  • 基准测试排名:
    • Global MMLU:同级模型Top级别
    • Flores-200:同级领先

开源生态

  • 完全开源:模型权重/训练数据/配置/代码全部公开
  • 资源获取:Hugging Face的smollm代码库
  • 商业价值:降低学术研究和商业应用门槛

应用场景

  • 边缘计算:WebGPU支持,适合浏览器/边缘设备部署
  • 性价比优势:在性能与计算成本间达到"帕累托最优"
  • 典型场景:教育/编程/客服等资源受限环境

行业影响

  • 为中小企业和学术机构提供高性能轻量级解决方案
  • 推动教育/客服/本地化部署等领域的应用创新
  • 通过开源透明度促进AI社区协作发展

注:所有性能数据均来自官方测试报告,测试环境为FP16精度

火龙果频道