Hugging Face发布开源轻量级大语言模型SmolLM3
核心亮点
- 3B参数媲美4B模型:在多项基准测试中超越同级Llama-3.2-3B和Qwen2.5-3B,性能接近Gemma3等4B参数模型
- 双模态推理设计:支持"思考"(think)和"非思考"(no-think)模式,复杂任务性能提升显著
- 128K长上下文支持:通过YaRN技术扩展上下文窗口,训练支持64K,推理可达128K
- 六语言无缝切换:原生支持英/法/西/德/意/葡语,含少量中/俄/阿语训练数据
技术细节
模型架构
- 参数量:30亿(3B)
- 类型:仅解码器Transformer
- 关键技术:
- 分组查询注意力(GQA)
- NoPE位置编码技术
- 预训练数据:11.2万亿token,涵盖网页/代码/数学/推理数据
性能表现
测试项目 | 思考模式 | 非思考模式 | 提升幅度 |
---|---|---|---|
AIME2025 | 36.7 | 9.3 | +294% |
LiveCodeBench | 30.0 | 15.2 | +97% |
GPQA Diamond | 41.7 | 35.7 | +17% |
多语言能力
- 基准测试排名:
- Global MMLU:同级模型Top级别
- Flores-200:同级领先
开源生态
- 完全开源:模型权重/训练数据/配置/代码全部公开
- 资源获取:Hugging Face的smollm代码库
- 商业价值:降低学术研究和商业应用门槛
应用场景
- 边缘计算:WebGPU支持,适合浏览器/边缘设备部署
- 性价比优势:在性能与计算成本间达到"帕累托最优"
- 典型场景:教育/编程/客服等资源受限环境
行业影响
- 为中小企业和学术机构提供高性能轻量级解决方案
- 推动教育/客服/本地化部署等领域的应用创新
- 通过开源透明度促进AI社区协作发展
注:所有性能数据均来自官方测试报告,测试环境为FP16精度