Meta推出DeepConf技术：智能平衡大语言模型推理成本与精度

核心技术突破

近日，Meta AI与加州大学圣地亚哥分校（UCSD）联合推出名为"深度置信思考"（DeepConf）的新技术。该技术旨在帮助企业有效降低计算成本，同时在复杂推理任务中保持大语言模型（LLMs）的高精度。

技术原理与创新

传统方法的局限性

当前提升LLM推理能力通常依赖"通过多次采样和多数投票实现一致性"策略，但这种方法会导致：

计算资源快速增长
耗时耗力
低质量推理路径可能导致错误答案被选中

DeepConf的创新点

DeepConf不再平等对待所有推理路径，而是基于模型内部的置信度信号进行过滤和权重调整，引入多种精细化置信度指标：

群体置信度：计算推理过程中一段token的平均置信度
尾部置信度：关注推理结束时的置信水平
最低群体置信度：识别推理路径中最"脆弱"的部分
底部10%置信度：关注推理中最不自信的部分

两种执行模式

1. 离线思考模式

首先生成多个完整推理路径，然后基于置信度选择最佳路径进行投票或加权投票

2. 在线思考模式

在推理过程中实时评估，如果当前路径置信度低于阈值，立即终止以节省资源

性能表现

在多个开源模型（DeepSeek-8B、Qwen3-32B、GPT-OSS-120B）和复杂数学及STEM推理任务（AIME、HMMT、BRUMO25、GPQA-Diamond）中，DeepConf表现出色：

离线模式：

使用GPT-OSS-120B时，AIME2025准确率达到99.9%
生成token数量比传统方法减少84.7%

在线模式：

DeepSeek-8B在AIME24上的准确率提升5.8个百分点
使用token数量减少77.9%

企业应用策略

企业可根据风险偏好选择不同设置：

DeepConf-high（保守模式）

通常降低约**50%**的生成成本
几乎不影响准确度
适用于金融、法律等高风险场景

DeepConf-low（激进模式）

节省**70-85%**的token
适用于需要速度但错误容忍度更灵活的场景
如草稿答案和知识检索

部署优势

无需重新训练模型：仅在推理时添加少量逻辑处理
良好兼容性：可与现有推理框架（vLLM、SGLang、TensorRT-LLM）无缝集成
即插即用：为企业LLM推理任务提供高效解决方案

核心价值

置信度引导选择：基于局部置信度过滤或排序推理路径，避免一刀切的多数投票方法
显著提升效率：实现高达99.9%的推理准确率，同时减少多达84.7%的生成token
可调策略模式：企业可根据风险偏好选择"高安全性"或"高效率"模式，以最小资源实现最优结果

发布日期：2025年9月4日
技术合作：Meta AI与加州大学圣地亚哥分校

火龙果频道

近期新闻

AI-NEWS · 2025年 9月 5日

Meta推DeepConf技术

Meta推出DeepConf技术：智能平衡大语言模型推理成本与精度

核心技术突破

技术原理与创新

传统方法的局限性

DeepConf的创新点

两种执行模式

1. 离线思考模式

2. 在线思考模式

性能表现

企业应用策略

DeepConf-high（保守模式）

DeepConf-low（激进模式）

部署优势

核心价值

您可能还喜欢...

AI-NEWS · 2025年 9月 5日

Meta推出DeepConf技术：智能平衡大语言模型推理成本与精度

核心技术突破

技术原理与创新

传统方法的局限性

DeepConf的创新点

两种执行模式

1. 离线思考模式

2. 在线思考模式

性能表现

企业应用策略

DeepConf-high（保守模式）

DeepConf-low（激进模式）

部署优势

核心价值

您可能还喜欢...

Major AI Discovery: State-of-the-Art Visual Models Still Fall Short in Basic Visual Reasoning Abilities

同义发布2024年人工智能使用趋势报告：85后90后兴趣更高

中国知网CNKI宣布上线新版首页 新增AI增强检索、AI学术研究助手等功能

中国知网CNKI宣布上线新版首页新增AI增强检索、AI学术研究助手等功能