AI-NEWS · 2025年 9月 5日

Meta推DeepConf技术

Meta推出DeepConf技术:智能平衡大语言模型推理成本与精度

核心技术突破

近日,Meta AI与加州大学圣地亚哥分校(UCSD)联合推出名为"深度置信思考"(DeepConf)的新技术。该技术旨在帮助企业有效降低计算成本,同时在复杂推理任务中保持大语言模型(LLMs)的高精度

技术原理与创新

传统方法的局限性

当前提升LLM推理能力通常依赖"通过多次采样和多数投票实现一致性"策略,但这种方法会导致:

  • 计算资源快速增长
  • 耗时耗力
  • 低质量推理路径可能导致错误答案被选中

DeepConf的创新点

DeepConf不再平等对待所有推理路径,而是基于模型内部的置信度信号进行过滤和权重调整,引入多种精细化置信度指标:

  • 群体置信度:计算推理过程中一段token的平均置信度
  • 尾部置信度:关注推理结束时的置信水平
  • 最低群体置信度:识别推理路径中最"脆弱"的部分
  • 底部10%置信度:关注推理中最不自信的部分

两种执行模式

1. 离线思考模式

首先生成多个完整推理路径,然后基于置信度选择最佳路径进行投票或加权投票

2. 在线思考模式

在推理过程中实时评估,如果当前路径置信度低于阈值,立即终止以节省资源

性能表现

在多个开源模型(DeepSeek-8B、Qwen3-32B、GPT-OSS-120B)和复杂数学及STEM推理任务(AIME、HMMT、BRUMO25、GPQA-Diamond)中,DeepConf表现出色:

离线模式

  • 使用GPT-OSS-120B时,AIME2025准确率达到99.9%
  • 生成token数量比传统方法减少84.7%

在线模式

  • DeepSeek-8B在AIME24上的准确率提升5.8个百分点
  • 使用token数量减少77.9%

企业应用策略

企业可根据风险偏好选择不同设置:

DeepConf-high(保守模式)

  • 通常降低约**50%**的生成成本
  • 几乎不影响准确度
  • 适用于金融、法律等高风险场景

DeepConf-low(激进模式)

  • 节省**70-85%**的token
  • 适用于需要速度但错误容忍度更灵活的场景
  • 如草稿答案和知识检索

部署优势

  • 无需重新训练模型:仅在推理时添加少量逻辑处理
  • 良好兼容性:可与现有推理框架(vLLM、SGLang、TensorRT-LLM)无缝集成
  • 即插即用:为企业LLM推理任务提供高效解决方案

核心价值

  1. 置信度引导选择:基于局部置信度过滤或排序推理路径,避免一刀切的多数投票方法
  2. 显著提升效率:实现高达99.9%的推理准确率,同时减少多达84.7%的生成token
  3. 可调策略模式:企业可根据风险偏好选择"高安全性"或"高效率"模式,以最小资源实现最优结果

发布日期:2025年9月4日
技术合作:Meta AI与加州大学圣地亚哥分校

火龙果频道