当前位置：首页 > news >正文

经验记忆黑科技！LightSearcher让AI工具调用减39.6%、推理快48.6%

news 2026/6/5 19:22:43

深度思考大模型面临的“跷跷板”困境，这下有解了！

现有RL驱动的深度思考大模型常常面临准确率与效率的“跷跷板”困境——

频繁调用搜索工具能提升准确性，却带来计算开销和效率低下。

对此，北邮百家AI团队提出LightSearcher框架，首创基于经验记忆的高效RL优化技术，不依赖额外数据，仅通过引入经验记忆机制，实现Agent工具调用高效自主优化，解决痛点问题。

在保持与SOTA基线ReSearch相当准确率的同时，搜索工具调用和模型回复时间显著缩短，搜索工具调用次数减少39.6%，推理时间缩短48.6%，Token消耗降低21.2%，在保持模型效果的同时显著提升了工具调用效率。

团队表示，以DeepSeek-R1为代表的深度思考大模型能够处理复杂的推理任务，DeepSearch作为深度思考大模型的核心搜索器，在推理过程中通过迭代调用外部搜索工具，访问参数边界之外的最新、领域特定知识，从而提升推理的深度和事实可靠性。

不过，虽然高频调用外部搜索工具能补充实时信息、提升推理准确率，但使得推理延迟大幅升高，等待时间可达几十秒至几分钟。

而从用户体验角度来看，若信息加载时间超过10秒，50%的移动用户会放弃访问。

因此，深度思考大模型系统的长时推理等待无疑会带来类似的用户流失风险。

反之，减少工具调用以提升效率，则会因大语言模型内部知识局限，导致推理结果准确性与完整性不足。

面对这一两难困境，LightSearcher框架应运而生。

如何教会深度思考大模型策略性地控制搜索工具的使用，优化何时以及如何查询外部知识源，是深度思考大模型亟待解决的问题，现有方法存在显著缺陷：

1、提示工程或监督学习方法依赖人工标注，成本高且泛化差；RL驱动方法虽能自主优化，但奖励偏重准确性，导致模型为确保正确而频繁调用工具，造成冗余开销。

2、工具调用“过度依赖”，现有模型往往不分难易，对简单查询也反复检索，导致推理时间延长、token消耗激增。

3、准确性与效率失衡，部分方法虽提升准确率，但牺牲效率；另一些虽减少调用，却降低答案质量，无法兼顾双重目标。

这些问题导致现有模型要么要么答案不准、可靠性差，要么工具调用过多、效率低下，难以同时满足推理准确和高效执行的核心需求。

为解决上述缺陷，北邮百家AI团队提出基于经验记忆的高效DeepSearch框架——LightSearcher。

核心思路是在大模型强化推理过程中，通过“对比经验学习”将隐性推理轨迹转化为显性指导经验，并结合自适应奖励优化工具调用。

具体包含三大关键组件：

对比经验推理机制（Contrastive Experiential Reasoning）：收集高低质量推理轨迹，通过LLM生成成功模式的自然语言总结（如“简单查询优先用内部知识”），构建动态经验记忆库；
自适应奖励塑造机制（Adaptive Reward Shaping）：引入最小工具调用基准，仅在答案正确时惩罚冗余调用，使用指数衰减函数动态平衡准确性和效率，避免盲目优化；
基于经验的RL训练机制：采用GRPO算法，将积累经验和少样本示例融入提示模板，指导模型生成高效轨迹，确保探索与利用的均衡。

模型最终优化目标为多目标奖励函数的加权和，确保工具调用精简与答案质量的协同提升。