PG电子

PG电子APP颠覆传统信息搜索DeepRetrieval让模型端到端地学会搜索!

2025-04-12
浏览次数:
返回列表

  PG电子(Pocket Games Soft )全球首屈一指的电子游戏供货商[永久网址:363050.com],首位跨足线下线上电子游戏开发。PG电子,pg娱乐,PG电子试玩平台,pg电子app,pg电子外挂,pg电子接口,pg电子技巧,pg电子下载,欢迎注册体验!

PG电子APP颠覆传统信息搜索DeepRetrieval让模型端到端地学会搜索!

  在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好。

  尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们的需求。

  那么问题来了:能不能教大模型优化原始 query 的表达方式,从而让已有检索系统的能力被最大化激发?

  一句话概括:DeepRetrieval 是一个基于强化学习(RL)的 query 优化系统,训练 LLM 在不同检索任务中优化原始查询,以最大化真实系统的检索效果。

  它不是训练一个新的 retriever,也不是让模型直接回答问题,而是:

  在不改变现有搜索系统的前提下,通过优化原始 query,让「提问方式」变得更聪明,从而获取更好的结果。

  其中,π_ref 是参考策略(reference policy),通常指的是在强化学习开始之前的初始模型。β 是一个合适的 KL 惩罚系数,用于控制正则化的强度。KL 散度项的作用是惩罚当前策略与参考策略之间的过大偏离,从而在强化学习训练过程中保证策略更新的稳定性。

  首先在真实的搜索引擎上进行实验,文中用到了专业搜索引擎 PubMed 和 ClinicalTrials.gov。无需改动搜索引擎或其它任何检索器,仅通过端到端地优化 query 表达,DeepRetrieval 就可以让结果获得 10 倍提升,远超各个商业大模型和之前的 SOTA 方法 LEADS(蒸馏 + SFT 方法)。

  Evidence-Seeking 任务的核心是找到支持特定事实性问题答案的确切文档证据,在通用搜索引擎环境中,这一能力尤为关键。作者团队指出,将 DeepRetrieval 应用到 Google、Bing 等通用搜索引擎的 Evidence-Seeking 场景将带来显著优势:

  精准定位事实文档:通用搜索引擎包含海量信息,用户难以构建能精确定位证据段落的查询。DeepRetrieval 可将简单问题转化为包含关键术语、同义词和限定符的复杂查询,显著提高找到权威证据的概率。克服知识时效性限制:模型能够将「2024 年奥运会金牌榜前三名」等超出 LLM 知识截止日期的问题转化为精确搜索表达,使检索系统能够找到最新事实证据。多源验证能力:通过优化查询帮助搜索引擎找到多个独立来源的事实证据,从而交叉验证信息准确性,这是纯 LLM 问答无法实现的关键优势。

  作者团队表示会将这部分的延伸作为 DeepRetrieval未来主要的探索方向之一

  结合极快的检索速度(BM25 vs dense:352s vs 12,232s),展示了一个现实可部署、性能不俗的高效方案。

  在 SQL 检索任务中,DeepRetrieval 摆脱了对 groundtruth SQL 的依赖,直接利用生成 SQL 的执行成功率优化模型,通过生成更精准的 SQL 语句,使得模型在 Spider、BIRD 等数据集上的执行正确率均超过对比模型(包括 GPT-4o 和基于 SFT 的大模型)。

  DeepRetrieval 的实验揭示了强化学习(RL)在搜索优化上相比监督微调(SFT)的独特优势。实验数据令人信服:在文献搜索上,RL 方法的 DeepRetrieval(65.07%)超过 SFT 方法 LEADS(24.68%)近三倍;在 SQL 任务上,从零开始的 RL 训练(无需任何 gold SQL 语句的监督)也优于使用 GPT-4o 蒸馏数据的 SFT 模型。

  这种显著差异源于两种方法的本质区别:SFT 是「模仿学习」,试图复制参考查询,而 RL 是「直接优化」,通过环境反馈学习最优查询策略。SFT 方法的局限在于参考查询本身可能不是最优的,即使是人类专家或大模型也难以直观设计出最适合特定搜索引擎的查询表达。

  相反,RL 允许模型通过尝试与错误来探索查询空间,发现人类甚至未考虑的有效模式,并直接针对最终目标(如 Recall 或执行准确率)进行优化。这使 DeepRetrieval 能够生成高度适合特定搜索引擎特性的查询,适应不同检索环境的独特需求。

  这一发现具有重要启示:在追求最佳检索性能时,让模型通过反馈学习如何与检索系统「对话」,比简单模仿既定模式更为有效,这也解释了为何参数量较小的 DeepRetrieval 能在多项任务上超越拥有更多参数的商业模型。

  通过分析 DeepRetrieval 在训练过程中模型思考链和查询长度的变化,可以发现以下关键洞见

  与「aha moment」相反,DeepRetrieval 的思考链长度随训练呈下降趋势,而非增长。这与 DeepSeek-R1 报告的「aha moment」现象形成鲜明对比,后者的思考链会随训练进展变得更长。图 4(a) 清晰地展示了 Qwen 模型思考链从初始约 150 tokens 逐渐降至稳定的 50 tokens 左右,而 Llama 模型的思考链更短,甚至降至接近 25 tokens。

  实验揭示了思考过程对查询长度的显著影响。无思考过程的模型容易陷入次优解,如图 4(b) 所示,Qwen 无思考版本生成极长查询(500-600 tokens),表现出过度扩展的倾向。相比之下,有思考过程的模型保持更为适中的查询长度,Qwen 约 150 tokens,Llama 约 100 tokens。有趣的是,不同模型采用不同长度策略,但能达到相似性能,表明查询生成存在多样有效路径。

  思考过程对检索性能有决定性影响。图 4(c) 表明,具备思考能力的模型性能显著提升,有思考的模型 Recall@3K 能达到 65%,而无思考模型仅 50% 左右。此外,训练效率也明显提高,有思考的模型更快达到高性能并保持稳定。论文附录 D.1 的分析表明,思考过程帮助模型避免简单地通过增加查询长度和重复术语来提升性能,而是引导模型学习更有效的语义组织策略。

  DeepRetrieval 展示了思考过程在信息检索中扮演「探索促进器」的关键角色。与数学或编程问题不同,检索任务不需要像「aha moment」那样的突然顿悟现象。相反,检索优化遵循「先详细思考,后逐渐精简」的模式,模型在内化有效策略后,不再需要冗长思考。这表明检索任务中思考链的主要功能是探索,一旦策略稳定便可简化。

  这种分析表明,适当的思考过程设计对于构建高效的检索优化系统至关重要,能够在不增加模型参数的情况下显著提升性能,为未来的 LLM 应用于搜索任务提供了重要设计思路。

  DeepRetrieval 的贡献在于揭示了一个常被忽视但至关重要的事实:检索效果的上限不仅在于检索器本身,更在于如何「提问」。

  通过强化学习教 LLM 改写原始查询,DeepRetrieval 不仅摆脱了对人工标注数据和大模型蒸馏的依赖,还在多个任务上证明了改写 query 的巨大潜力。这项工作为搜索与信息检索领域带来了新的思考:未来的检索优化,不仅是提升引擎算法,更是如何让用户「问得更好」,从而激发出检索系统的全部潜力。

  04月02日,彩调剧《刘三姐》入选文旅部复排计划名录,纬来体育官网,英雄联盟赌外围,正规德州,hth华体会苹果版

  04月02日,各地开展122全国交通安全日主题活动,龙8国际网站,在线,vwin网上官网,亚洲版365平台

  04月02日,“第二十条”被唤醒!行使正当防卫权利时应注意什么时政快讯丨十四届全国人大二次会议举行闭幕会 习等党和国家领导人出席,巴黎人所有网站,皇冠手机网页版登录,必博体育网站是多少,新网站APP

  04月02日兰州榆中构建粮油大循环经济 育良种擅用技提单产促丰收棋牌金币版游戏中心信誉体育平台澳门线日香港城巴春节期间将增通宵路线bet好还是九州好线上的彩票竞技平台od体育娱乐韦德体育电竞

  04月02日农业农村部:第三次全国土壤普查外业调查采样任务圆满完成乐竞体育平台注册尊龙登录贝博官方app登陆火狐体育官网链接……

  04月02日,北京平安地铁志愿服务主题列车上线,博鱼网页登陆,真人网客户端,mgm足球,一定发最新地址

  04月02日,大雪丨积寒凛冽 阴极阳生,爱游戏彩票app,美高梅网站,mgm开户网址,凯时手机版官网

  04月02日辽宁省贸促会率17家辽企参加2024香港国际印刷及包装展365bet体育平台开户赢钱网站在线进入永利视讯正网沙巴官方

  04月02日,“0免赔”能否成惠民保升级新方向?,注册即送30元第一桶金,永利平台注册,188体育盘口在线,牛宝体育投注登录

  04月02日,徐工澳洲研发中心,揭牌成立,凯发娱乐MXapp,新世纪在线日,四川与韩国全罗南道结好二十周年 双方盼合作再深化,欧洲联赛杯比分,乐和彩彩票平台注册,顶级棋牌评测网,bepla体育官网

  04月02日智能快递柜为何不“香”了亚博游戏平台乐虎国际app官网下载LEG棋牌手机线日通化边境民警开展冬季练兵环亚手机版客户端立博中文官网千亿国际娱乐官网手机365bet平台线后”台青倾心中国舞 踱步间尽显文化传承亚洲bet356手机版网址多宝备用网址爱游戏下载安装包胜负彩怎么投注

  黑神话Steam在线人数历史第二,金丝猴一家在相机前上演精彩家庭剧《罗莎·卢森堡》新书发布 德国学者讲述欧洲左翼女性革命家的一生威尼斯人最新网站澳门所有娱乐官方首页真钱彩票娱乐b体育官网

  仙剑奇侠传三,建模颜值大比拼中新教育|第八届黄炎培职业教育奖颁奖大会在北京举行上海海关落实新政助推加工贸易高质量发展九州会员备用网址m6米乐类似平台bo体育官网登录美高梅娱乐官网

  四川女篮客场掀翻内蒙古女篮,犯罪心理:演变 第十七季量子面霜、量子治癌、量子油条……到底是怎么回事?亚星网址是多少金沙银河官网无敌猪哥报米乐m6平台官方版

  最听劝老板靠刷评论区救活伞厂,大奥 第二季前三季度中国珠宝首饰进出口额达1132.66亿美元杏彩登录网页登陆可以买球的手机appmg游戏注册送礼金立博赌场网站

  庆余年 第二季,中国美院图书馆“喵馆长”离世海内外人士参访雄安 感受“未来之城”皇冠新体育是什么爱游戏体育官方网彩神彩票新登录网址是多少bet9九州体育信誉

  檀健次出了两百道题,声生不息用15部电影开场2023年以来江西警方为企挽损42.92亿元杏彩下载安装最新版2020俄罗斯欧洲杯官网体育买球appPT电子

搜索