清華&人大:search-o1 讓推理模型具有主動(dòng)能力
1. 背景
大型推理模型如 OpenAI - o1、Qwen - QwQ 等通過大規(guī)模強(qiáng)化學(xué)習(xí),在科學(xué)、數(shù)學(xué)、編碼等復(fù)雜領(lǐng)域展現(xiàn)出了強(qiáng)大的逐步推理能力。它們以 “慢思考” 模式生成長(zhǎng)思維鏈條,有效解決復(fù)雜問題,增強(qiáng)了推理的邏輯性和可解釋性。然而,這也帶來了顯著弊端,在長(zhǎng)鏈?zhǔn)酵评磉^程中,模型常常遭遇知識(shí)不足的困境。這使得推理鏈條容易出現(xiàn)錯(cuò)誤傳播,嚴(yán)重影響最終答案的質(zhì)量。例如,在處理一些復(fù)雜的科學(xué)問題時(shí),模型可能會(huì)因?yàn)閷?duì)某些關(guān)鍵知識(shí)點(diǎn)的缺失而得出錯(cuò)誤結(jié)論。
2. 研究動(dòng)機(jī)
初步實(shí)驗(yàn)發(fā)現(xiàn),類似 OpenAI - o1 的推理模型在處理復(fù)雜問題時(shí),平均每個(gè)推理過程中會(huì)出現(xiàn)超過 30 次如 “或許”“可能” 等不確定詞匯。這不僅大幅增加了推理的復(fù)雜性,還使得手動(dòng)驗(yàn)證推理過程變得極為困難。因此,如何在推理過程中自動(dòng)補(bǔ)充所需知識(shí),成為提升大型推理模型可信度的關(guān)鍵所在,這也是 Search - o1 出現(xiàn)的原因。
3. Search - o1 框架
3.1 Search-o1框架概述
Search - o1 是自主知識(shí)檢索增強(qiáng)的推理框架,這個(gè)框架是為解決大型推理模型在長(zhǎng)鏈?zhǔn)酵评頃r(shí)知識(shí)不足問題而設(shè)計(jì)的創(chuàng)新架構(gòu),主要由自主檢索增強(qiáng)生成機(jī)制和文檔內(nèi)推理模塊構(gòu)成。通過這一設(shè)計(jì),模型能夠在推理過程中動(dòng)態(tài)獲取并整合外部知識(shí),確保推理的連貫性和準(zhǔn)確性。
- 自主檢索增強(qiáng)生成機(jī)制:在推理中,模型能自主判斷并生成檢索查詢,如遇到不熟悉的知識(shí),會(huì)用特殊符號(hào)包圍查詢。檢測(cè)到查詢后,推理暫停,通過 Search 函數(shù)從外部知識(shí)庫檢索相關(guān)文檔,再將文檔注入推理鏈繼續(xù)推理,實(shí)現(xiàn)動(dòng)態(tài)知識(shí)獲取。
- 文檔內(nèi)推理模塊:因檢索文檔可能冗長(zhǎng)冗余,此模塊對(duì)其精煉。它依據(jù)當(dāng)前搜索查詢、已有推理步驟和文檔內(nèi)容,經(jīng)獨(dú)立生成過程提取關(guān)鍵信息,確保信息與推理鏈緊密相關(guān)且邏輯連貫,有效避免干擾。
在推理流程上,Search - o1 采用批量推理機(jī)制。初始化時(shí)為每個(gè)問題創(chuàng)建推理序列,模型生成推理鏈時(shí),若產(chǎn)生檢索查詢則提取并檢索文檔,隨后文檔內(nèi)推理模塊精煉知識(shí)并插入推理鏈,不斷循環(huán)直至得出最終答案,有力保障推理過程的高效與準(zhǔn)確。
3.2 自主檢索增強(qiáng)生成機(jī)制
在推理進(jìn)程中,模型具備自主生成檢索查詢的能力,這些查詢被特殊符號(hào)包圍。一旦檢測(cè)到檢索查詢,模型會(huì)暫停當(dāng)前推理,利用查詢從外部知識(shí)庫檢索相關(guān)文檔。例如,在解決化學(xué)物質(zhì)反應(yīng)問題時(shí),如果模型對(duì)某種反應(yīng)物的性質(zhì)不確定,就會(huì)生成相應(yīng)的檢索查詢。檢索到的文檔隨后會(huì)被注入推理鏈條,供模型繼續(xù)推理,從而有效彌補(bǔ)內(nèi)部知識(shí)的不足,使模型能夠靈活應(yīng)對(duì)知識(shí)缺口。
3.3 文檔內(nèi)推理模塊
由于直接插入檢索文檔可能引入冗余信息,擾亂推理連貫性,文檔內(nèi)推理模塊應(yīng)運(yùn)而生。它通過獨(dú)立的生成過程,依據(jù)當(dāng)前搜索查詢、之前的推理步驟和檢索文檔內(nèi)容,對(duì)檢索到的文檔進(jìn)行深度分析。該模塊會(huì)提煉出與當(dāng)前推理緊密相關(guān)的關(guān)鍵信息,確保這些精煉后的信息能夠無縫整合到推理鏈條中,維持推理過程的邏輯性和連貫性,避免因信息冗余而導(dǎo)致的推理混亂。
3.4 推理過程
Search-o1 采用批量推理機(jī)制,高效處理多個(gè)問題。對(duì)于每個(gè)問題,首先用任務(wù)指令和具體問題初始化推理序列,隨后模型生成推理鏈。在這個(gè)過程中,若生成檢索查詢,則觸發(fā)檢索和信息整合流程。具體而言,檢測(cè)到檢索查詢后,提取查詢并檢索相關(guān)文檔,再通過文檔內(nèi)推理模塊精煉信息,最后將精煉后的知識(shí)插入推理鏈條繼續(xù)推理,如此循環(huán)直至生成最終答案,確保模型在整個(gè)推理過程中都能獲得充足的外部知識(shí)支持。
4. 實(shí)驗(yàn)結(jié)果
Search - o1 的實(shí)驗(yàn)設(shè)計(jì)精心且全面,涵蓋了豐富的任務(wù)與數(shù)據(jù)集,并選取了具有代表性的基線方法進(jìn)行對(duì)比,有力地驗(yàn)證了其在推理領(lǐng)域的卓越性能。
4.1 任務(wù)與數(shù)據(jù)集
- 復(fù)雜推理任務(wù)
GPQA 是由物理、化學(xué)和生物學(xué)領(lǐng)域?qū)<揖木幹频?PhD 級(jí)科學(xué)多選問答數(shù)據(jù)集,其鉆石集包含 198 道高質(zhì)量題目,擴(kuò)展集則有 546 道題目,為評(píng)估模型在專業(yè)科學(xué)領(lǐng)域的推理能力提供了嚴(yán)格的測(cè)試環(huán)境。
數(shù)學(xué)基準(zhǔn)測(cè)試包含 MATH500、AMC2023 和 AIME2024,MATH500 從 MATH 測(cè)試集中精選 500 道題目,AMC2023 和 AIME2024 分別是涵蓋算術(shù)、代數(shù)、幾何等多方面知識(shí)的中學(xué)數(shù)學(xué)競(jìng)賽題集,其中 MATH500 和 AMC 相對(duì)基礎(chǔ),AIME 難度較高,全方位考查模型的數(shù)學(xué)推理水平。
LiveCodeBench 則專注于評(píng)估模型的編程能力,精心收集了 2024 年 8 月至 11 月來自競(jìng)賽平臺(tái)的不同難度編程問題,共計(jì) 112 道,嚴(yán)格檢驗(yàn)?zāi)P驮诖a生成和理解方面的能力。
- 開放領(lǐng)域問答任務(wù)
在單跳問答方面,Natural Questions(NQ)以真實(shí)谷歌搜索查詢?yōu)閱栴}來源,答案取自維基百科文章,TriviaQA 則來自瑣事網(wǎng)站和競(jìng)賽,問題涉及復(fù)雜的實(shí)體關(guān)系,兩者從不同角度測(cè)試模型對(duì)簡(jiǎn)單知識(shí)的直接獲取和回答能力。
多跳問答中,HotpotQA 是首個(gè)要求跨多個(gè)維基百科段落推理的大規(guī)模數(shù)據(jù)集,2WikiMultihopQA(2WIKI)為多跳問題提供明確推理路徑,MuSiQue 構(gòu)建了 2 - 4 跳問題,Bamboogle 收集谷歌答錯(cuò)的復(fù)雜問題,這些數(shù)據(jù)集著重考查模型在復(fù)雜知識(shí)關(guān)聯(lián)和多步推理方面的能力。
4.2 基線方法
- 直接推理
此方法完全依賴模型內(nèi)部已有的知識(shí)進(jìn)行推理,不借助任何外部檢索。在實(shí)驗(yàn)中采用了多種開源和閉源非專有模型,開源模型如 Qwen2.5-32B-Instruct、Qwen2.5-Coder-32B-Instruct、QwQ-32B-Preview、Qwen2.5-72B-Instruct 和 Llama3.3-70B-Instruct 等,閉源非專有模型包括 DeepSeek-R1-Lite-Preview、OpenAI GPT-4o 和 o1-preview 等。對(duì)于開源模型,實(shí)驗(yàn)基于自行實(shí)現(xiàn)的版本進(jìn)行測(cè)試,而閉源模型的結(jié)果則直接引用其官方發(fā)布的數(shù)據(jù),通過這些模型在無檢索輔助下的表現(xiàn),為評(píng)估 Search-o1 的性能提供了基礎(chǔ)參照。
- 檢索增強(qiáng)推理:包含標(biāo)準(zhǔn) RAG 和 RAgent 兩種方式。
標(biāo)準(zhǔn) RAG 針對(duì)原始問題檢索前 10 篇文檔,并將這些文檔與問題一同輸入模型進(jìn)行推理和答案生成,其特點(diǎn)是檢索方式相對(duì)固定。
RAgent 則允許模型自主決定何時(shí)生成檢索查詢,在推理過程中,受 ReAct 啟發(fā),先檢索前 10 個(gè)片段,模型根據(jù)需要進(jìn)一步獲取完整文檔的 URL,這種動(dòng)態(tài)檢索方式更具靈活性,通過與這兩種檢索增強(qiáng)推理方法的對(duì)比,能夠凸顯 Search-o1 在知識(shí)獲取和利用方面的優(yōu)勢(shì)。
4.3 實(shí)驗(yàn)效果
- 復(fù)雜推理任務(wù):在包括 PhD 級(jí)科學(xué)問答(GPQA)、數(shù)學(xué)基準(zhǔn)(如 MATH500、AMC2023、AIME2024)和編碼能力(LiveCodeBench)等復(fù)雜推理任務(wù)中,Search - o1 表現(xiàn)優(yōu)異。
QwQ - 32B 在無檢索的直接推理中就優(yōu)于一些更大規(guī)模模型,展示了 o1-like 長(zhǎng)鏈思維的有效性;
RAgent - QwQ - 32B 憑借自主檢索機(jī)制超越了標(biāo)準(zhǔn) RAG 和直接推理方法;
Search - o1 進(jìn)一步通過文檔內(nèi)推理模塊提升性能,在多數(shù)任務(wù)上取得最佳表現(xiàn),尤其在 GPQA、數(shù)學(xué)和編碼任務(wù)上性能提升顯著。
同時(shí),增加檢索文檔數(shù)量可進(jìn)一步增強(qiáng) Search - o1 的性能,體現(xiàn)了其動(dòng)態(tài)檢索和精煉機(jī)制的高效性。如下圖
- 開放域問答任務(wù):在開放域問答任務(wù)中,直接推理的 LRMs 表現(xiàn)與非推理模型相近,凸顯了知識(shí)不足的問題。檢索增強(qiáng)方法顯著提升了模型在多跳問答任務(wù)上的表現(xiàn),其中 RAgent - QwQ - 32B 表現(xiàn)優(yōu)于標(biāo)準(zhǔn) RAG。Search - o1 在多跳問答任務(wù)上更是超越所有基線方法,有力證明了文檔內(nèi)推理模塊在復(fù)雜問答中的關(guān)鍵作用和有效性。
5. 小結(jié)
Search - o1 框架為大型推理模型在長(zhǎng)時(shí)間推理中面臨的知識(shí)不足難題提供解決方案。它通過自主知識(shí)檢索和精煉整合,顯著提升了推理的準(zhǔn)確性和連貫性,在多種復(fù)雜推理任務(wù)和開放域問答基準(zhǔn)測(cè)試中表現(xiàn)卓越,部分領(lǐng)域甚至超越人類專家。
本文轉(zhuǎn)載自 ??鴻煊的學(xué)習(xí)筆記??,作者: 乘風(fēng)破浪jxj
