超過谷歌搜索,成本猛降80%!阿里開源創(chuàng)新大模型搜索引擎
昨天,阿里巴巴開源了一種創(chuàng)新大模型搜索引擎——ZeroSearch。
ZeroSearch是一種無需與真實(shí)搜索引擎交互即可激勵大模型搜索能力的強(qiáng)化學(xué)習(xí)框架。主要利用了大模型在大規(guī)模預(yù)訓(xùn)練過程中積累的豐富知識,將其轉(zhuǎn)化為一個檢索模塊,能夠根據(jù)搜索查詢生成相關(guān)內(nèi)容。同時,還可以動態(tài)控制生成內(nèi)容的質(zhì)量,這是傳統(tǒng)搜索引擎所不具備的特殊功能。
研究人員在NQ、TriviaQA、PopQA、HotpotQA等7大問答數(shù)據(jù)集上進(jìn)行了綜合評測。結(jié)果顯示,一個70億參數(shù)的監(jiān)督微調(diào)模型使用ZeroSearch后,其搜索能力達(dá)到了33.06;140億參數(shù)的模型則達(dá)到了33.97,超過了谷歌搜索的32.47。
在成本方面,研究人員通過SerpAPI使用谷歌搜索進(jìn)行約64,000次搜索查詢的訓(xùn)練,成本約為586.70美元;而在四個A100GPU上使用140億參數(shù)的大模型進(jìn)行模擬時,成本僅為70.80美元,成本降低了80%以上。
開源地址:https://github.com/Alibaba-nlp/ZeroSearch
笑臉:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
目前,為了解決大模型幻覺以及擴(kuò)大外部知識范圍,檢索增強(qiáng)生成(RAG)已成為標(biāo)配。不過,早期的RAG主要采用基于提示的策略,通過引導(dǎo)大模型進(jìn)行查詢生成、查詢分解和多輪信息檢索來整合外部知識,但這些方法對提示要求較高,且對模型的推理能力依賴較大。
還有研究嘗試通過監(jiān)督微調(diào)、蒙特卡洛樹搜索等方法來增強(qiáng)搜索能力,雖然取得了一定成果,但算力消耗很大,在實(shí)際部署中面臨很多難題。
隨著DeepSeek-R1、o1等模型的出現(xiàn),強(qiáng)化學(xué)習(xí)成為了一項(xiàng)改變模型邏輯推理能力的關(guān)鍵技術(shù)。這些模型完全依賴于獎勵驅(qū)動的學(xué)習(xí),而無需明確的逐步監(jiān)督。
因此,有不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用在大模型搜索中。例如,Search-R1通過強(qiáng)化學(xué)習(xí)自主生成多個搜索查詢,而ReSearch則通過強(qiáng)化學(xué)習(xí)教授模型通過搜索進(jìn)行推理,無需對中間推理步驟進(jìn)行監(jiān)督。但這些方法需要與谷歌等商業(yè)搜索引擎搭配使用才能達(dá)到最佳效果,成本方面非常高。
ZeroSearch則通過強(qiáng)化學(xué)習(xí)激勵大模型的搜索能力,同時避免了與真實(shí)搜索引擎交互帶來的高昂成本和不可控性。
ZeroSearch通過輕量級監(jiān)督微調(diào)將大模型轉(zhuǎn)化為一個檢索模塊。這一過程利用了大模型在大規(guī)模預(yù)訓(xùn)練中積累的豐富知識,使其能夠根據(jù)給定的查詢生成相關(guān)或噪聲文檔。通過調(diào)整提示中的關(guān)鍵詞,模型可以靈活地控制生成文檔的質(zhì)量,從而為后續(xù)的訓(xùn)練提供多樣化的檢索場景。
這種能力是通過收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行標(biāo)注和微調(diào)來實(shí)現(xiàn)的。主要是讓大模型與真實(shí)搜索引擎展開多輪交互,直至得出最終答案。
在此過程中,詳細(xì)記錄下所有交互軌跡,這些軌跡涵蓋了從模型發(fā)起查詢,到搜索引擎返回文檔,以及模型據(jù)此生成最終答案的全過程。接著,對這些交互軌跡進(jìn)行細(xì)致標(biāo)注,將能產(chǎn)生正確答案的交互軌跡標(biāo)記為正樣本,意味著其中檢索到的文檔發(fā)揮了積極作用;而導(dǎo)致錯誤答案的交互軌跡則歸為負(fù)樣本,表明對應(yīng)的檢索文檔屬于干擾信息。
從正樣本和負(fù)樣本交互軌跡中精準(zhǔn)提取查詢-文檔對,以此為基礎(chǔ)對大模型實(shí)施輕量級監(jiān)督微調(diào)。微調(diào)時,研究人員巧妙調(diào)整提示中的少量詞匯,例如,加入“有用信息”“噪聲信息”等,引導(dǎo)大模型學(xué)習(xí)生成不同質(zhì)量的文檔。同時,將輸入問題及其對應(yīng)的答案融入提示內(nèi)容,拓寬大模型的知識邊界。
ZeroSearch還通過引入“課程學(xué)習(xí)機(jī)制”,用于在訓(xùn)練過程中逐步調(diào)整生成文檔的質(zhì)量。其核心思想是,隨著訓(xùn)練的進(jìn)行,逐漸增加任務(wù)的難度,使模型從簡單的檢索場景開始,逐步適應(yīng)更具挑戰(zhàn)性的環(huán)境。
通過一個概率函數(shù)動態(tài)調(diào)整生成噪聲文檔的可能性。在訓(xùn)練初期,模型主要接觸高質(zhì)量的文檔,以便快速學(xué)習(xí)基本的輸出格式和任務(wù)要求。隨著訓(xùn)練的深入,模型逐漸暴露于更多噪聲文檔,這迫使模型不斷提升其推理能力和魯棒性,以應(yīng)對更具挑戰(zhàn)性的檢索任務(wù)。
在強(qiáng)化學(xué)習(xí)的框架下,ZeroSearch采用了多種算法來優(yōu)化模型的搜索策略。這些算法包括近端策略優(yōu)化、組相對策略優(yōu)化等,通過最大化策略模型的期望獎勵來訓(xùn)練模型,同時考慮參考模型和獎勵函數(shù)。
獎勵函數(shù)的設(shè)計(jì)專注于答案的準(zhǔn)確性,采用基于F1分?jǐn)?shù)的獎勵機(jī)制,以平衡精確度和召回率。此外,為了提高訓(xùn)練的穩(wěn)定性,ZeroSearch還引入了損失掩蔽機(jī)制,確保梯度僅針對模型自身的輸出進(jìn)行計(jì)算,從而避免了由于外部生成的文檔標(biāo)記引入的噪聲。
ZeroSearch的訓(xùn)練模板是一個多輪交互模板,明確區(qū)分了模型的推理、搜索和回答階段。在推理階段,模型在其內(nèi)部進(jìn)行思考,并在<think>...</think>標(biāo)簽內(nèi)闡述其推理過程。如果模型認(rèn)為需要額外的信息,它會在<search>...</search>標(biāo)簽內(nèi)發(fā)出搜索查詢。檢索到的文檔由模擬搜索引擎生成,并在<information>...</information>標(biāo)簽內(nèi)返回給模型。
最后,大模型在<answer>...</answer>標(biāo)簽內(nèi)提供最終答案。這種結(jié)構(gòu)化的模板不僅提高了模型的透明度,還增強(qiáng)了其在實(shí)際應(yīng)用中的可靠性。