自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷

發(fā)布于 2025-3-31 01:55
瀏覽
0收藏

當(dāng)前,AI搜索人工智能領(lǐng)域主要由Perplexity、OpenAI DeepResearch等部分閉源搜索AI方案主導(dǎo),閉源特性限制了透明度與創(chuàng)新。本文推出的ODS作為開源方案,填補(bǔ)了開源搜索AI的性能空白,促進(jìn)該領(lǐng)域的社區(qū)發(fā)展、創(chuàng)新與創(chuàng)業(yè),且在基準(zhǔn)測試中展現(xiàn)出超越部分閉源方案的性能,具有重要實(shí)用價(jià)值。

文章推出開放深度搜索(ODS),旨在縮小專有搜索AI解決方案與開源同類產(chǎn)品的差距。ODS由開放搜索工具和開放推理智能體組成,可與用戶選定的基礎(chǔ)大語言模型協(xié)同工作。文中詳細(xì)介紹了這兩個(gè)組件的工作原理,通過在SimpleQA和FRAMES基準(zhǔn)測試上的實(shí)驗(yàn),表明ODS與DeepSeek-R1結(jié)合使用時(shí),性能接近甚至超越現(xiàn)有先進(jìn)基線模型,實(shí)現(xiàn)了搜索AI領(lǐng)域的先進(jìn)性能 。

摘要&摘要

我們推出開放深度搜索(Open Deep Search, ODS),旨在縮小諸如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview等專有搜索人工智能解決方案與開源同類產(chǎn)品之間日益擴(kuò)大的差距。ODS的主要?jiǎng)?chuàng)新之處在于,通過推理智能體增強(qiáng)最新開源大語言模型(LLMs)的推理能力,這些智能體能夠明智地使用網(wǎng)絡(luò)搜索工具來回答查詢。具體而言,ODS由兩個(gè)組件構(gòu)成,它們可與用戶選擇的基礎(chǔ)大語言模型協(xié)同工作:開放搜索工具(Open Search Tool)和開放推理智能體(Open Reasoning Agent)。開放推理智能體負(fù)責(zé)解釋給定任務(wù),并通過編排一系列行動(dòng)來完成任務(wù),這些行動(dòng)包括調(diào)用工具,其中之一便是開放搜索工具。開放搜索工具是一種新型網(wǎng)絡(luò)搜索工具,其性能優(yōu)于專有同類產(chǎn)品。與強(qiáng)大的開源推理大語言模型(如DeepSeek-R1)相結(jié)合,ODS在兩個(gè)基準(zhǔn)測試(SimpleQA和FRAMES)上的表現(xiàn)接近甚至有時(shí)超越了現(xiàn)有的最先進(jìn)基線模型。例如,在FRAMES評(píng)估基準(zhǔn)上,ODS的準(zhǔn)確率比最近發(fā)布的GPT-4o Search Preview這一現(xiàn)有最佳基線模型提高了9.7%。ODS是一個(gè)通用框架,可無縫增強(qiáng)任何大語言模型(如在SimpleQA上達(dá)到82.4%準(zhǔn)確率、在FRAMES上達(dá)到30.1%準(zhǔn)確率的DeepSeek-R1)的搜索和推理能力,以實(shí)現(xiàn)最先進(jìn)的性能:在SimpleQA上達(dá)到88.3%的準(zhǔn)確率,在FRAMES上達(dá)到75.3%的準(zhǔn)確率。

?研究背景:搜索人工智能將大語言模型的檢索增強(qiáng)生成能力與實(shí)時(shí)信息檢索結(jié)合,但該領(lǐng)域進(jìn)展主要由專有解決方案主導(dǎo),開源替代方案存在性能差距,且限制了領(lǐng)域的透明度、創(chuàng)新和創(chuàng)業(yè)發(fā)展。

?技術(shù)創(chuàng)新:推出開放深度搜索(ODS)這一開源AI搜索解決方案,包含開放搜索工具和開放推理智能體。開放搜索工具改進(jìn)了搜索流程,開放推理智能體提升了推理能力,使ODS在多個(gè)基準(zhǔn)測試中達(dá)到或超越先進(jìn)閉源方案的性能,促進(jìn)搜索AI領(lǐng)域開源生態(tài)發(fā)展。

?實(shí)現(xiàn)設(shè)計(jì):

開放搜索工具:通過查詢改寫生成新查詢,從搜索引擎結(jié)果頁面API檢索相關(guān)上下文并格式化處理,還通過抓取網(wǎng)頁、嵌入段落塊等操作增強(qiáng)大語言模型的上下文。

開放推理智能體:ODS-v1基于思維鏈和ReAct智能體,結(jié)合思維鏈自洽性、少樣本學(xué)習(xí)等技術(shù);ODS-v2基于代碼鏈和CodeAct智能體,通過生成可執(zhí)行Python代碼調(diào)用工具。

?實(shí)驗(yàn)結(jié)果:在SimpleQA和FRAMES基準(zhǔn)測試中,ODS與DeepSeek-R1結(jié)合,ODS-v1在SimpleQA上準(zhǔn)確率達(dá)87.7%、FRAMES上達(dá)56.7%;ODS-v2在SimpleQA上準(zhǔn)確率達(dá)88.3%、FRAMES上達(dá)75.3%,超過Perplexity等部分閉源搜索AI,在FRAMES上超越GPT-4o Search Preview。

1. 引言

搜索人工智能,即搜索引擎增強(qiáng)的大語言模型(LLMs),它將大語言模型的檢索增強(qiáng)生成(RAG)能力(例如參考文獻(xiàn)[9])與從搜索引擎進(jìn)行的實(shí)時(shí)信息檢索相結(jié)合。這種整合解決了大語言模型靜態(tài)知識(shí)庫的問題,使其能夠提供最新且與上下文相關(guān)的回復(fù) 。最近的研究(如參考文獻(xiàn)[27])表明,將搜索引擎結(jié)果頁面(SERP)應(yīng)用程序編程接口(API)作為上下文輸入到大語言模型中,其效果優(yōu)于諸如自詢問(self-ask)等先前方法。

搜索人工智能領(lǐng)域的進(jìn)展主要由專有解決方案主導(dǎo),如谷歌搜索、必應(yīng)搜索、ChatGPT搜索和Grok。特別是Perplexity AI(參考文獻(xiàn)[21])在這個(gè)市場上表現(xiàn)出色,甚至對(duì)成熟的行業(yè)領(lǐng)導(dǎo)者構(gòu)成了威脅。然而,這種閉源解決方案限制了透明度、創(chuàng)新和創(chuàng)業(yè)。為了培育搜索人工智能開發(fā)者社區(qū)、利用集體智慧、促進(jìn)創(chuàng)新并鼓勵(lì)創(chuàng)業(yè),我們推出了開放深度搜索(ODS),這是一種開源人工智能搜索解決方案,在基準(zhǔn)評(píng)估中實(shí)現(xiàn)了最先進(jìn)的性能,與最佳閉源替代方案相匹配甚至超越它們。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

表1:所提出的開源搜索框架ODS,與開源推理大語言模型DeepSeek-R1(參考文獻(xiàn)[4])一起使用時(shí),在FRAMES(參考文獻(xiàn)[8])和SimpleQA(參考文獻(xiàn)[30])這兩個(gè)流行的事實(shí)性評(píng)估基準(zhǔn)上,其性能超過了Perplexity(參考文獻(xiàn)[21])、Perplexity Sonar Reasoning Pro(參考文獻(xiàn)[22])等閉源的最先進(jìn)搜索人工智能解決方案。與GPT4o Search Preview相比,ODS-v2在FRAMES準(zhǔn)確率上有顯著提升,但在SimpleQA準(zhǔn)確率上略遜一籌。ODS-v1使用基于ReAct的智能體(2.2.1節(jié)),ODS-v2使用基于CodeAct的智能體(2.2.2節(jié))。

Perplexity AI有兩款提供API訪問的搜索人工智能產(chǎn)品:默認(rèn)的Perplexity(參考文獻(xiàn)[21])和專為復(fù)雜推理任務(wù)定制的Perplexity Sonar Reasoning Pro(參考文獻(xiàn)[22])。表1展示了它們在兩個(gè)流行的評(píng)估基準(zhǔn)SimpleQA(參考文獻(xiàn)[30])和FRAMES(參考文獻(xiàn)[8])上的性能。值得注意的是,所提出的兩個(gè)版本的開放深度搜索(與開源的DeepSeek-R1模型一起使用時(shí))均優(yōu)于Perplexity AI的旗艦搜索人工智能產(chǎn)品。另一個(gè)重要的基線模型是OpenAI于2025年3月11日發(fā)布的專為搜索人工智能定制的GPT-4o Search Preview(參考文獻(xiàn)[17])。開放深度搜索的第二個(gè)版本,即ODS-v2+DeepSeek-R1,在FRAMES基準(zhǔn)上超越了GPT-4o Search Preview,在SimpleQA基準(zhǔn)上幾乎與之持平。為了實(shí)現(xiàn)這種最先進(jìn)的性能,我們在開放深度搜索中進(jìn)行了兩項(xiàng)創(chuàng)新:開放搜索工具和開放推理智能體。

?開放搜索工具:Perplexity和OpenAI的搜索解決方案都是閉源產(chǎn)品。Perplexity的開源替代方案,如OpenPerplex(參考文獻(xiàn)[19])和Perplexica(參考文獻(xiàn)[20]),是開源搜索工具,它們將輸出進(jìn)行總結(jié)并輸入到大語言模型中,以回答感興趣的查詢。然而,這些開源搜索工具存在一些弱點(diǎn),仍有很大的改進(jìn)空間。首先,OpenPerplex和Perplexica主要將原始的搜索引擎結(jié)果頁面(SERP)結(jié)果作為上下文傳遞給大語言模型。此外,它們根據(jù)與用戶查詢的相關(guān)性對(duì)片段進(jìn)行分塊和重新排序。相比之下,我們的方法采用了更復(fù)雜的搜索過程,我們稱之為開放搜索工具(將在2.1節(jié)詳細(xì)解釋)。具體來說,我們在必要時(shí)重新表述查詢,從排名前N的片段中提取上下文,并應(yīng)用分塊和重新排序來過濾掉相關(guān)性低于閾值的內(nèi)容。這確保了包含所有相關(guān)的搜索結(jié)果上下文。此外,我們針對(duì)維基百科、arXiv和PubMed等主要API實(shí)施了自定義網(wǎng)站處理。

?開放推理智能體:如表1所示,我們提供兩種版本的開放推理智能體:一種基于ReAct智能體(參考文獻(xiàn)[33]),另一種基于CodeAct智能體(參考文獻(xiàn)[14])。開放推理智能體的目標(biāo)是解釋查詢、評(píng)估檢索到的上下文,并使用適當(dāng)?shù)墓ぞ撸òㄎ覀兲峁┑挠糜诰W(wǎng)絡(luò)搜索的開放搜索工具)來回答查詢。詳細(xì)內(nèi)容請(qǐng)參考2.2節(jié)。

2. 開放深度搜索(ODS)

開放深度搜索(ODS)是一個(gè)即插即用的框架,用戶可以無縫插入他們選擇的任何基礎(chǔ)大語言模型,既可以是開源大語言模型,也可以通過API訪問閉源大語言模型。在我們的實(shí)驗(yàn)中,我們將ODS與Llama3.1-70B模型或DeepSeek-R1模型結(jié)合使用。ODS由兩部分組成:開放搜索工具和開放推理智能體,這兩部分都使用基礎(chǔ)大語言模型。開放搜索工具是我們用于搜索和處理來自互聯(lián)網(wǎng)信息的開源工具,將在2.1節(jié)中解釋;開放推理智能體是我們的開源智能體,它可以通過訪問工具來回答查詢,將在2.2節(jié)中解釋。

我們?yōu)殚_放推理智能體提供兩種解決方案:一種使用ReAct智能體(我們將其稱為版本一ODS-v1),另一種使用CodeAct智能體(我們將其稱為版本二ODS-v2)。包含這兩個(gè)版本ODS的開源代碼庫可在https://github.com/sentient-agi/OpenDeepSearch上找到。我們使用術(shù)語“ODS-v?+基礎(chǔ)模型”來指代ODS的特定實(shí)例。例如,ODS-v1+Llama3.1-70B指的是ODS的第一個(gè)版本,它使用ReAct智能體并以Llama3.1-70B作為基礎(chǔ)模型;ODS-v2+DeepSeekR1指的是ODS的第二個(gè)版本,它使用CodeAct智能體并以DeepSeek-R1作為基礎(chǔ)模型。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖1:用戶可以選擇插入他們選擇的任何基礎(chǔ)大語言模型,并利用開放深度搜索(ODS)開源框架的優(yōu)勢。ODS由兩個(gè)組件組成:開放搜索工具和開放推理智能體。查詢首先輸入到開放推理智能體中,開放推理智能體編排可用的工具集來解釋和回答查詢。我們設(shè)計(jì)的開放搜索工具是最重要的工具之一,它從網(wǎng)絡(luò)上檢索的多個(gè)來源提供高質(zhì)量的上下文。在我們的實(shí)驗(yàn)中,我們使用Llama3.1-70B和DeepSeek-R1作為基礎(chǔ)模型。

2.1 開放搜索工具

我們提供的開放搜索工具在保持對(duì)可擴(kuò)展開源系統(tǒng)承諾的同時(shí),改進(jìn)了搜索引擎增強(qiáng)大語言模型領(lǐng)域的最新進(jìn)展(參考文獻(xiàn)[27])。特別是,我們的方法重新審視了傳統(tǒng)方法在查詢、檢索和增強(qiáng)流程中的不同組件。開放搜索工具以查詢?yōu)檩斎?,并生成一個(gè)上下文,該上下文由網(wǎng)絡(luò)搜索的相關(guān)段落組成,用于輸入到基礎(chǔ)大語言模型中。開放搜索工具的質(zhì)量對(duì)于ODS的成功至關(guān)重要,我們將在第3節(jié)和附錄A中通過示例展示這一點(diǎn)。

2.1.1 查詢改寫

我們搜索流程的第一步是接收原始用戶查詢,并生成k個(gè)保持原始上下文的新改寫查詢。這一步的必要性源于原始查詢的語義結(jié)構(gòu)與為提供滿意答案所需的潛在上下文之間的差距。例如,用戶可能想知道“如何讓我的網(wǎng)絡(luò)更快”,然而,谷歌搜索可能無法給出令人滿意的結(jié)果,因?yàn)樵摬樵儽旧磉^于寬泛,且隱含的上下文可能未被涵蓋。查詢改寫器彌補(bǔ)了寬泛查詢與隱含上下文之間的差距,并會(huì)生成其他查詢,如“如何增強(qiáng)Wi-Fi信號(hào)”、“如何增加帶寬”和“如何降低延遲”。我們發(fā)現(xiàn)這一步對(duì)于提高檢索上下文的覆蓋范圍和多樣性,進(jìn)而提高我們系統(tǒng)的整體性能至關(guān)重要。

2.1.2 檢索

搜索流程的第二步是從搜索引擎結(jié)果頁面API(SERP)檢索相關(guān)上下文。從API調(diào)用檢索到的結(jié)果隨后被格式化、處理,并插入到大語言模型的上下文中。我們的格式化過程受到FreshPrompt(參考文獻(xiàn)[27])提示格式的啟發(fā),我們在每個(gè)片段中包含每個(gè)搜索結(jié)果返回的元數(shù)據(jù),如標(biāo)題、URL、描述和發(fā)布日期(如果可用)。此外,當(dāng)搜索上下文中包含沖突信息時(shí),我們提示大語言模型優(yōu)先考慮可靠來源,如政府機(jī)構(gòu)、教育機(jī)構(gòu)和知名研究機(jī)構(gòu)。

2.1.3 增強(qiáng)

作為我們流程中的一個(gè)額外步驟,我們選擇通過從SERP API檢索到的排名前m的鏈接中添加相關(guān)段落來增強(qiáng)大語言模型的上下文。具體來說,我們抓取相關(guān)網(wǎng)頁,嵌入段落塊,并根據(jù)與用戶查詢相關(guān)的重新排名分?jǐn)?shù)從每個(gè)網(wǎng)頁中檢索排名前n的相關(guān)段落。這使得上下文能夠?yàn)樾枰吧疃取蓖评淼牟樵兲峁┥钊氲拇鸢浮?/p>

2.2 開放推理智能體

開放推理智能體以用戶的查詢?yōu)檩斎?,并使用基礎(chǔ)大語言模型和各種工具生成答案。上一節(jié)中的開放搜索工具是開放推理智能體使用的關(guān)鍵工具之一。我們?yōu)橛脩籼峁﹥煞N解決方案:一種基于思維鏈(Chain-of-thought)和ReAct智能體(其最終的端到端系統(tǒng)稱為ODS-v1),另一種基于代碼鏈(Chain-of-code)和CodeAct智能體(其最終的端到端系統(tǒng)稱為ODS-v2)。

2.2.1 基于ReAct智能體的ODS-v1

我們的第一個(gè)開放推理智能體基于思維鏈(CoT)推理(參考文獻(xiàn)[6, 31])和ReAct(參考文獻(xiàn)[33])智能體。

?思維鏈(CoT)提示:思維鏈提示通過鼓勵(lì)模型在回答前停下來思考,激發(fā)了大語言模型智能體令人印象深刻的推理能力(參考文獻(xiàn)[28, 3])。零樣本思維鏈(Zero-shot CoT)只需在輸入到模型的提示末尾附加“讓我們一步一步地思考?!边@句話(參考文獻(xiàn)[6])。通過將思維鏈與少樣本提示相結(jié)合,結(jié)果會(huì)進(jìn)一步改善,我們采用了這種方法。少樣本思維鏈(Few-shot CoT)是指在提示中附加幾個(gè)思維鏈?zhǔn)纠?,作為一種上下文學(xué)習(xí)形式(參考文獻(xiàn)[31])。

?思維鏈自洽性(CoT-SC):思維鏈自洽性進(jìn)一步改進(jìn)了簡單思維鏈中使用的貪心解碼技術(shù)。它不是簡單地采用單一的貪心推理路徑,而是對(duì)多個(gè)不同的推理路徑進(jìn)行采樣,并對(duì)它們進(jìn)行比較,然后從所有路徑中選擇最一致的答案。這在包括算術(shù)和問答任務(wù)在內(nèi)的多個(gè)推理任務(wù)中,相較于簡單的思維鏈有了顯著的改進(jìn)(參考文獻(xiàn)[29])。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

?ReAct中的少樣本學(xué)習(xí):ReAct中的少樣本學(xué)習(xí)利用一小部分示范示例來指導(dǎo)模型的推理和行動(dòng)模式。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖2:ODS-v1中使用的ReAct提示結(jié)構(gòu)示意圖

?動(dòng)態(tài)少樣本學(xué)習(xí):ReAct通過基于示例的提示實(shí)現(xiàn)少樣本學(xué)習(xí),其中一小部分示范示例指導(dǎo)模型的推理和行動(dòng)模式。為了優(yōu)化提示效率,動(dòng)態(tài)少樣本選擇系統(tǒng)利用向量相似性匹配為每個(gè)任務(wù)檢索最相關(guān)的示例,在保持性能的同時(shí)降低提示復(fù)雜度。我們開展了一項(xiàng)社區(qū)活動(dòng),以設(shè)計(jì)用于我們少樣本模板的200個(gè)ReAct提示。參與者被要求根據(jù)自己的推理直覺進(jìn)行提示設(shè)計(jì),從而產(chǎn)生了廣泛的方法。我們?yōu)樗麄兲峁┝嗣枋鯮eAct提示結(jié)構(gòu)(思想/行動(dòng)/行動(dòng)輸入/觀察)的模板以及測試集中的一些示例查詢。我們確保他們無法訪問基準(zhǔn)測試本身。由于ReAct提示中代表了多樣化的思維過程,這項(xiàng)活動(dòng)顯著提高了我們ReAct智能體的性能。附錄B中提供了最終少樣本提示的示例。

?工具集成:該框架與外部工具集成,實(shí)現(xiàn)了更復(fù)雜的問題解決能力。我們在ODS-v1中使用了三種工具:

網(wǎng)絡(luò)搜索:2.1節(jié)中的開放搜索工具。

數(shù)學(xué)處理:與Wolfram Alpha API集成,用于處理算術(shù)和復(fù)雜的數(shù)學(xué)計(jì)算。

繼續(xù)思考:使用基礎(chǔ)大語言模型繼續(xù)推理,以分解復(fù)雜查詢。

?ODS-v1:我們在ODS-v1的開放推理智能體中集成了思維鏈一致性采樣、ReAct智能體框架和少樣本提示。對(duì)于任何查詢,我們首先運(yùn)行開放搜索工具,其產(chǎn)生的上下文以及原始查詢被輸入到ReAct智能體中。ReAct智能體使用由結(jié)構(gòu)化步驟組成的提示:<思考>、<行動(dòng)>、<行動(dòng)輸入>和<觀察>,以<問題>開始,以<最終答案>結(jié)束。這些步驟會(huì)迭代,直到返回響應(yīng),但如果信息不足,智能體可能不會(huì)返回答案。ReAct智能體有三個(gè)行動(dòng)選項(xiàng)。“繼續(xù)思考”(<行動(dòng)>=繼續(xù)思考)用于擴(kuò)展復(fù)雜問題分解的推理過程?!八阉鳌保?lt;行動(dòng)>=搜索互聯(lián)網(wǎng))利用OpenPerplex查找事實(shí)信息,如日期、名稱和學(xué)術(shù)內(nèi)容。“計(jì)算”(<行動(dòng)>=計(jì)算)連接到Wolfram Alpha API,用于處理基礎(chǔ)模型通常難以處理的數(shù)值計(jì)算。

當(dāng)ReAct智能體無法提供答案時(shí)(由Llama - 3 - 8B判斷模型確定),系統(tǒng)會(huì)默認(rèn)使用思維鏈自洽性方法。這個(gè)備用過程會(huì)對(duì)大語言模型進(jìn)行r次調(diào)用,對(duì)相似的響應(yīng)進(jìn)行聚類,并從最大的聚類中隨機(jī)返回一個(gè)響應(yīng),最終得出最終答案。

在以下取自FRAMES基準(zhǔn)測試的示例中,我們可以觀察到ODS - v1相較于諸如Perplexity的Sonar Reasoning Pro等最先進(jìn)的封閉模型在推理方面的優(yōu)勢。ODS和Sonar Reasoning Pro模型都對(duì)潛在答案感到困惑。然而,ODS正確識(shí)別出112英寸為正確答案,并使用Wolfram - Alpha工具進(jìn)行了額外檢查,按要求將答案轉(zhuǎn)換為2,845毫米。相反,Sonar Reasoning Pro只是給出了2,858毫米的錯(cuò)誤答案。

FRAMES中的一個(gè)問題:1975年勒諾·馬歇爾詩歌獎(jiǎng)(Lenore Marshall Poetry Prize)的獲得者,如果在魯皮·考爾(Rupi Kaur)出版《牛奶與蜂蜜》(Milk and Honey)一書時(shí)還活著,他/她會(huì)是多少歲?正確答案:90歲

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖3:FRAMES中的一個(gè)示例問題和答案,ODS - v1使用Wolfram計(jì)算器工具準(zhǔn)確計(jì)算年齡差,得出正確答案90歲。相反,Perplexity采用了錯(cuò)誤的推理路徑,報(bào)告年齡為79歲。

2.2.2 基于CodeAct智能體的ODS - v2

?代碼鏈(CoC):雖然思維鏈(CoT)在語義推理中已被證明是有效的,但在處理需要精確數(shù)值或符號(hào)計(jì)算的任務(wù)時(shí),它常常遇到挑戰(zhàn)。為了解決這些限制,代碼鏈(參考文獻(xiàn)[11])(CoC)利用大語言模型的代碼編寫能力來生成和執(zhí)行代碼或偽代碼,以解決算法和語義問題。這種方法不僅拓寬了大語言模型能夠處理的推理問題的范圍,還提高了它們在解決復(fù)雜任務(wù)時(shí)的準(zhǔn)確性。在各種基準(zhǔn)測試中,代碼鏈的表現(xiàn)優(yōu)于傳統(tǒng)的思維鏈方法,這突出了將代碼生成和執(zhí)行集成到大語言模型中以實(shí)現(xiàn)更強(qiáng)大推理能力的潛力。

?CodeAct:最近的進(jìn)展(參考文獻(xiàn)[14])表明,與傳統(tǒng)的基于JSON的方法相比,生成可執(zhí)行的Python代碼來調(diào)用工具在性能上有顯著提升。特別是,大語言模型天生擅長使用代碼壓縮任務(wù)的行動(dòng)空間。此外,代碼作為一種表示模式,比基于JSON的方法更自然地適合采取行動(dòng),因?yàn)樗梢愿菀椎剡M(jìn)行組合、模塊化和泛化。在ODS - v2中,我們調(diào)整了搜索工具,使其能夠與SmolAgents(參考文獻(xiàn)[25])的框架協(xié)同工作,因?yàn)樵摽蚣茉试S定制且易于分發(fā)。我們最基本的由搜索驅(qū)動(dòng)的推理智能體使用(參考文獻(xiàn)[25])CodeAgent(CodeAct的一個(gè)變體),并可訪問我們的搜索工具,如圖4所示。ODS - v2的更高級(jí)迭代涉及多個(gè)工具和智能體協(xié)同工作,以解決可能涉及或不涉及搜索的更復(fù)雜任務(wù)。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖4:ODS - v2中的CodeAct智能體回答一個(gè)多跳問題

3. 實(shí)驗(yàn)

基線模型:我們將ODS與Perplexity(參考文獻(xiàn)[21])中流行的閉源搜索人工智能(其默認(rèn)搜索人工智能,我們稱為Perplexity,以及一種先進(jìn)的推理搜索人工智能,稱為Perplexity Sonar Reasoning Pro(參考文獻(xiàn)[22]))以及OpenAI的最先進(jìn)搜索人工智能GPT - 4o Search Preview(參考文獻(xiàn)[17])進(jìn)行比較。這些是可訪問搜索引擎的最先進(jìn)人工智能解決方案。作為單獨(dú)的基線模型,我們還將其與大語言模型進(jìn)行比較:GPT - 4o、Llama - 3.1 - 70B和DeepSeekR1。盡管這些模型無法訪問互聯(lián)網(wǎng),但我們在表1中展示了具有推理能力的大語言模型在我們的FRAMES(參考文獻(xiàn)[8])和SimpleQA(參考文獻(xiàn)[30])評(píng)估基準(zhǔn)測試中表現(xiàn)出人意料地好。

3.1 兩個(gè)評(píng)估基準(zhǔn)的數(shù)值分析:FRAMES和SimpleQA

我們使用兩個(gè)評(píng)估基準(zhǔn):FRAMES(參考文獻(xiàn)[8])和SimpleQA(參考文獻(xiàn)[30])。最初,SimpleQA旨在在不進(jìn)行網(wǎng)絡(luò)瀏覽的情況下測試前沿模型的事實(shí)性,而FRAMES旨在測試模型在單跳和多跳查詢中的事實(shí)性和檢索能力,在FRAMES中會(huì)給出真實(shí)的維基百科文章。在我們的場景中,我們使用這兩個(gè)基準(zhǔn)來評(píng)估可訪問互聯(lián)網(wǎng)的搜索人工智能的準(zhǔn)確性。

3.1.1 FRAMES的數(shù)值分析

FRAMES(事實(shí)性、檢索和推理測量集)數(shù)據(jù)集(參考文獻(xiàn)[8])包含824個(gè)具有挑戰(zhàn)性的多跳問題,需要整合來自維基百科的多個(gè)來源的信息。參考文獻(xiàn)[8]中報(bào)道的最佳單查詢搜索方法,在使用來自維基百科數(shù)據(jù)轉(zhuǎn)儲(chǔ)中單個(gè)查詢檢索到的4個(gè)具有最高BM25分?jǐn)?shù)(參考文獻(xiàn)[24])的文檔時(shí),Gemini - Pro1.5 - 0514(2024年5月14日發(fā)布)的得分為47.4%。在表2中,ODS - v1 + DeepSeek - R1在每個(gè)查詢使用一次網(wǎng)絡(luò)搜索的相同條件下達(dá)到了56.7%的準(zhǔn)確率。這比最先進(jìn)的推理大語言模型(如DeepSeek - R1和GPT - 4o)以及搜索人工智能(如Perplexity和Perplexity Sonar Reasoning Pro)有了顯著提高,如表1所示。基于CodeAct的ODS - v2 + DeepSeek - R1智能體選擇進(jìn)行更多搜索,因此在FRAMES上平均每個(gè)查詢使用3.39次搜索,達(dá)到了75.3%的準(zhǔn)確率。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

有了我們的推理智能體,ODS - v1 + DeepSeek - R1可以選擇進(jìn)行更多搜索,但它沒有這樣做。另一方面,當(dāng)ODS - v1使用Llama3.1 - 70B作為基礎(chǔ)模型時(shí),它會(huì)進(jìn)行更多的網(wǎng)絡(luò)搜索以提高準(zhǔn)確率,如表中所示,圖6中的示例也對(duì)此進(jìn)行了說明。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

表2:在兩個(gè)基準(zhǔn)測試中,ODS平均每個(gè)查詢進(jìn)行網(wǎng)絡(luò)搜索的次數(shù)。ODS會(huì)根據(jù)第一次搜索結(jié)果的質(zhì)量和模型輸出進(jìn)行調(diào)整,僅在必要時(shí)謹(jǐn)慎地進(jìn)行額外搜索。

參考文獻(xiàn)[8]中報(bào)道,通過多次網(wǎng)絡(luò)搜索可以提高FRAMES上的準(zhǔn)確率。例如,Gemini - Pro - 1.5 - 0514通過使用重新表述的提示運(yùn)行搜索引擎15次,可以達(dá)到與ODS - v1 + DeepSeek - R1相似的性能。然而,這種多步多搜索方法效率低下,因?yàn)樗还苁纠碾y度或模型輸出的正確性如何,都固定進(jìn)行15次搜索。這是我們智能體框架的動(dòng)機(jī)之一,在我們的智能體框架中,我們的推理智能體會(huì)根據(jù)初始搜索質(zhì)量和模型輸出自適應(yīng)地選擇是否再次搜索。這在表2中有所體現(xiàn),當(dāng)ODS - v1與較弱的Llama3.1基礎(chǔ)模型配對(duì)時(shí),它會(huì)進(jìn)行更多的網(wǎng)絡(luò)搜索。圖6中的示例展示了ODS - v1在初始搜索不足時(shí)如何謹(jǐn)慎地使用搜索功能。同樣,對(duì)于ODS - v2,它在SimpleQA上選擇進(jìn)行較少的網(wǎng)絡(luò)搜索,因?yàn)镾impleQA是一個(gè)相對(duì)簡單的任務(wù),只需要一個(gè)正確的信息來源,而FRAMES是一個(gè)更復(fù)雜的任務(wù),需要多個(gè)信息來源。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖6:FRAMES中的一個(gè)示例問題和答案,ODS - v1 + Llama3.1 - 70B意識(shí)到需要進(jìn)行第二次搜索,再次搜索以找到國王克里姆森主唱的出生年份,并正確回答“1946年”。另一方面,Perplexity(參考文獻(xiàn)[21])無法確定國王克里姆森樂隊(duì)的主唱。

3.1.2 SimpleQA的數(shù)值分析

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖7:SimpleQA中的一個(gè)示例問題和答案,ODS-v1利用開放搜索工具檢索到的高質(zhì)量上下文,通過交叉核對(duì)多個(gè)來源,確定了正確答案。而Perplexity Sonar Reasoning Pro在搜索中未能檢索到相關(guān)信息。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

圖8:SimpleQA中的一個(gè)示例問題和答案,開放推理智能體正確識(shí)別出112英寸為正確答案,并使用WolframAlpha API進(jìn)行了額外檢查,將答案轉(zhuǎn)換為2845毫米。相反,Perplexity Sonar Reasoning Pro在112.5英寸和112英寸這兩個(gè)潛在答案之間產(chǎn)生了混淆。我們在此處簡化了回復(fù),完整回復(fù)請(qǐng)參考附錄A。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

在表3中,我們調(diào)查了其他來源報(bào)道的SimpleQA準(zhǔn)確率結(jié)果,以及ODS - v1 + Llama3.1 - 70B、ODS - v1 + DeepSeek - R1和ODS - v2 + DeepSeek - R1的結(jié)果。借助DeepSeek - R1的推理能力,ODS - v1 + DeepSeek - R1比ODS - v1 + Llama3.1 - 70B有了改進(jìn)。還有一些更新的閉源解決方案,如GPT - 4o Search Preview(參考文獻(xiàn)[17])、Exa(參考文獻(xiàn)[1])、Linkup(參考文獻(xiàn)[15])和Perplexity Deep Research(參考文獻(xiàn)[23]),聲稱在SimpleQA上取得了更高的分?jǐn)?shù)。ODS提供了一個(gè)開源解決方案,可以顯著縮小開源搜索人工智能解決方案與閉源解決方案之間的差距。

3.2 ODS的消融研究

在表4中,我們對(duì)基于ReAct的ODS - v1開放推理智能體的各個(gè)部分進(jìn)行了消融研究。Llama3.1-70B模型單獨(dú)在SimpleQA中隨機(jī)選擇的500個(gè)示例子集上(為了提高效率,僅在本節(jié)中使用了子采樣評(píng)估數(shù)據(jù)集)的準(zhǔn)確率為21.2%,在FRAMES上的準(zhǔn)確率為34.3% 。使用我們的開放搜索工具(在表中簡稱為Search)后,SimpleQA的準(zhǔn)確率大幅提高到82.4%,但FRAMES的性能卻下降到27.6%。我們的開放推理智能體有兩個(gè)部分:帶有自洽性解碼的思維鏈ReAct(CoT-ReAct)和少樣本提示(FewShot)。逐個(gè)添加這些組件后,在子采樣的SimpleQA和FRAMES上都逐漸取得了性能提升。這表明ODS-v1的每個(gè)組件都對(duì)最終實(shí)現(xiàn)的性能有貢獻(xiàn)。最后,通過將基礎(chǔ)模型從Llama3.1-70B替換為推理能力更強(qiáng)的DeepSeek-R1,我們展示了ODS-v1能夠利用大語言模型的推理能力來實(shí)現(xiàn)更好的性能。

Open Deep Search:開源推理智能體實(shí)現(xiàn)深度搜索,打破閉源壟斷-AI.x社區(qū)

4. 結(jié)論

為了彌合諸如Perplexity Sonar Reasoning Pro(參考文獻(xiàn)[22])和GPT-4o Search Preview(參考文獻(xiàn)[17])等最先進(jìn)的專有搜索人工智能解決方案與它們的開源替代方案(參考文獻(xiàn)[27, 19, 20])之間日益擴(kuò)大的差距,我們推出了開放深度搜索(ODS)。這種開源搜索人工智能可以以即插即用的方式與用戶選擇的任何大語言模型無縫結(jié)合。這使得ODS能夠利用推理大語言模型的最新進(jìn)展,實(shí)現(xiàn)越來越高的準(zhǔn)確率。

當(dāng)使用DeepSeek-R1時(shí),ODS在FRAMES基準(zhǔn)測試上可以達(dá)到75.3%的準(zhǔn)確率,比2025年3月11日發(fā)布的GPT-4o Search Preview高出10%(表1)。在另一個(gè)基準(zhǔn)測試SimpleQA上,ODS顯著縮小了開源和閉源解決方案之間的差距。這一重要的里程碑是通過ODS的兩個(gè)組件:開放搜索工具和開放推理智能體之間的協(xié)同作用實(shí)現(xiàn)的。

? 我們推出開放搜索工具,從互聯(lián)網(wǎng)提供高質(zhì)量的檢索結(jié)果,供ODS中的推理智能體框架作為工具使用。

? 開放推理智能體解釋給定的任務(wù),并通過調(diào)用可用的工具來完成任務(wù),這些工具包括搜索工具(我們提出的開放搜索工具)、計(jì)算器(由Wolfram Alpha API提供)、思考(使用提供的基礎(chǔ)大語言模型)和代碼解釋器(我們使用Python解釋器)。

與最新的強(qiáng)大推理大語言模型一起,構(gòu)成ODS的這兩個(gè)開源組件確保了我們在搜索方面實(shí)現(xiàn)最先進(jìn)的性能。開放搜索工具相對(duì)于專有同類產(chǎn)品的優(yōu)勢在例如圖7和附錄A中的其他示例中得到了展示。開放推理智能體的優(yōu)勢在例如圖6和圖8以及附錄A中的其他示例中得到了展示。

我們提供了兩種版本的開放推理智能體:一種基于ReAct,另一種基于CodeAct。我們公開發(fā)布所有開源實(shí)現(xiàn),并邀請(qǐng)開源社區(qū)在我們的工作基礎(chǔ)上進(jìn)行構(gòu)建和進(jìn)一步創(chuàng)新,從我們的最先進(jìn)搜索人工智能解決方案開始。

參考資料

? 標(biāo)題:Open Deep Search: Democratizing Search with Open-Source Reasoning Agents

? 作者:Salaheddin Alzubi?、Creston Brooks?、Purva Chiniya?、Edoardo Contente?、Chiara von Gerlach?、Lucas Irwin?、Yihan Jiang?、Arda Kaz??、Windsor Nguyen??、Sewoong Oh??、Himanshu Tyagi?、Pramod Viswanath??

? 標(biāo)簽:AI搜索、開源技術(shù)、大語言模型、推理智能體

? 概述: 本文提出開放深度搜索(ODS)這一開源AI搜索解決方案,介紹其組成部分、工作機(jī)制,并通過實(shí)驗(yàn)展示其在搜索人工智能領(lǐng)域超越部分閉源方案的性能優(yōu)勢。

? 鏈接:https://arxiv.org/pdf/2503.20201

本文轉(zhuǎn)載自???旺知識(shí)???,作者:旺知識(shí)

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦