自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題? 原創(chuàng)

發(fā)布于 2025-3-24 08:15
瀏覽
0收藏

本文對(duì)代理知識(shí)蒸餾中的金字塔搜索方法進(jìn)行了深入分析,并通過(guò)實(shí)際案例展示了基于這種技術(shù)可以較好地克服文檔提取和RAG策略失敗問(wèn)題。

簡(jiǎn)介

當(dāng)下,許多生成式AI應(yīng)用場(chǎng)景仍然圍繞檢索增強(qiáng)生成(RAG)展開(kāi),但始終未能滿(mǎn)足用戶(hù)的期望。盡管對(duì)RAG改進(jìn)的研究越來(lái)越多,甚至在流程中添加了代理技術(shù),但許多解決方案仍然無(wú)法返回詳盡的結(jié)果,遺漏了文檔中很少提及的關(guān)鍵信息,需要多次搜索迭代,并且通常難以協(xié)調(diào)多個(gè)文檔中的關(guān)鍵主題。最糟糕的是,許多實(shí)現(xiàn)方案仍然依賴(lài)于將盡可能多的“相關(guān)”信息與詳細(xì)的系統(tǒng)和用戶(hù)提示一起塞入模型的上下文窗口。協(xié)調(diào)所有這些信息通常超出了模型的認(rèn)知能力,并損害了響應(yīng)質(zhì)量和一致性。

上述問(wèn)題正是我們的代理知識(shí)蒸餾+金字塔搜索方法發(fā)揮作用的地方。我們團(tuán)隊(duì)成員Jim Brown、Mason Sawtell、Sandi Besen和我不追求最佳的分塊策略、檢索算法或使用基于推理時(shí)間的推理方法,而是采用代理方法來(lái)獲取文檔。

我們?cè)跀?shù)據(jù)攝取時(shí)充分利用模型的全部功能,專(zhuān)注于從文檔數(shù)據(jù)集中蒸餾和保留最有意義的信息。這從根本上簡(jiǎn)化了RAG流程,使模型能夠?qū)⑵渫评砟芰τ糜谔幚碛脩?hù)/系統(tǒng)指令,而不是費(fèi)力理解文檔塊中的格式和不同信息。

我們專(zhuān)門(mén)針對(duì)那些通常難以評(píng)估的高價(jià)值問(wèn)題,因?yàn)樗鼈冇卸鄠€(gè)正確答案或解決路徑。這些情況是傳統(tǒng)RAG解決方案最難解決的情況,而現(xiàn)有的RAG評(píng)估數(shù)據(jù)集對(duì)于測(cè)試這個(gè)問(wèn)題空間來(lái)說(shuō)基本上是不夠的。

為了實(shí)施我們的研究,我們下載了道瓊斯工業(yè)平均指數(shù)中30家公司去年的年度和季度報(bào)告。這些文件可以在??SEC EDGAR網(wǎng)站???上找到。EDGAR上的信息可以訪問(wèn)并可以??免費(fèi)下載???,也可以通過(guò)??EDGAR公共搜索???進(jìn)行查詢(xún)。有關(guān)更多詳細(xì)信息,請(qǐng)參閱??SEC隱私政策??,SEC網(wǎng)站上的信息“被視為公開(kāi)信息,網(wǎng)站用戶(hù)可能會(huì)在未經(jīng)SEC許可的情況下復(fù)制或進(jìn)一步分發(fā)”。我們選擇這個(gè)數(shù)據(jù)集有兩個(gè)主要原因:首先,它超出了所評(píng)估模型的知識(shí)截止范圍,確保模型不能根據(jù)預(yù)訓(xùn)練的知識(shí)回答問(wèn)題;其次,它非常接近現(xiàn)實(shí)世界的商業(yè)問(wèn)題,同時(shí)使我們能夠使用公開(kāi)數(shù)據(jù)討論和分享我們的研究結(jié)果。?

雖然典型的RAG解決方案擅長(zhǎng)事實(shí)檢索,因?yàn)榇鸢负苋菀自谖臋n數(shù)據(jù)集中找到(例如,“Apple的年度股東大會(huì)何時(shí)舉行?”),但它們很難解決需要更深入地理解文檔中概念的細(xì)微問(wèn)題(例如,“哪家DOW公司擁有最有前途的AI戰(zhàn)略?”)。與我們測(cè)試的其他標(biāo)準(zhǔn)方法相比,我們的代理知識(shí)蒸餾+金字塔搜索方法在解決這些類(lèi)型的問(wèn)題方面取得了更大的成功,并且克服了在RAG系統(tǒng)中使用知識(shí)圖譜的局限性。

在本文中,我們將介紹知識(shí)蒸餾過(guò)程的工作原理、這種方法的主要優(yōu)點(diǎn)、示例,以及關(guān)于評(píng)估這些類(lèi)型的系統(tǒng)的最佳方法的公開(kāi)討論,在許多情況下,沒(méi)有單一的“正確”答案。

構(gòu)建金字塔:代理知識(shí)蒸餾的工作原理

人工智能生成的圖像顯示了用于文檔攝取的金字塔結(jié)構(gòu)以及標(biāo)記部分。

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

作者和團(tuán)隊(duì)提供的圖像描繪了用于文檔攝取的金字塔結(jié)構(gòu),機(jī)器人代表著建造金字塔的代理。

概述

我們的知識(shí)蒸餾過(guò)程會(huì)從原始源文檔中創(chuàng)建多層信息金字塔。我們的方法受到深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)任務(wù)中使用的金字塔的啟發(fā),這些金字塔允許模型以多種尺度分析圖像。我們獲取原始文檔的內(nèi)容,將其轉(zhuǎn)換為Markdown格式,然后將內(nèi)容蒸餾為原子見(jiàn)解、相關(guān)概念、文檔摘要和一般回憶/記憶的列表。在檢索過(guò)程中,可以訪問(wèn)金字塔的任何或所有層級(jí)以響應(yīng)用戶(hù)請(qǐng)求。

如何蒸餾文檔并構(gòu)建金字塔:

  • 將文檔轉(zhuǎn)換為Markdown:將所有原始源文檔轉(zhuǎn)換為Markdown。我們發(fā)現(xiàn),與JSON等其他格式相比,模型處理Markdown最適合此任務(wù),并且它的標(biāo)記效率更高。我們使用Azure文檔智能(Document Intelligence)為文檔的每一頁(yè)生成Markdown,但還有許多其他開(kāi)源庫(kù)(如??MarkItDown??)可以執(zhí)行相同的操作。我們的數(shù)據(jù)集包括331個(gè)文檔,共計(jì)16,601頁(yè)內(nèi)容。?
  • 從每一頁(yè)中提取原子見(jiàn)解:我們使用雙頁(yè)滑動(dòng)窗口處理文檔,這樣可以對(duì)每一頁(yè)進(jìn)行兩次分析。這使代理有機(jī)會(huì)在最初處理頁(yè)面時(shí)糾正任何潛在錯(cuò)誤。我們指示模型創(chuàng)建一個(gè)編了號(hào)的見(jiàn)解列表,該列表在處理文檔中的頁(yè)面時(shí)會(huì)不斷增長(zhǎng)。如果前一頁(yè)的見(jiàn)解不正確,代理可以覆蓋它們,因?yàn)樗鼤?huì)查看每一頁(yè)兩次。我們指示模型按照主謂賓(SVO)格式以簡(jiǎn)單的句子提取見(jiàn)解,并將句子寫(xiě)得好像英語(yǔ)是用戶(hù)的第二語(yǔ)言一樣。這通過(guò)鼓勵(lì)清晰度和準(zhǔn)確性顯著提高了性能。多次滾動(dòng)每頁(yè)并使用SVO格式還可以解決消歧問(wèn)題,這對(duì)知識(shí)圖譜來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。見(jiàn)解生成步驟對(duì)于從表格中提取信息也特別有用,因?yàn)槟P蜁?huì)以清晰、簡(jiǎn)潔的句子從表格中捕獲事實(shí)。我們的數(shù)據(jù)集產(chǎn)生了216,931條總見(jiàn)解,每頁(yè)約13條見(jiàn)解,每份文檔655條見(jiàn)解。?
  • 從洞察中蒸餾概念:從洞察的詳細(xì)列表中,我們識(shí)別出與文檔相關(guān)信息相聯(lián)系的高級(jí)概念。此步驟可顯著減少文檔中的噪音和冗余信息,同時(shí)保留基本信息和主題。我們的數(shù)據(jù)集共產(chǎn)生14,824個(gè)概念,大約每頁(yè)1個(gè)概念,每篇文檔45個(gè)概念。?
  • 根據(jù)概念創(chuàng)建摘要:根據(jù)文檔中的見(jiàn)解和概念,LLM編寫(xiě)的摘要看起來(lái)比人類(lèi)編寫(xiě)的任何摘要都更好,并且比原始文檔中的任何摘要都更信息密集。LLM生成的摘要提供了有關(guān)文檔的極其全面的知識(shí),并且小的標(biāo)記密度包含大量信息。我們?yōu)槊糠菸臋n生成一個(gè)摘要,總共331個(gè)。?
  • 跨文檔存儲(chǔ)回憶/記憶:在金字塔的頂端,我們存儲(chǔ)了對(duì)所有任務(wù)都有用的關(guān)鍵信息。這可以是用戶(hù)分享的有關(guān)任務(wù)的信息,也可以是代理通過(guò)研究和響應(yīng)任務(wù)隨時(shí)間了解的有關(guān)數(shù)據(jù)集的信息。例如,我們可以將DOW中的當(dāng)前30家公司存儲(chǔ)為回憶,因?yàn)榇肆斜砼c模型知識(shí)截止時(shí)DOW中的30家公司不同。隨著我們進(jìn)行越來(lái)越多的研究任務(wù),我們可以不斷改進(jìn)我們的回憶,并維護(hù)這些回憶來(lái)自哪些文件的審計(jì)線索。例如,我們可以跟蹤各公司的AI戰(zhàn)略,公司在哪些地方進(jìn)行重大投資等。這些高級(jí)連接非常重要,因?yàn)樗鼈兘沂玖藛雾?yè)或文檔中無(wú)法顯示的關(guān)系和信息。?

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

從IBM 10Q、2024年第三季度中提取的洞察樣本子集(第4頁(yè))

我們將金字塔每一層(頁(yè)面及以上)的文本和嵌入存儲(chǔ)在Azure PostgreSQL中。我們最初使用Azure AI Search,但出于成本原因改用了PostgreSQL。這要求我們編寫(xiě)自己的混合搜索功能,因?yàn)镻ostgreSQL尚未原生支持此功能。此實(shí)現(xiàn)適用于你選擇的任何向量數(shù)據(jù)庫(kù)或向量索引。關(guān)鍵要求是在金字塔的任何級(jí)別存儲(chǔ)和高效檢索文本和向量嵌入。

這種方法實(shí)際上創(chuàng)建了知識(shí)圖譜的本質(zhì),但以自然語(yǔ)言存儲(chǔ)信息,這是LLM想要與之交互的方式,并且在標(biāo)記檢索方面效率更高。我們還讓LLM選擇用于對(duì)金字塔的每個(gè)級(jí)別進(jìn)行分類(lèi)的術(shù)語(yǔ),這似乎讓模型自己決定描述和區(qū)分存儲(chǔ)在每個(gè)級(jí)別的信息的最佳方式。例如,LLM更喜歡將“見(jiàn)解”而不是“事實(shí)”作為第一級(jí)蒸餾知識(shí)的標(biāo)簽。我們這樣做的目的是通過(guò)讓LLM決定如何存儲(chǔ)和分組相關(guān)信息來(lái)更好地理解LLM如何思考這個(gè)過(guò)程。

使用金字塔:它如何與RAG和代理配合使用

在推理時(shí),傳統(tǒng)RAG和代理方法都受益于我們知識(shí)金字塔中預(yù)處理、蒸餾的信息。金字塔結(jié)構(gòu)允許在傳統(tǒng)RAG情況下(僅檢索前X條相關(guān)信息)和代理情況下(代理在返回最終響應(yīng)之前迭代地計(jì)劃、檢索和評(píng)估信息)進(jìn)行高效檢索。

金字塔方法的好處是,金字塔中任何級(jí)別的信息都可以在推理過(guò)程中使用。在我們的實(shí)現(xiàn)中,我們使用PydanticAI創(chuàng)建了一個(gè)搜索代理,該代理接收用戶(hù)請(qǐng)求、生成搜索詞、探索與請(qǐng)求相關(guān)的想法并跟蹤與請(qǐng)求相關(guān)的信息。一旦搜索代理確定有足夠的信息來(lái)滿(mǎn)足用戶(hù)請(qǐng)求,就會(huì)對(duì)結(jié)果進(jìn)行重新排序并發(fā)送回LLM以生成最終答復(fù)。我們的實(shí)現(xiàn)允許搜索代理在收集有關(guān)概念/搜索詞的詳細(xì)信息時(shí)遍歷金字塔中的信息。這類(lèi)似于遍歷知識(shí)圖譜,但對(duì)于LLM來(lái)說(shuō),這種方式更自然,因?yàn)榻鹱炙械乃行畔⒍家宰匀徽Z(yǔ)言存儲(chǔ)。

根據(jù)具體的使用場(chǎng)景,代理可以訪問(wèn)金字塔所有級(jí)別的信息,也可以只訪問(wèn)特定級(jí)別的信息(例如,僅檢索概念中的信息)。對(duì)于我們的實(shí)驗(yàn),我們沒(méi)有檢索原始頁(yè)面級(jí)數(shù)據(jù),因?yàn)槲覀兿胍獙?zhuān)注于標(biāo)記效率,并且發(fā)現(xiàn)LLM生成的見(jiàn)解、概念、摘要和回憶信息足以完成我們的任務(wù)。理論上,代理也可以訪問(wèn)頁(yè)面數(shù)據(jù);這將為代理提供重新檢查原始文檔文本的額外機(jī)會(huì);但是,它也會(huì)顯著增加使用的標(biāo)記總數(shù)。

以下是我們用于響應(yīng)用戶(hù)請(qǐng)求的代理方法的高級(jí)可視化展示:

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

作者和團(tuán)隊(duì)創(chuàng)建的圖像概要性描述了代理研究和響應(yīng)過(guò)程

金字塔的結(jié)果:現(xiàn)實(shí)世界的例子

為了評(píng)估我們方法的有效性,我們針對(duì)各種問(wèn)題類(lèi)別對(duì)其進(jìn)行了測(cè)試,包括典型的事實(shí)調(diào)查問(wèn)題和復(fù)雜的跨文檔研究和分析任務(wù)。

事實(shí)調(diào)查(魚(yú)叉捕魚(yú)):

這些任務(wù)需要識(shí)別文檔中隱藏的特定信息或事實(shí)。這些是典型的RAG解決方案所針對(duì)的問(wèn)題類(lèi)型,但通常需要進(jìn)行多次搜索并消耗大量標(biāo)記才能正確回答。

示例任務(wù):“What was IBM’s total revenue in the latest financial reporting?(IBM在最新財(cái)務(wù)報(bào)告中的總收入是多少?)”

使用金字塔方法的示例響應(yīng):“IBM’s total revenue for the third quarter of 2024 was $14.968 billion [ibm-10q-q3-2024.pdf, pg. 4](IBM 2024年第三季度的總收入為149.68億美元[ibm-10q-q3-2024.pdf,第4頁(yè)])”

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

用于研究和生成響應(yīng)的總標(biāo)記數(shù)

該結(jié)果是正確的(經(jīng)過(guò)人工驗(yàn)證),并且僅使用了9,994個(gè)標(biāo)記生成,其中生成的最終響應(yīng)中有1,240個(gè)標(biāo)記。

復(fù)雜的研究和分析:

這個(gè)例子中的任務(wù)涉及研究和理解多個(gè)概念,以更廣泛地理解文檔,并根據(jù)收集到的事實(shí)做出推論和明智的假設(shè)。

示例任務(wù):“Analyze the investments Microsoft and NVIDIA are making in AI and how they are positioning themselves in the market. The report should be clearly formatted.(分析微軟和英偉達(dá)在人工智能領(lǐng)域的投資以及他們?cè)谑袌?chǎng)上的定位。報(bào)告格式應(yīng)清晰。)”

示例響應(yīng):

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

代理分析微軟和英偉達(dá)的AI投資和定位后生成的響應(yīng)

結(jié)果是一份執(zhí)行非常迅速的綜合報(bào)告,其中包含有關(guān)每家公司的詳細(xì)信息??偣彩褂昧?6,802個(gè)符號(hào)來(lái)研究和響應(yīng)請(qǐng)求,其中很大一部分用于最終響應(yīng)(2,893個(gè)符號(hào),或約占11%)。這些結(jié)果也是經(jīng)過(guò)人工審查的,以驗(yàn)證其有效性。

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

該代碼片段表明該任務(wù)的符號(hào)總使用量

示例任務(wù):“Create a report on analyzing the risks disclosed by the various financial companies in the DOW. Indicate which risks are shared and unique.(創(chuàng)建一份報(bào)告,分析道瓊斯指數(shù)中各家金融公司披露的風(fēng)險(xiǎn)。指出哪些風(fēng)險(xiǎn)是共同的,哪些是獨(dú)特的。)”

示例響應(yīng)如下:

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

代理針對(duì)披露風(fēng)險(xiǎn)生成的回復(fù)的第1部分

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

代理針對(duì)披露風(fēng)險(xiǎn)生成的回復(fù)的第二部分

同樣,此任務(wù)在42.7秒內(nèi)完成,總共使用了31,685個(gè)符號(hào),其中3,116個(gè)符號(hào)用于生成最終報(bào)告。

基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?-AI.x社區(qū)

此代碼片段表明該任務(wù)的符號(hào)總使用量

總體來(lái)看,這些針對(duì)事實(shí)調(diào)查和復(fù)雜分析任務(wù)的結(jié)果表明,金字塔方法能夠使用最少量的標(biāo)記高效地創(chuàng)建詳細(xì)的報(bào)告,并且延遲時(shí)間短。用于任務(wù)的標(biāo)記含義密集,噪音小,因此可以在任務(wù)間提供高質(zhì)量、全面的響應(yīng)。

金字塔的好處:為什么要使用它?

總體而言,我們發(fā)現(xiàn)金字塔方法顯著提高了高價(jià)值問(wèn)題的響應(yīng)質(zhì)量和整體性能。

我們觀察到這種方法的一些主要好處包括:

  • 減少模型的認(rèn)知負(fù)荷:當(dāng)代理收到用戶(hù)任務(wù)時(shí),它會(huì)檢索經(jīng)過(guò)預(yù)處理的蒸餾信息,而不是原始的、格式不一致的、分散的文檔塊。這從根本上改善了檢索過(guò)程,因?yàn)槟P筒粫?huì)浪費(fèi)其認(rèn)知能力來(lái)嘗試首次分解頁(yè)面/塊文本。?
  • 卓越的表格處理能力:通過(guò)分解表格信息并將其存儲(chǔ)在簡(jiǎn)潔但描述性的句子中,金字塔方法可以更輕松地通過(guò)自然語(yǔ)言查詢(xún)?cè)谕评頃r(shí)檢索相關(guān)信息。這對(duì)于我們的數(shù)據(jù)集尤為重要,因?yàn)樨?cái)務(wù)報(bào)告包含大量表格中的關(guān)鍵信息。?
  • 提高了對(duì)多種類(lèi)型請(qǐng)求的響應(yīng)質(zhì)量:金字塔能夠?qū)_的事實(shí)調(diào)查問(wèn)題和涉及眾多文檔的眾多主題的廣泛分析任務(wù)提供更全面的上下文感知響應(yīng)。?
  • 保留關(guān)鍵背景:由于蒸餾過(guò)程識(shí)別并跟蹤關(guān)鍵事實(shí),因此可能只在文檔中出現(xiàn)一次的重要信息更容易維護(hù)。例如,注意到所有的表格都以數(shù)百萬(wàn)美元或特定貨幣表示。傳統(tǒng)的分塊方法經(jīng)常導(dǎo)致此類(lèi)信息被忽略。?
  • 優(yōu)化的符號(hào)使用、內(nèi)存和速度:通過(guò)在攝取時(shí)蒸餾信息,我們顯著減少了推理期間所需的符號(hào)數(shù)量,能夠最大化上下文窗口中信息的價(jià)值,并提高內(nèi)存使用率。?
  • 可擴(kuò)展性:隨著文檔數(shù)據(jù)集規(guī)模的擴(kuò)大,許多解決方案都難以發(fā)揮作用。這種方法通過(guò)僅保留關(guān)鍵信息,提供了一種更高效的管理大量文本的方法。這還允許更有效地使用LLM上下文窗口,只需向其發(fā)送有用、清晰的信息即可。?
  • 高效的概念探索:金字塔使代理能夠探索相關(guān)信息,類(lèi)似于瀏覽知識(shí)圖譜,但不需要生成或維護(hù)圖中的關(guān)系。代理可以專(zhuān)門(mén)使用自然語(yǔ)言,并以特別高效和流暢的方式跟蹤與其正在探索的概念相關(guān)的重要事實(shí)。?
  • 新興數(shù)據(jù)集理解:我們?cè)跍y(cè)試過(guò)程中發(fā)現(xiàn)了這種方法的一個(gè)意外好處。當(dāng)問(wèn)“你能告訴我關(guān)于這個(gè)數(shù)據(jù)集的什么信息?”或“我可以問(wèn)什么類(lèi)型的問(wèn)題?”等問(wèn)題時(shí),系統(tǒng)能夠做出響應(yīng)并建議有效的搜索主題,因?yàn)樗ㄟ^(guò)訪問(wèn)金字塔中的更高層級(jí)(如摘要和回憶)對(duì)數(shù)據(jù)集上下文有了更深入的理解。?

超越金字塔:評(píng)估挑戰(zhàn)和未來(lái)方向

挑戰(zhàn)

雖然我們?cè)谑褂媒鹱炙阉鞣椒〞r(shí)觀察到的結(jié)果令人驚嘆,但找到建立有意義的指標(biāo)來(lái)評(píng)估整個(gè)系統(tǒng)(無(wú)論是在攝取信息時(shí)還是在信息檢索期間)的方法卻具有挑戰(zhàn)性。傳統(tǒng)的RAG和代理評(píng)估框架通常無(wú)法解決細(xì)微的問(wèn)題和分析性響應(yīng),因?yàn)樵S多不同的響應(yīng)都是有效的。

我們的團(tuán)隊(duì)計(jì)劃在未來(lái)撰寫(xiě)一篇關(guān)于這種方法的研究論文,我們歡迎社區(qū)的任何想法和反饋,尤其是關(guān)于評(píng)估指標(biāo)的想法和反饋。我們發(fā)現(xiàn)許多現(xiàn)有數(shù)據(jù)集都側(cè)重于評(píng)估一個(gè)文檔中的RAG應(yīng)用場(chǎng)景或跨多個(gè)文檔的精確信息檢索,而不是跨文檔和域的穩(wěn)健概念和主題分析。

我們感興趣的主要應(yīng)用場(chǎng)景與更廣泛的問(wèn)題有關(guān),這些問(wèn)題代表了企業(yè)實(shí)際上希望如何與GenAI系統(tǒng)交互。例如,“告訴我關(guān)于客戶(hù)X我需要知道的一切”或“客戶(hù)A和B的行為有何不同?我更有可能與哪個(gè)客戶(hù)成功會(huì)面?”。這些類(lèi)型的問(wèn)題需要深入了解來(lái)自許多來(lái)源的信息。這些問(wèn)題的答案通常需要一個(gè)人綜合來(lái)自業(yè)務(wù)多個(gè)領(lǐng)域的數(shù)據(jù)并對(duì)其進(jìn)行批判性思考。因此,這些問(wèn)題的答案很少被寫(xiě)在或保存在任何地方,這使得在典型的RAG過(guò)程中無(wú)法簡(jiǎn)單地通過(guò)向量索引存儲(chǔ)和檢索它們。

另一個(gè)考慮因素是,許多實(shí)際場(chǎng)景涉及動(dòng)態(tài)數(shù)據(jù)集,其中文檔不斷被添加、編輯和刪除。這使得評(píng)估和跟蹤什么是“正確”的答案變得困難,因?yàn)榇鸢笗?huì)隨著可用信息的變化而變化。

未來(lái)方向

我們相信,未來(lái)金字塔方法能夠解決其中一些挑戰(zhàn),因?yàn)樗軌蚋行У靥幚砻芗臋n,并將學(xué)習(xí)到的信息存儲(chǔ)為回憶。然而,隨著時(shí)間的推移,跟蹤和評(píng)估回憶的有效性對(duì)于系統(tǒng)的整體成功至關(guān)重要,并且仍然是我們當(dāng)前工作的重點(diǎn)領(lǐng)域。

當(dāng)將這種方法應(yīng)用于組織數(shù)據(jù)時(shí),金字塔流程還可用于識(shí)別和評(píng)估業(yè)務(wù)各個(gè)領(lǐng)域的差異。例如,上傳公司的所有銷(xiāo)售宣傳材料可能會(huì)發(fā)現(xiàn)某些產(chǎn)品或服務(wù)的定位不一致。它還可用于比較從各種業(yè)務(wù)線數(shù)據(jù)中提取的見(jiàn)解,以幫助了解團(tuán)隊(duì)是否以及在何處對(duì)主題或不同優(yōu)先級(jí)產(chǎn)生了相互沖突的理解。此應(yīng)用程序超越了純粹的信息檢索應(yīng)用場(chǎng)景,并允許金字塔作為組織協(xié)調(diào)工具,幫助識(shí)別消息傳遞、術(shù)語(yǔ)和整體溝通中的分歧。

結(jié)論

知識(shí)蒸餾金字塔方法意義重大,因?yàn)樗浞掷昧薒LM在提取和檢索時(shí)的全部功能。我們的方法允許你將密集信息存儲(chǔ)在更少的標(biāo)記中,這還具有在推理時(shí)減少數(shù)據(jù)集中噪音的額外好處。我們的方法運(yùn)行速度非???,并且具有令人難以置信的標(biāo)記效率,我們能夠在幾秒鐘內(nèi)生成響應(yīng),探索數(shù)百次搜索,并且在整個(gè)搜索、檢索和響應(yīng)生成過(guò)程中平均使用<40K個(gè)標(biāo)記(這包括所有搜索迭代!)。

我們發(fā)現(xiàn),LLM更擅長(zhǎng)將原子見(jiàn)解寫(xiě)成句子,并且這些見(jiàn)解可以有效地從基于文本和表格的數(shù)據(jù)中蒸餾信息。這些以自然語(yǔ)言編寫(xiě)的蒸餾信息對(duì)于LLM來(lái)說(shuō)非常容易理解和推理,因?yàn)樗槐鼗ㄙM(fèi)不必要的精力去推理和分解文檔格式或過(guò)濾噪音。

最后,在金字塔的任何層級(jí)檢索和聚合信息的能力也為解決各種查詢(xún)類(lèi)型提供了極大的靈活性。這種方法為大型數(shù)據(jù)集提供了良好的性能,并支持需要細(xì)致入微的信息檢索和分析的高價(jià)值應(yīng)用場(chǎng)景中。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專(zhuān)家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:??Overcome Failing Document Ingestion & RAG Strategies with Agentic Knowledge Distillation??,作者:Tula Masterman

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-3-24 08:20:01修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦