自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="8hyr0"></style>

<cite id="8hyr0"><track id="8hyr0"></track></cite><sub id="8hyr0"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

打破LLM的語(yǔ)境障礙：InfiniRetri vs RAG

作者：晶顏 2025-04-21 08:11:09

InfiniRetri使用LLM注意力在內(nèi)部檢索信息，而RAG從外部檢索信息。未來(lái)可能是結(jié)合兩種優(yōu)勢(shì)的混合方法。

譯者 | 晶顏

審校 | 重樓

大型語(yǔ)言模型（LLM）正在重塑人工智能的格局，然其亦面臨一項(xiàng)持續(xù)性挑戰(zhàn)——檢索和利用超出其訓(xùn)練數(shù)據(jù)的信息。目前，有兩種模式相左的方法可以解決這個(gè)問(wèn)題：其一為InfiniRetri，該方法借助LLM自身的注意力機(jī)制，從長(zhǎng)輸入中檢索相關(guān)上下文；其二是檢索增強(qiáng)生成（RAG），它在生成響應(yīng)前，動(dòng)態(tài)地從結(jié)構(gòu)化數(shù)據(jù)庫(kù)獲取外部知識(shí)。

每種方法都有其獨(dú)特的優(yōu)勢(shì)、局限性和權(quán)衡之處。InfiniRetri的目標(biāo)是通過(guò)在模型現(xiàn)有架構(gòu)內(nèi)工作來(lái)最大限度地提高效率，而RAG通過(guò)集成實(shí)時(shí)外部信息來(lái)提高事實(shí)準(zhǔn)確性。但究竟哪一種方法更優(yōu)呢？

了解這兩種方法的運(yùn)行機(jī)制，優(yōu)勢(shì)及局限所在，對(duì)于確定它們?cè)谖磥?lái)人工智能驅(qū)動(dòng)的文本生成中的作用至關(guān)重要。

InfiniRetri和RAG如何檢索信息

InfiniRetri通過(guò)利用基于轉(zhuǎn)換器（Transformer）模型的原生注意力機(jī)制來(lái)動(dòng)態(tài)地從長(zhǎng)上下文中檢索相關(guān)的令牌。它并非無(wú)限制地?cái)U(kuò)展模型的上下文窗口，而是迭代選擇并僅保留最重要的令牌，從而能夠在優(yōu)化內(nèi)存效率的同時(shí)，處理顯著更長(zhǎng)的輸入。

標(biāo)準(zhǔn)LLM處理有限長(zhǎng)度的輸入，一旦超出上下文窗口就會(huì)丟棄先前的信息，而InfiniRetri使用滾動(dòng)存儲(chǔ)系統(tǒng)。它按段處理文本，識(shí)別并僅存儲(chǔ)最相關(guān)的令牌，同時(shí)丟棄冗余信息。這使得它可以有效地從大量輸入中檢索關(guān)鍵細(xì)節(jié)，而不需要外部存儲(chǔ)或數(shù)據(jù)庫(kù)查找。

在諸如“大海撈針”（Needle-In-a-Haystack，NIH）測(cè)試等受控檢索場(chǎng)景中，InfiniRetri已經(jīng)展示了超過(guò)100萬(wàn)個(gè)令牌的100%檢索準(zhǔn)確率，凸顯其在極長(zhǎng)上下文中追蹤關(guān)鍵信息的能力。然而，這并不意味著它在所有任務(wù)中均能達(dá)到完美的準(zhǔn)確性。

另一方面，RAG采用了一種完全不同的方法，它使用外部檢索步驟來(lái)擴(kuò)展模型。當(dāng)出現(xiàn)查詢時(shí)，RAG首先搜索知識(shí)庫(kù)——通常是矢量數(shù)據(jù)庫(kù)、文檔存儲(chǔ)庫(kù)或搜索引擎——以查找相關(guān)的支持文檔。

然后將這些檢索到的文本附加到LLM的輸入中，使其能夠生成基于實(shí)時(shí)外部信息的響應(yīng)。該方法確保模型能夠訪問(wèn)新的、特定于領(lǐng)域的知識(shí)，使其比純參數(shù)模型更不容易產(chǎn)生幻覺(jué)。

兩者的關(guān)鍵區(qū)別在于檢索發(fā)生的位置。InfiniRetri從內(nèi)部檢索先前處理過(guò)的文本，而RAG從外部檢索結(jié)構(gòu)化知識(shí)庫(kù)。這一差異對(duì)性能、效率及可擴(kuò)展性均會(huì)產(chǎn)生重大影響。

哪種方法更有效？

InfiniRetri和RAG之間的性能比較揭示了在效率、準(zhǔn)確性和計(jì)算需求方面的鮮明對(duì)比。InfiniRetri能夠在自身架構(gòu)內(nèi)動(dòng)態(tài)檢索信息，這使其無(wú)需額外的基礎(chǔ)設(shè)施即可運(yùn)行，即無(wú)需外部存儲(chǔ)、檢索器或微調(diào)嵌入。這使得它成為長(zhǎng)文檔處理的絕佳選擇，尤其是當(dāng)相關(guān)信息已經(jīng)包含在提供的輸入之中時(shí)。

然而，InfiniRetri也確有局限性。由于它只在模型的注意力機(jī)制內(nèi)運(yùn)行，因此完全依賴于LLM預(yù)先存在的知識(shí)。如果一條信息并未包含在模型的訓(xùn)練或輸入中，則無(wú)法被檢索到。這使得infinireti在回答需要最新知識(shí)的基于事實(shí)或?qū)崟r(shí)查詢時(shí)效率較低。

相反地，RAG擅長(zhǎng)知識(shí)密集型任務(wù)。因?yàn)樗鼜耐獠繑?shù)據(jù)庫(kù)中提取信息，所以它可以用真實(shí)的、實(shí)時(shí)的信息來(lái)補(bǔ)充模型的預(yù)訓(xùn)練知識(shí)。這使得它在對(duì)準(zhǔn)確性要求較高的法律文件處理和研究應(yīng)用中非常有效。

然而，RAG對(duì)外部檢索的依賴也帶來(lái)了更高的計(jì)算成本，具體取決于所使用的檢索方法。此外，外部查詢會(huì)引入延遲，且延遲會(huì)隨數(shù)據(jù)庫(kù)大小而變化。在LLM生成響應(yīng)之前，每個(gè)查詢都需要進(jìn)行數(shù)據(jù)庫(kù)搜索、文檔檢索和擴(kuò)展，這使得LLM在連續(xù)長(zhǎng)文本處理方面明顯慢于InfiniRetri。

在計(jì)算效率方面，InfiniRetri具有明顯的優(yōu)勢(shì)。由于它在內(nèi)部檢索信息而無(wú)需對(duì)外部系統(tǒng)調(diào)用API，因此它的運(yùn)行延遲較低，基礎(chǔ)設(shè)施需求較少。同時(shí)，RAG雖然功能強(qiáng)大，但受到其檢索器效率的限制，必須對(duì)其進(jìn)行微調(diào)以確保高召回率和相關(guān)性。

哪一個(gè)符合你的需求？

雖然這兩種方法在各自的領(lǐng)域都非常有效，但都并非“放之四海而皆準(zhǔn)”的解決方案。InfiniRetri最適合需要高效長(zhǎng)文檔檢索但不需要外部知識(shí)更新的應(yīng)用程序。這包括法律文件分析、多回合對(duì)話保留和長(zhǎng)格式摘要。它選擇和保留相關(guān)標(biāo)記的迭代方法使長(zhǎng)文本處理高效，而不會(huì)占用大量?jī)?nèi)存，使其成為敘事一致性和基于推理的任務(wù)的強(qiáng)大選擇。

另一方面，RAG是現(xiàn)實(shí)世界信息檢索的理想選擇，在準(zhǔn)確性和事實(shí)核查至關(guān)重要的情況下表現(xiàn)突出。它對(duì)于開(kāi)放領(lǐng)域的問(wèn)答、基于研究的應(yīng)用以及必須將幻覺(jué)風(fēng)險(xiǎn)降至最低的行業(yè)十分有效。因?yàn)樗鼜耐獠縼?lái)源檢索，所以它確保響應(yīng)保持在可驗(yàn)證的事實(shí)基礎(chǔ)上，而不是依賴于模型的靜態(tài)訓(xùn)練數(shù)據(jù)。

但是，RAG需要不斷維護(hù)其檢索基礎(chǔ)結(jié)構(gòu)。更新外部數(shù)據(jù)庫(kù)對(duì)于保持準(zhǔn)確性至關(guān)重要，而管理索引、嵌入和存儲(chǔ)可能會(huì)帶來(lái)極大的操作復(fù)雜性。此外，延遲也是一個(gè)主要問(wèn)題，因?yàn)闄z索時(shí)間隨著數(shù)據(jù)庫(kù)大小的增加而增加，這使得它不太適合速度至關(guān)重要的實(shí)時(shí)應(yīng)用程序。

這些方法會(huì)合并嗎？

隨著人工智能研究的不斷進(jìn)步，未來(lái)的檢索很可能不會(huì)是InfiniRetri和RAG之間的競(jìng)爭(zhēng)，而是兩者的結(jié)合。混合方法可以利用InfiniRetri高效的基于注意力的檢索來(lái)處理長(zhǎng)文檔，同時(shí)在必要時(shí)結(jié)合RAG獲取實(shí)時(shí)外部知識(shí)的能力。

一個(gè)頗具前景的方向是自適應(yīng)檢索模型，LLM首先嘗試使用InfiniRetri的方法進(jìn)行內(nèi)部檢索。如果它確定缺少必要的信息，就會(huì)觸發(fā)一個(gè)外部的類似于RAG的檢索步驟。這將平衡計(jì)算效率和準(zhǔn)確性，減少不必要的檢索調(diào)用，同時(shí)在需要時(shí)仍能確?；谑聦?shí)的依據(jù)。

另一個(gè)開(kāi)發(fā)領(lǐng)域是智能緩存機(jī)制，通過(guò)RAG從外部檢索到的相關(guān)信息，可以在內(nèi)部使用InfiniRetri的注意力技術(shù)進(jìn)行存儲(chǔ)和管理。這將允許模型在多個(gè)交互中重用檢索到的知識(shí)，而不需要重復(fù)的數(shù)據(jù)庫(kù)查詢，從而減少延遲并提高性能。

為工作選擇合適的工具

在InfiniRetri和RAG之間做出選擇，將最終取決于給定應(yīng)用程序的特定需求。如果任務(wù)需要快速、高效和可擴(kuò)展的長(zhǎng)上下文檢索，InfiniRetri無(wú)疑是贏家。如果任務(wù)需要實(shí)時(shí)事實(shí)檢查和外部知識(shí)擴(kuò)充，RAG將是最佳選擇。

雖然這兩種方法各有優(yōu)勢(shì)，但實(shí)際上它們可以互補(bǔ)，特別是在混合系統(tǒng)中，動(dòng)態(tài)平衡內(nèi)部基于注意力的檢索和基于任務(wù)需求的外部知識(shí)增強(qiáng)。未來(lái)的檢索系統(tǒng)可能會(huì)整合兩者的優(yōu)勢(shì)，從而產(chǎn)生更強(qiáng)大、適應(yīng)性更強(qiáng)的人工智能模型。比起“非InfiniRetri 即RAG”的問(wèn)題，LLM檢索的真正未來(lái)可能是InfiniRetri和RAG協(xié)同工作。

原文標(biāo)題：Breaking the Context Barrier of LLMs: InfiniRetri vs RAG，作者：Graziano Casto

責(zé)任編輯：姜華來(lái)源： 51CTO

LLM 大型語(yǔ)言模型 RAG

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="lies6"></blockquote>}

<pre id="lies6"></pre><meter id="lies6"><td id="lies6"></td></meter>