自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐原創(chuàng) 精華

發(fā)布于 2024-11-25 09:34

瀏覽

0收藏

?檢索增強型生成（RAG）技術(shù)已被證明在整合最新信息、減少錯誤想象以及提升回應質(zhì)量方面非常有效，特別是在特定領(lǐng)域中。雖然已經(jīng)提出了許多旨在通過查詢依賴的檢索來增強大型語言模型的RAG方法，但這些方法仍然受到其復雜實現(xiàn)和延長響應時間的影響。通常，一個RAG工作流涉及多個處理步驟，每個步驟都可以以不同的方式執(zhí)行。那么哪些處理步驟的組合能起到好的效果呢？今天給大家分享一篇相關(guān)的論文：RAG領(lǐng)域的最佳實踐^[1]。

1. 介紹

一個典型的RAG工作流程通常包含多個介入處理步驟：查詢分類（確定給定輸入查詢是否需要檢索）、檢索（高效獲得查詢相關(guān)的文檔）、重排（基于它們與查詢的相關(guān)性重新排列檢索到的文檔的順序）、重新打包（將檢索到的文檔組織成結(jié)構(gòu)化的形式以便更好地生成）、摘要（從重新打包的文檔中提取關(guān)鍵信息以生成回應并消除冗余）模塊。實施RAG還需要決定如何恰當?shù)貙⑽臋n分割成塊、用于語義表示這些塊的嵌入類型、用于高效存儲特征表示的向量數(shù)據(jù)庫的選擇，以及有效微調(diào)LLMs的方法。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

RAG的每個處理步驟的可變性都很多，例如，在檢索輸入查詢的相關(guān)文檔時，可以采用多種方法。一種方法涉及首先重寫查詢，然后使用重寫后的查詢進行檢索。另一種方法是首先生成查詢的偽響應，然后比較這些偽響應與后端文檔的相似度進行檢索。據(jù)我們所知，尚未有系統(tǒng)性的努力去追求RAG的最優(yōu)實現(xiàn)，特別是針對整個RAG工作流程。

在這項研究中，我們旨在通過廣泛的實驗來識別RAG的最佳實踐。鑒于測試所有這些方法的可能組合不可行，我們采用三步方法來識別最優(yōu)的RAG實踐。首先，我們比較每個RAG步驟（或模塊）的代表性方法，并選擇表現(xiàn)最佳的三種方法。接下來，我們通過一次測試一個步驟的一種方法，同時保持其他RAG模塊不變，來評估每種方法對整體RAG性能的影響。這允許我們基于其在響應生成期間與其他模塊的貢獻和互動，確定每個步驟的最有效方法。一旦為一個模塊選擇了最佳方法，就在隨后的實驗中使用它。最后，我們實證探索幾種適合不同應用場景的有希望的組合，其中效率可能被優(yōu)先考慮于性能，反之亦然。基于這些發(fā)現(xiàn)，我們建議RAG的幾種策略，以平衡性能和效率。

本研究的貢獻有三個方面：

通過廣泛的實驗，我們深入調(diào)查了現(xiàn)有的檢索增強生成（RAG）方法及其組合，以識別和推薦最優(yōu)的RAG實踐。
我們引入了一套全面的評估指標框架及相應的數(shù)據(jù)集，以全面評估檢索增強生成模型的性能，涵蓋通用的、專業(yè)的（或領(lǐng)域特定的）以及與RAG相關(guān)的能力。
我們展示了整合多模態(tài)檢索技術(shù)可以顯著提高對視覺輸入的問答能力，并通過“檢索即生成”的策略加速多模態(tài)內(nèi)容的生成。

2. 相關(guān)工作

確保大型語言模型（LLMs）如ChatGPT和LLaMA生成的回應準確性至關(guān)重要。然而，簡單地增加模型大小并不能從根本上解決“幻覺”問題，這在知識密集型任務和專業(yè)領(lǐng)域尤為明顯。檢索增強生成（RAG）通過從外部知識庫檢索相關(guān)文檔，為LLMs提供準確、實時、領(lǐng)域特定的上下文，以解決這些挑戰(zhàn)。先前的工作通過查詢和檢索轉(zhuǎn)換優(yōu)化了RAG流程，提高了檢索器的性能，并對檢索器和生成器進行了微調(diào)。這些優(yōu)化改善了輸入查詢、檢索機制與生成過程之間的互動，確保了回應的準確性和相關(guān)性。

2.1 查詢和檢索轉(zhuǎn)換

有效的檢索需要查詢準確、清晰且詳細。即便將查詢轉(zhuǎn)換為嵌入式表示，查詢與相關(guān)文檔之間的語義差異仍可能存在。之前的工作已經(jīng)探索了通過查詢轉(zhuǎn)換來增強查詢信息的方法，從而提高檢索性能。例如，Query2Doc和HyDE從原始查詢生成偽文檔以增強檢索，而TOC則將查詢分解為子查詢，聚合檢索到的內(nèi)容以得出最終結(jié)果。

其他研究集中于轉(zhuǎn)換檢索源文檔。LlamaIndex提供了一個界面，為檢索文檔生成偽查詢，以提高與真實查詢的匹配度。一些工作采用對比學習，使查詢和文檔嵌入在語義空間中更接近。對檢索到的文檔進行后處理是另一種增強生成器輸出的方法，采用的技術(shù)包括層次化提示摘要和使用抽象及提取式壓縮器來減少上下文長度和消除冗余。

2.2 檢索增強策略

文檔分塊和嵌入方法對檢索性能影響顯著。常見的分塊策略將文檔劃分為多個塊，但確定最佳塊長可能頗具挑戰(zhàn)。小塊可能會導致句子碎片化，而大塊則可能包含不相關(guān)的上下文。LlamaIndex優(yōu)化了分塊方法，如Small2Big和滑動窗口技術(shù)。檢索到的塊可能不相關(guān)，數(shù)量可能很大，因此需要重新排序來過濾掉不相關(guān)的文檔。一種常見的重新排序方法是使用深度語言模型，例如BERT、T5或LLaMA，這需要在重新排序期間進行緩慢的推理步驟，但能提供更好的性能。TILDE通過預先計算并存儲查詢詞項的可能性來實現(xiàn)效率，基于它們的總和對文檔進行排名。

2.3 Retriever和Generator 的Fine-tuning

在RAG框架內(nèi)進行檢索器和生成器的微調(diào)至關(guān)重要，以優(yōu)化兩者的性能。一些研究集中于微調(diào)生成器，以更好地利用檢索器的上下文，確保生成內(nèi)容的準確性和魯棒性。其他研究則致力于微調(diào)檢索器，學習檢索對生成器有益的文段。整體性方法將RAG視為一個集成系統(tǒng)，同時對檢索器和生成器進行微調(diào)，以提高整體性能，盡管這增加了復雜性和集成挑戰(zhàn)。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

3. RAG 工作流

在本節(jié)中，我們將詳細介紹RAG工作流程的各個組件。針對每個模塊，我們回顧常用的方法，并為我們的最終流程選擇了默認和備選方法。

3.1 查詢分類

并非所有的查詢都需要通過檢索增強，因為大型語言模型（LLMs）本身就具備一定的處理能力。盡管檢索增強生成（RAG）可以提高信息的準確性并減少虛構(gòu)內(nèi)容，但頻繁的檢索可能會增加響應時間。因此，我們首先通過對查詢進行分類來確定是否需要檢索。需要檢索的查詢會經(jīng)過RAG模塊處理；其他則直接由LLMs處理。通常，在需要超出模型參數(shù)范圍的知識時推薦使用檢索。然而，檢索的必要性根據(jù)任務的不同而有所變化。例如，一個訓練至2023年的LLM可以處理“Sora是由OpenAI開發(fā)的”這一翻譯請求而無需檢索。相反，對于同一主題的介紹請求則需要檢索來提供相關(guān)信息。

因此，我們建議按類型對任務進行分類，以確定查詢是否需要檢索。對于完全基于用戶提供信息的任務，我們標記為“充分”，不需要檢索；否則，我們標記為“不足”，可能需要檢索。我們訓練了一個分類器來自動化這一決策過程。

3.2 Chunking

將文檔分塊成更小的段落對于提高檢索的準確性和避免在大型語言模型（LLMs）中出現(xiàn)長度問題至關(guān)重要。這個過程可以在不同的粒度級別上應用，比如令牌（token）、句子和語義級別。

令牌級別的分塊很直接，但可能會分割句子，影響檢索質(zhì)量。
語義級別的分塊利用大型語言模型來確定分割點，能保持上下文不變，但是耗時。
句子級別的分塊在保留文本語義的同時，平衡了簡單性和效率。

在這項研究中，我們使用句子級別的分塊，平衡了簡單性和語義保留。我們從四個維度考察了分塊方法。

3.2.1 Chunk Size

塊大小顯著影響性能。更大的塊提供更多上下文，增強了理解能力，但也增加了處理時間。較小的塊提高了檢索回憶和減少時間，但可能缺乏足夠的上下文。找到最優(yōu)塊大小涉及平衡一些指標，如忠實度和相關(guān)性。忠實度衡量響應是否是幻想的或與檢索到的文本匹配。相關(guān)性衡量檢索到的文本和響應是否與查詢匹配。我們使用LlamaIndex的評估模塊來計算上述指標。對于嵌入，我們使用text-embedding-ada-002模型，該模型支持長輸入長度。我們分別選擇zephyr-7b-alpha3和gpt-3.5-turbo作為生成模型和評估模型。塊重疊的大小為20個令牌。文檔lyft_2021的前六十頁被用作語料庫，然后提示LLMs根據(jù)選定的語料庫生成大約一百七十個查詢。不同塊大小的影響如下表所示。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

3.2.2 分塊技術(shù)

高級技術(shù)，如小到大和滑動窗口通過組織分塊塊關(guān)系，提高了檢索質(zhì)量。使用小尺寸塊來匹配查詢，返回包括小塊及其上下文信息的更大塊。為了展示高級分塊技術(shù)的有效性，我們使用了LLM-Embedder 模型作為嵌入模型。較小的塊大小為175個令牌，較大的塊大小為512個令牌，塊之間的重疊為20個令牌。像小到大和滑動窗口這樣的技術(shù)通過維持上下文和確保檢索到相關(guān)信息來提高檢索質(zhì)量。詳細結(jié)果顯示在表中。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

3.2.3 embedding 模型選擇

選擇正確的嵌入模型對于有效地進行查詢與塊區(qū)塊的語義匹配至關(guān)重要。我們使用了FlagEmbedding6的評估模塊，以及數(shù)據(jù)集namespace-Pt/msmarco-corpus作為語料庫，以選擇合適的開源嵌入模型。我們發(fā)現(xiàn)LLM-Embedder 與 BAAI/bge-large-en的結(jié)果相當，然而，前者的模型大小是后者的三分之一。因此，我們選擇了 LLM-Embedder，因為它在性能和大小之間取得了平衡。

3.2.4 添加元數(shù)據(jù)

通過將塊狀內(nèi)容增添元數(shù)據(jù)，如標題、關(guān)鍵詞和假設(shè)性問題，可以提高檢索效率，提供更多后處理檢索文本的方法，并幫助大型語言模型（LLMs）更好地理解檢索到的信息。

3.3 向量數(shù)據(jù)庫

向量數(shù)據(jù)庫存儲著帶有元數(shù)據(jù)的嵌入向量，通過各種索引和近似最近鄰（ANN）方法，能夠高效地檢索與查詢相關(guān)的文檔。為了為我們的研究選擇一個合適的向量數(shù)據(jù)庫，我們基于四個關(guān)鍵標準對幾個選項進行了評估：多種索引類型、支持十億級別的向量、混合搜索以及云原生能力。這些標準因其對于靈活性、可擴展性以及在現(xiàn)代云基礎(chǔ)設(shè)施中部署的便捷性的影響而被選中。多種索引類型提供了基于不同數(shù)據(jù)特性和用例優(yōu)化搜索的靈活性。十億級別的向量支持對于處理LLM應用中的大型數(shù)據(jù)集至關(guān)重要?；旌纤阉鲗⑾蛄克阉髋c傳統(tǒng)關(guān)鍵詞搜索結(jié)合起來，提高了檢索準確性。最后，云原生能力確保了在云環(huán)境中的無縫集成、可擴展性和管理。

下表詳細比較了五個開源向量數(shù)據(jù)庫：Weaviate、Faiss、Chroma、Qdrant和Milvus。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

我們的評估表明，在所有評估的數(shù)據(jù)庫中，Milvus脫穎而出，成為最全面的解決方案，滿足了所有關(guān)鍵標準，并且在性能上超越了其他開源選項。

3.4 Retrieval 方式

針對用戶查詢，檢索模塊從預建的語料庫中選擇與查詢和文檔的相似度最高的前k個相關(guān)文檔。然后，生成模型使用這些文檔來制定針對查詢的適當響應。然而，原始查詢由于表達不佳和缺乏語義信息，通常會表現(xiàn)不佳，這對檢索過程產(chǎn)生了負面影響。為了解決這些問題，我們評估了三種查詢轉(zhuǎn)換方法，使用推薦的LLM-Embedder作為查詢和文檔編碼器：

查詢改寫：查詢改寫通過改進查詢來更好地匹配相關(guān)文檔。受到Rewrite-Retrieve-Read框架的啟發(fā)，我們促使一個LLM重寫查詢以提升性能。
查詢分解：這種方法涉及到基于從原始查詢中派生的子問題來檢索文檔，這比理解和處理更復雜的查詢要困難。
偽文檔生成：這種方法基于用戶查詢生成一個假想的文檔，并使用假想答案的嵌入來檢索相似文檔。一個值得注意的實現(xiàn)是HyDE。

最近的研究表明結(jié)合基于詞匯的搜索與向量搜索可以顯著提高性能。在本研究中，我們使用BM25進行稀疏檢索和Contriever，一個無監(jiān)督對比編碼器，進行密集檢索。

3.4.1 不同retrieval方法的結(jié)果

我們在TREC DL的段落排名數(shù)據(jù)集上評估了不同搜索方法的表現(xiàn)。展示的結(jié)果顯示，監(jiān)督方法明顯勝過無監(jiān)督方法。結(jié)合HyDE和混合搜索，LLM-Embedder取得了最高分數(shù)。然而，查詢重寫和查詢分解并沒有如預期那樣有效地提升檢索性能?？紤]到最佳性能和可接受的延遲，我們推薦將HyDE混合搜索作為默認的檢索方法?？紤]到效率，混合搜索結(jié)合了稀疏檢索（BM25）和密集檢索（原始嵌入），并且在相對較低的延遲下實現(xiàn)了顯著的性能。

3.4.2 不同文檔和查詢連接方式下的HyDE

下表展示了使用HyDE時，不同文檔和查詢連接策略對檢索性能的影響。將多個偽文檔與原始查詢連接起來可以顯著提高檢索性能，盡管這會增加延遲，暗示著檢索效果與效率之間存在一種權(quán)衡。然而，無差別地增加假設(shè)文檔的數(shù)量并不會帶來顯著的好處，反而會大幅提高延遲，這表明使用單一假設(shè)文檔就足夠了。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

3.4.3 不同權(quán)重的稀疏檢索與密集檢索

下表展示了不同α值在混合搜索中的影響，其中α用于控制稀疏檢索與密集檢索組件之間的權(quán)重分配。我們評估了五個不同的α值，以確定它們對性能的影響。結(jié)果表明，α值為0.3時性能最佳，這表明適當調(diào)整α可以在一定程度上提高檢索效果。因此，我們?yōu)槲覀兊臋z索和主要實驗選擇了α = 0.3。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

3.5 Reranking

在最初的檢索之后，將采用重排序階段來提高檢索到的文檔的相關(guān)性，確保最相關(guān)的信息出現(xiàn)在列表的頂部。這一階段采用更精確、耗時更長的方法有效地重新排序文檔，增加查詢與排名最高的文檔之間的相似度。

在我們的重排序模塊中，我們考慮了兩種方法：DLM重排序和TILDE重排序。DLM重排序采用分類方法，而TILDE重排序則側(cè)重于查詢可能性。這些方法分別優(yōu)先考慮性能和效率。

DLM重排方法：這種方法利用深度語言模型（DLMs）進行重排。這些模型被微調(diào)用以將文檔與查詢的相關(guān)性分類為“真”或“假”。在微調(diào)過程中，模型通過將查詢和文檔輸入連接起來，并根據(jù)相關(guān)性進行標記來進行訓練。在推理時，文檔根據(jù)“真”標記的概率進行排名。
TILDE重排：TILDE通過預測模型詞匯表中的各個詞項的概率來獨立計算每個查詢詞項的可能性。通過對查詢詞項的預計算對數(shù)概率求和，為文檔打分，從而在推理時快速重排。TILDEv2通過僅索引文檔中存在的詞項，使用NCE損失，并擴展文檔，從而提高效率并減小索引大小。

我們的實驗是在MS MARCO Passage排名數(shù)據(jù)集上進行的，這是一個大規(guī)模的機器閱讀理解數(shù)據(jù)集。我們遵循并對PyGaggle和TILDE提供的實現(xiàn)進行了修改，使用了模型monoT5、monoBERT、RankLLaMA和TILDEv2。重排結(jié)果顯示在表中。我們推薦monoT5作為一種綜合性的方法，平衡了性能和效率。RankLLaMA適合于實現(xiàn)最佳性能，而TILDEv2是在固定集合上獲得最快體驗的理想選擇。實驗設(shè)置和結(jié)果的詳細信息在附錄中呈現(xiàn)。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

3.6 文檔重組

文檔重組后續(xù)過程的表現(xiàn)，比如LLM響應生成，可能會受到提供文檔的順序影響。為了解決這個問題，在重新排名之后的工作流程中，我們加入了一個緊湊的重組模塊，包含三種重組方法：“前向”、“反向”和“兩側(cè)”?！扒跋颉狈椒ㄍㄟ^降序重新排名階段的相關(guān)性得分來重組文檔，而“反向”則按升序排列它們。對于LLM，當相關(guān)信息放在輸入的頭部或尾部時，可以達到最佳性能，我們也加入了“兩側(cè)”選項。

4. 探索最佳RAG實踐

在接下來的部分中，我們將研究實施RAG的最佳實踐。首先，我們使用第3節(jié)中確定的每個模塊的默認實踐。我們依次對各個模塊進行了優(yōu)化，并在替代方案中選擇了最有效的選項。這個迭代過程持續(xù)進行，直到我們確定了實現(xiàn)最終摘要模塊的最佳方法。我們使用了經(jīng)過微調(diào)的Llama2-7B-Chat模型作為生成器，其中每個查詢都通過一些隨機選擇的相關(guān)文檔進行了增強。我們使用Milvus構(gòu)建了一個包含1000萬英文維基百科文本和400萬醫(yī)學數(shù)據(jù)文本的向量數(shù)據(jù)庫。我們還研究了移除查詢分類、重排和摘要模塊對其貢獻的影響。

4.1 全面評估

我們在各種自然語言處理(NLP)任務和數(shù)據(jù)集上進行了廣泛的實驗，以評估RAG系統(tǒng)的性能。具體來說：

常識推理
事實核查
開放域問答
多跳問答
醫(yī)療問答。

此外，我們還評估了RAG在這些數(shù)據(jù)集提取的子集上的能力，使用了在RAGAs中推薦的度量標準，包括忠實度、上下文相關(guān)性、答案相關(guān)性和答案正確性。另外，我們通過計算檢索到的文檔與黃金文檔之間的余弦相似度來衡量檢索相似度。

對于常識推理、事實核查和醫(yī)療問答任務，我們使用準確率作為評估指標。對于開放域問答和多跳問答，我們采用了基于令牌的F1分數(shù)和精確匹配(EM)分數(shù)。最終的RAG分數(shù)是通過平均上述五個RAG能力得出的。我們遵循了Trivedi等人的方法，從每個數(shù)據(jù)集中隨機抽取了多達500個樣本。

4.2 結(jié)果與分析

結(jié)果表如下：

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

根據(jù)表中呈現(xiàn)的實驗結(jié)果，以下關(guān)鍵見解浮現(xiàn)：

Query Classification：這個模塊被引用并對效率和效果都有貢獻，使得整體得分平均值從0.428提高到0.443，并將每個查詢的延遲時間從16.41秒降低到11.58秒。
Retrieval：雖然“Hybrid with HyDE”方法獲得了最高的RAG得分0.58，但它在計算成本上相當高，每個查詢需要11.71秒。因此，建議使用“Hybrid”或“Original”方法，因為它們在保持可比性能的同時減少了延遲。
Reranking：缺少重排模塊導致性能明顯下降，突顯出其必要性。MonoT5獲得了最高的平均得分，證明了其在提高檢索文檔相關(guān)性方面的有效性。這表明重排在提高生成響應的質(zhì)量方面發(fā)揮著關(guān)鍵作用。
Repacking：Reverse配置表現(xiàn)出卓越的性能，實現(xiàn)了0.560的RAG得分。這表明，將更相關(guān)的上下文放置得離查詢更近可以導致最佳結(jié)果。
概要化模塊：Recomp展現(xiàn)了卓越的性能，盡管移除概要化模塊后，以較低的延遲實現(xiàn)可比結(jié)果是可能的。然而，由于Recomp能夠解決生成器的最大長度限制，它仍然是首選。在對時間敏感的應用中，移除概要化可以有效減少響應時間。

實驗結(jié)果表明，每個模塊對RAG系統(tǒng)的整體性能都有獨特的貢獻。查詢分類模塊提高了準確性并降低了延遲，而檢索和重排模塊顯著提高了系統(tǒng)處理各種查詢的能力。重新打包和概要化模塊進一步完善了系統(tǒng)的輸出，確保了不同任務中高質(zhì)量的響應。

5. 討論

5.1 實施 RAG 的最佳實踐

根據(jù)我們的實驗發(fā)現(xiàn)，我們建議兩種不同的實施 RAG 系統(tǒng)的做法或?qū)嵺`，每種都針對特定需求進行定制：一種專注于最大化性能，另一種在效率和效果之間取得平衡。

最佳性能實踐：為了達到最高性能，建議加入查詢分類模塊，使用“Hybrid with HyDE”方法進行檢索，采用monoT5進行重排，選擇Reverse進行repacking，以及利用Recomp進行summarization。這種配置獲得了最高的平均得分0.483，盡管過程中計算量很大。
平衡效率實踐：為了在性能和效率之間取得平衡，建議加入查詢分類模塊，實現(xiàn)Hybrid方法進行檢索，使用TILDEv2進行重排，選擇Reverse進行repacking，以及采用Recomp進行summarization。鑒于檢索模塊占系統(tǒng)處理時間的大部分，轉(zhuǎn)向Hybrid方法同時保持其他模塊不變，可以大幅減少延遲，同時保持可比的性能。

5.2 多模態(tài)擴展

我們已將RAG擴展到多模態(tài)應用。具體而言，我們將文本到圖像（text2image）和圖像到文本（image2text）的檢索能力整合到系統(tǒng)中，使用大量配對的圖像和文本描述作為檢索源。如下圖所示，當用戶查詢與存儲圖像的文本描述很好地對齊時（即“檢索作為生成”策略），文本到圖像的能力可以加速圖像生成過程；而當用戶提供圖像并就輸入的圖像進行對話時，圖像到文本的功能則派上用場。這些多模態(tài)RAG能力提供了以下優(yōu)勢：

真實性：檢索方法從經(jīng)過驗證的多模態(tài)材料中提供信息，從而確保了內(nèi)容的真實性和具體性。相比之下，即時生成依賴模型生成新內(nèi)容，偶爾可能導致事實錯誤或不準確。
效率：檢索方法通常更高效，特別是當答案已經(jīng)存在于存儲材料中時。相反，生成方法可能需要更多的計算資源來產(chǎn)生新內(nèi)容，特別是對于圖像或長篇文本。
可維護性：生成模型通常需要仔細的微調(diào)，以便為新應用定制。與之相比，檢索基方法可以通過簡單地擴大檢索源的規(guī)模和提高其質(zhì)量來改進，以應對新的需求。我們計劃將這種策略的應用范圍拓寬到其他模態(tài)，如視頻和語音，同時也探索高效且有效的跨模態(tài)檢索技術(shù)。

RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐-AI.x社區(qū)

6. 結(jié)論

在本研究中，我們旨在識別實施檢索增強生成的最佳實踐，以提高大型語言模型生成內(nèi)容的質(zhì)量和可靠性。我們系統(tǒng)地評估了RAG框架內(nèi)各個模塊的潛在解決方案范圍，并為每個模塊推薦了最有效的方法。此外，我們引入了一個全面的RAG系統(tǒng)評估基準，并進行了廣泛的實驗，以確定各種替代方案中的最佳實踐。我們的發(fā)現(xiàn)不僅有助于加深對檢索增強生成系統(tǒng)的理解，而且為未來的研究奠定了基礎(chǔ)。

局限性

我們評估了用于微調(diào)大型語言模型（LLM）生成器的各種方法的影響。以前的研究已經(jīng)展示了聯(lián)合訓練檢索器和生成器的可行性。我們希望將來能夠探索這一可能性。在本研究中，我們采用模塊化設(shè)計原則以簡化對最佳RAG實現(xiàn)的搜索，從而降低復雜性。由于構(gòu)建向量數(shù)據(jù)庫和進行實驗所涉及的成本令人望而卻步，我們的評估限于調(diào)查塊處理模塊內(nèi)代表性塊處理技術(shù)的有效性和影響。進一步探索不同塊處理技術(shù)對整個RAG系統(tǒng)的影響將是一個吸引人的方向。雖然我們已經(jīng)討論了RAG在自然語言處理領(lǐng)域的應用，并將其范圍擴展到圖像生成，但將這項研究擴展到其他模態(tài)，如語音和視頻，將是未來探索的一個誘人領(lǐng)域。

參考資料

[1]RAG領(lǐng)域的最佳實踐: ??https://arxiv.org/html/2407.01219v1??

?

本文轉(zhuǎn)載自公眾號AI 博物院作者：longyunfeigu

原文鏈接：??https://mp.weixin.qq.com/s/fSWyX2qNRupOpCP09_b6Zg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

檢索感知微調(diào)（RAFT），提升領(lǐng)域RAG效果的新方法

Syrupup ? 4083瀏覽 ? 0回復
OpenAI在RAG技術(shù)上的最佳實踐與策略

AIGC觀察者 ? 3291瀏覽 ? 0回復
Unstructured專家分享RAG應用中文檔分塊（Chunking）的最佳實踐

Syrupup ? 4242瀏覽 ? 0回復
可信Agent構(gòu)建之道：AI如何重塑工作流？

ermulong ? 1980瀏覽 ? 0回復
可信Agent構(gòu)建之道：AI如何重塑工作流？

xuxiangda ? 2025瀏覽 ? 0回復
LLM 剪枝+蒸餾：NVIDIA 的最佳實踐

amei2000go ? 3720瀏覽 ? 0回復
再談大模型工作流技術(shù)之——ComfyUI框架

AI探索時代 ? 7757瀏覽 ? 0回復
記一次ComfyUI工作流bug查找過程

AI探索時代 ? 2464瀏覽 ? 0回復
放棄折騰，AutoRAG一鍵鎖定最佳RAG技術(shù)棧！

PaperAgent ? 2439瀏覽 ? 0回復
RAG工作流哪種組合效果最佳？深入探究RAG領(lǐng)域最佳實踐

AI博物院 ? 1893瀏覽 ? 0回復
分享3點關(guān)于AI 產(chǎn)品管理的最佳實踐

zhishan15 ? 1780瀏覽 ? 0回復
DeepSeek又開源R1部署最佳實踐！

探索AGI ? 1724瀏覽 ? 0回復
Agent只是手段，工作流才是內(nèi)容！

51CTO技術(shù)棧 ? 1681瀏覽 ? 0回復
一鍵開啟大模型評估：LangChain下場給出最佳實踐

ermulong ? 1623瀏覽 ? 0回復
什么是工作流？如何創(chuàng)建和編排AI智能體工作流

數(shù)字化助推器 ? 3343瀏覽 ? 0回復
智能體（Agent）的三種表現(xiàn)類型：聊天助手、工作流與對話流

九歌AI大模型 ? 1035瀏覽 ? 0回復
Anthropic開源Agentic Coding最佳實踐！

探索AGI ? 635瀏覽 ? 0回復
如何在Dify工作流節(jié)點中使用Coze的插件商店

九歌AI大模型 ? 808瀏覽 ? 0回復
關(guān)于工作流在人工智能領(lǐng)域內(nèi)的應用分析

AI探索時代 ? 437瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里Qwen3一夜封神！開源模型跑出3倍推理速度，OpenAI沉默 1天前發(fā)布
讓AI讀懂PPT圖表！RAG系統(tǒng)從60分到95分的進化之路，LlamaParse+多模態(tài)實戰(zhàn)全解析 2天前發(fā)布

熱門推薦

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價格僅1/30！ 0回復

大模型部署框架Ollama和vLLM怎么選？一文講透兩大框架的優(yōu)缺點和適用場景 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

上一篇： RAG 應用效果不太理想？試試以下RAG優(yōu)化策略大幅提升問答效果

下一篇：什么是好的GenAI 產(chǎn)品？哪些以LLM技術(shù)為支持的產(chǎn)品值得開發(fā)？

社區(qū)精華內(nèi)容

目錄