自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="fky9r"></blockquote>}

<cite id="fky9r"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路精華

發(fā)布于 2024-10-15 14:42

瀏覽

0收藏

第一章：為什么要給大模型喂"額外營養(yǎng)"？

想象一下，你有一個超級智能的AI助手，它幾乎無所不知。但當(dāng)你問它"今天的股市行情如何？"或者"最新的新冠病毒變種有哪些癥狀？"，它卻一臉茫然。這就是大語言模型（LLM）的現(xiàn)狀 - 知識廣博但不夠新鮮。

這就是為什么我們需要給LLM喂點(diǎn)"額外營養(yǎng)"，也就是外部數(shù)據(jù)。這個過程，專業(yè)點(diǎn)說叫"檢索增強(qiáng)生成"（RAG）。

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

首先，讓我們聊聊為什么要這么做：

1.1 讓AI變得更"專業(yè)"

LLM雖然懂得多，但在專業(yè)領(lǐng)域可能還不如一個剛畢業(yè)的學(xué)生。想象你在開發(fā)一個法律AI助手，如果它連最新的法律修訂都不知道，那不就成了法庭上的笑話嗎？

舉個例子：假設(shè)有一個新的環(huán)保法規(guī)出臺。傳統(tǒng)LLM可能完全不知道，但使用RAG的系統(tǒng)可以迅速學(xué)習(xí)并應(yīng)用這個新規(guī)定。這就是外部數(shù)據(jù)的威力 - 它能讓AI快速成為各行各業(yè)的"專家"。

1.2 保持AI的"時尚度"

AI世界發(fā)展太快了，昨天的新聞今天就成了舊聞。如果你的AI還在談?wù)?020年的事情，那就真的out了。

比如，如果你問AI："最新的AI突破是什么？"，傳統(tǒng)LLM可能還在談GPT-3，而使用RAG的系統(tǒng)已經(jīng)能討論GPT-4、DALL-E 3等最新進(jìn)展。

1.3 減少AI的"幻想癥"

LLM有時候會自信滿滿地胡說八道，這在AI圈叫"幻覺"。給它喂點(diǎn)靠譜的外部數(shù)據(jù)，就能大大減少這種情況。

假如你在做醫(yī)療診斷，AI胡亂猜測癥狀可是會出人命的。使用RAG，AI可以基于最新的醫(yī)學(xué)研究來給出建議，大大提高了可靠性。

聽起來很美好，對吧？但是，實現(xiàn)起來可沒那么容易。這就像是給大象裝上顯微鏡 - 既要保持大象的力量，又要發(fā)揮顯微鏡的精準(zhǔn)。

首先，你得準(zhǔn)備海量的高質(zhì)量數(shù)據(jù)。我們說的不是幾個 word，而是至少覆蓋業(yè)務(wù)場景的數(shù)據(jù)量。數(shù)據(jù)從哪來？爬蟲、購買、合作獲取，方法多得是。但要小心，爬蟲爬著爬著，搞不好律師函就來了。所以，找專業(yè)的數(shù)據(jù)團(tuán)隊來處理這事兒準(zhǔn)沒錯。

然后，你得建立一個超級高效的檢索系統(tǒng)。這就像是給AI配了個24小時不睡覺的圖書管理員，隨時準(zhǔn)備找出最相關(guān)的信息。

最后，還得想辦法讓AI"理解"這些新信息。這可不是簡單的復(fù)制粘貼，而是要讓AI真正吸收這些知識，并在回答問題時能靈活運(yùn)用。

聽起來很難？確實如此。在各個專業(yè)領(lǐng)域部署這樣的系統(tǒng)，面臨的挑戰(zhàn)可不少：

數(shù)據(jù)質(zhì)量控制：垃圾進(jìn)，垃圾出。如果喂給AI的數(shù)據(jù)質(zhì)量不好，那結(jié)果可能比不用外部數(shù)據(jù)還糟糕。
實時性vs.計算成本：理想情況下，我們希望AI能實時獲取最新信息。但這意味著巨大的計算成本。如何在實時性和成本之間取得平衡，是個大問題。
領(lǐng)域適應(yīng)性：醫(yī)療、法律、金融，每個領(lǐng)域都有其特殊性。如何讓一個通用的RAG系統(tǒng)適應(yīng)不同領(lǐng)域的需求，這可是個技術(shù)活。
隱私和安全：尤其在處理敏感信息時（比如醫(yī)療記錄），如何在利用數(shù)據(jù)的同時保護(hù)隱私，這是個棘手的問題。

給LLM喂"額外營養(yǎng)"的潛力是巨大的，但挑戰(zhàn)也不小。誰能解決這些問題，誰就可能成為下一個AI領(lǐng)域的巨頭。

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

第二章：RAG不是一刀切 - 四個層次的查詢分類

在上面，我們了解了為什么要給大模型喂"額外營養(yǎng)"。但是，就像人類的飲食需要根據(jù)不同情況調(diào)整一樣，RAG系統(tǒng)也需要根據(jù)不同類型的查詢來調(diào)整其策略。

假如你正在開發(fā)一個全能型AI助手。有時候用戶可能會問"2023年諾貝爾文學(xué)獎得主是誰？"，有時候可能會問"為什么量子計算機(jī)比傳統(tǒng)計算機(jī)快？"。這兩種問題顯然需要不同的處理方式，對吧。

基于這種思考，論文將用戶查詢分為四個層次。讓我們逐一深入探討：

2.1 顯式事實查詢

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

這是最直接的查詢類型。用戶問的是明確的、可以直接在數(shù)據(jù)中找到答案的問題。

例如："東京奧運(yùn)會是哪一年舉辦的？"

對于這類查詢，RAG系統(tǒng)的任務(wù)相對簡單：

首先，系統(tǒng)需要準(zhǔn)確理解查詢的關(guān)鍵詞（如"東京奧運(yùn)會"和"舉辦年份"）
然后，在外部數(shù)據(jù)源中直接檢索這些信息
最后，將找到的信息組織成自然語言回答

實現(xiàn)這類查詢的關(guān)鍵在于高效的信息檢索系統(tǒng)。你可能需要使用倒排索引、向量檢索等技術(shù)來加速查找過程。

2.2 隱式事實查詢

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

這類查詢雖然也是關(guān)于事實的，但答案并不能直接在單一數(shù)據(jù)點(diǎn)中找到，需要綜合多個信息。

例如："哪個國家在過去十年的奧運(yùn)會上獲得的金牌總數(shù)最多？"

處理這類查詢的挑戰(zhàn)在于：

系統(tǒng)需要理解查詢的時間范圍（"過去十年"）
需要檢索多個奧運(yùn)會的數(shù)據(jù)
對檢索到的數(shù)據(jù)進(jìn)行匯總和比較

這就需要RAG系統(tǒng)具備一定的數(shù)據(jù)處理和簡單推理能力。你可能需要實現(xiàn)一些輕量級的數(shù)據(jù)分析功能，如聚合、排序等。

2.3 可解釋推理查詢

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

這類查詢不僅需要事實，還需要解釋或推理。答案通常需要基于某些明確的規(guī)則或指南。

例如："根據(jù)現(xiàn)行法律，一個18歲的人可以在美國哪些州合法購買酒精飲料？"

處理這類查詢的難點(diǎn)在于：

系統(tǒng)需要檢索相關(guān)的法律法規(guī)
理解法律條文的含義
將法律條文應(yīng)用到具體情況（18歲）
生成一個既準(zhǔn)確又易懂的解釋

這種查詢可能需要你實現(xiàn)一些規(guī)則引擎或決策樹，以模擬人類的推理過程。

2.4 隱藏推理查詢

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

這是最復(fù)雜的查詢類型。答案不僅需要大量的背景知識，還需要復(fù)雜的推理過程，而這些推理過程可能并不明確。

例如："考慮到全球氣候變化，未來20年內(nèi)北極熊的生存前景如何？"

處理這類查詢的挑戰(zhàn)在于：

需要整合來自多個領(lǐng)域的知識（氣候科學(xué)、生態(tài)學(xué)、北極熊生物學(xué)等）
需要進(jìn)行復(fù)雜的因果推理
可能需要考慮多種可能的情景

實現(xiàn)這類查詢的RAG系統(tǒng)可能需要結(jié)合多種AI技術(shù)，如因果推理模型、情景模擬等。你可能還需要實現(xiàn)一種"思維鏈"（Chain of Thought）機(jī)制，讓AI能夠逐步推理并解釋其推理過程。

總結(jié)一下，這四個層次的查詢分類方法讓我們能夠更有針對性地設(shè)計和優(yōu)化RAG系統(tǒng)。從簡單的事實檢索到復(fù)雜的推理任務(wù)，每一層都有其獨(dú)特的挑戰(zhàn)和解決方案。

在實際應(yīng)用中，一個成熟的RAG系統(tǒng)往往需要能夠處理所有這四個層次的查詢。這就像是在訓(xùn)練一個全能運(yùn)動員 - 既要能短跑，又要能馬拉松，還得會游泳和舉重。聽起來很難？確實如此。但是，正是這種挑戰(zhàn)讓AI研究如此激動人心。

第三章：深入RAG的四個層次 - 從定義到解決方案

我們概述了RAG任務(wù)的四個層次。現(xiàn)在，讓我們卷起袖子，深入每個層次的技術(shù)細(xì)節(jié)。準(zhǔn)備好你的工程師思維，我們要開始真正的技術(shù)探索了！

3.1 顯式事實查詢

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

定義和特征：這是最基礎(chǔ)的查詢類型，答案直接存在于外部數(shù)據(jù)中。特征是查詢和答案之間存在直接的文本匹配關(guān)系。

例如：Query: "誰發(fā)明了電話？" Answer: "亞歷山大·格雷厄姆·貝爾發(fā)明了電話。"

相關(guān)數(shù)據(jù)集：

Natural Questions (NQ)
SQuAD (Stanford Question Answering Dataset)
TriviaQA

這些數(shù)據(jù)集包含大量的問答對，非常適合訓(xùn)練和評估處理顯式事實查詢的模型。

關(guān)鍵挑戰(zhàn)：

高效檢索：在海量數(shù)據(jù)中快速定位相關(guān)信息。
準(zhǔn)確匹配：精確識別查詢和答案之間的對應(yīng)關(guān)系。
答案抽取：從檢索到的文本中準(zhǔn)確提取所需信息。

最有效的解決技術(shù)：

稠密檢索：使用BERT等模型將查詢和文檔編碼為稠密向量，進(jìn)行相似度匹配。
BM25等經(jīng)典檢索算法：基于詞頻和文檔頻率進(jìn)行相關(guān)性排序。
跨度預(yù)測：使用機(jī)器學(xué)習(xí)模型在檢索到的文檔中預(yù)測答案的起始和結(jié)束位置。

代碼示例（使用Haystack框架）：

from haystack import Pipeline
from haystack.nodes import BM25Retriever, FARMReader

retriever = BM25Retriever(document_store)
reader = FARMReader("deepset/roberta-base-squad2")

pipe = Pipeline()
pipe.add_node(compnotallow=retriever, name="Retriever", inputs=["Query"])
pipe.add_node(compnotallow=reader, name="Reader", inputs=["Retriever"])

result = pipe.run(query="誰發(fā)明了電話？")
print(result['answers'][0].answer)

3.2 隱式事實查詢

定義和特征：這類查詢的答案需要綜合多個信息源。特征是需要進(jìn)行簡單的推理或計算。

例如：Query: "哪個國家在2020年奧運(yùn)會上獲得的金牌最多？"
Answer: 需要檢索多個國家的金牌數(shù)據(jù)，并進(jìn)行比較。

相關(guān)數(shù)據(jù)集：

HotpotQA
ComplexWebQuestions
IIRC (Incomplete Information Reading Comprehension)

這些數(shù)據(jù)集包含需要多跳推理的問題，很適合訓(xùn)練處理隱式事實查詢的模型。

關(guān)鍵挑戰(zhàn)：

多跳推理：需要從多個文檔中收集信息并進(jìn)行整合。
信息聚合：如何有效地組合來自不同源的信息。
中間結(jié)果管理：在多步推理過程中如何管理和利用中間結(jié)果。

最有效的解決技術(shù)：

圖神經(jīng)網(wǎng)絡(luò)：構(gòu)建文檔之間的關(guān)系圖，進(jìn)行多跳推理。
迭代檢索：基于初始檢索結(jié)果進(jìn)行多輪檢索，逐步收集所需信息。
查詢分解：將復(fù)雜查詢分解為多個簡單查詢，分步驟解決。

代碼示例（使用DeepsetAI的Haystack框架）：

from haystack import Pipeline
from haystack.nodes import BM25Retriever, FARMReader, JoinDocuments

retriever = BM25Retriever(document_store)
reader = FARMReader("deepset/roberta-base-squad2")
joiner = JoinDocuments(join_mode="concatenate")

pipe = Pipeline()
pipe.add_node(compnotallow=retriever, name="Retriever", inputs=["Query"])
pipe.add_node(compnotallow=joiner, name="Joiner", inputs=["Retriever"])
pipe.add_node(compnotallow=reader, name="Reader", inputs=["Joiner"])

result = pipe.run(query="哪個國家在2020年奧運(yùn)會上獲得的金牌最多？")
print(result['answers'][0].answer)

3.3 可解釋推理查詢

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

定義和特征：這類查詢需要基于特定規(guī)則或指南進(jìn)行推理。特征是需要應(yīng)用領(lǐng)域知識和邏輯推理。

例如：Query: "根據(jù)現(xiàn)行法律，一個年收入5萬美元的單身人士在加利福尼亞州需要繳納多少所得稅？"
Answer: 需要檢索稅法，理解稅率表，并進(jìn)行相應(yīng)計算。

相關(guān)數(shù)據(jù)集：

LogicalQA
ReClor
ProofWriter

這些數(shù)據(jù)集包含需要邏輯推理的問題，適合訓(xùn)練處理可解釋推理查詢的模型。

關(guān)鍵挑戰(zhàn)：

規(guī)則表示：如何在系統(tǒng)中表示和存儲復(fù)雜的規(guī)則和指南。
規(guī)則應(yīng)用：如何正確地將規(guī)則應(yīng)用到具體情況。
解釋生成：如何生成清晰、可理解的推理過程解釋。

最有效的解決技術(shù)：

符號推理：使用邏輯編程語言（如Prolog）表示和應(yīng)用規(guī)則。
神經(jīng)符號結(jié)合：將神經(jīng)網(wǎng)絡(luò)與符號推理系統(tǒng)結(jié)合。
Chain-of-Thought提示：使用特殊的提示技術(shù)引導(dǎo)語言模型進(jìn)行步驟化推理。

代碼示例（使用GPT-3進(jìn)行Chain-of-Thought推理）：

import openai

openai.api_key = "your-api-key"

prompt = """
Query: 根據(jù)現(xiàn)行法律，一個年收入5萬美元的單身人士在加利福尼亞州需要繳納多少所得稅？

Let's approach this step-by-step:

1) First, we need to know the California state income tax brackets for single filers.
2) Then, we'll calculate the tax for each bracket up to $50,000.
3) Finally, we'll sum up the tax amounts.

Step 1: California tax brackets for single filers (2021):
- 1% on the first $8,932 of taxable income
- 2% on taxable income between $8,933 and $21,175
- 4% on taxable income between $21,176 and $33,421
- 6% on taxable income between $33,422 and $46,394
- 8% on taxable income between $46,395 and $50,000

Step 2: Calculate tax for each bracket:
- 1% of $8,932 = $89.32
- 2% of ($21,175 - $8,933) = $244.84
- 4% of ($33,421 - $21,176) = $489.80
- 6% of ($46,394 - $33,422) = $778.32
- 8% of ($50,000 - $46,395) = $288.40

Step 3: Sum up the tax amounts:
$89.32 + $244.84 + $489.80 + $778.32 + $288.40 = $1,890.68

Therefore, a single person with an annual income of $50,000 in California would owe approximately $1,890.68 in state income tax.

Note: This is a simplified calculation and doesn't account for deductions, credits, or other factors that might affect the actual tax liability.
"""

response = openai.Completion.create(
  engine="gpt4",
  prompt=prompt,
  max_tokens=500
)

print(response.choices[0].text.strip())

隱藏推理查詢

定義和特征：這是最復(fù)雜的查詢類型，需要大量背景知識和復(fù)雜的推理過程。特征是推理過程往往不是明確的，需要模型自行發(fā)現(xiàn)和應(yīng)用隱含的知識和關(guān)系。

例如：Query: "考慮到全球氣候變化和人類活動，預(yù)測未來50年內(nèi)亞馬遜雨林的變化。"
Answer: 需要綜合氣候科學(xué)、生態(tài)學(xué)、社會學(xué)等多個領(lǐng)域的知識，進(jìn)行復(fù)雜的因果推理和預(yù)測。

相關(guān)數(shù)據(jù)集：

ARC-Challenge
OpenBookQA
QASC (Question Answering via Sentence Composition)

這些數(shù)據(jù)集包含需要廣泛知識和復(fù)雜推理的問題，適合訓(xùn)練處理隱藏推理查詢的模型。

關(guān)鍵挑戰(zhàn)：

知識整合：如何有效整合來自不同領(lǐng)域的大量知識。
隱含關(guān)系發(fā)現(xiàn)：如何發(fā)現(xiàn)數(shù)據(jù)中的隱含關(guān)系和模式。
不確定性處理：如何處理推理過程中的不確定性和多種可能性。

最有效的解決技術(shù)：

大規(guī)模預(yù)訓(xùn)練語言模型：如GPT-3, PaLM等，它們包含大量隱含知識。
知識圖譜：構(gòu)建和利用大規(guī)模知識圖譜進(jìn)行復(fù)雜推理。
多任務(wù)學(xué)習(xí)：同時學(xué)習(xí)多個相關(guān)任務(wù)，提高模型的泛化能力。
元學(xué)習(xí)：讓模型學(xué)會如何學(xué)習(xí)，以適應(yīng)新的、復(fù)雜的推理任務(wù)。

代碼示例（使用Hugging Face的Transformers庫和GPT-4）：

from transformers import pipeline
import openai

# 使用BART進(jìn)行初步總結(jié)
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# 假設(shè)我們有多個相關(guān)文檔
documents = [
    "氣候變化正在加速亞馬遜雨林的退化...",
    "人類活動，如砍伐和農(nóng)業(yè)擴(kuò)張，正在威脅亞馬遜雨林...",
    "一些研究表明，亞馬遜雨林可能會在未來幾十年內(nèi)達(dá)到臨界點(diǎn)..."
]

# 總結(jié)每個文檔
summaries = [summarizer(doc, max_length=50, min_length=10, do_sample=False)[0]['summary_text'] for doc in documents]

# 使用GPT-3進(jìn)行最終的綜合分析
openai.api_key = "your-api-key"

prompt = f"""
Based on the following summaries about the Amazon rainforest:

{' '.join(summaries)}

Predict the changes in the Amazon rainforest over the next 50 years, considering global climate change and human activities. Provide a detailed analysis.
"""

response = openai.Completion.create(
  engine="gpt4",
  prompt=prompt,
  max_tokens=500
)

print(response.choices[0].text.strip())

以上的例子展示了如何結(jié)合使用預(yù)訓(xùn)練模型進(jìn)行文本總結(jié)，然后使用更強(qiáng)大的語言模型（如GPT-4）進(jìn)行復(fù)雜的推理和預(yù)測。
通過深入了解這四個層次的查詢，我們可以看到RAG系統(tǒng)面臨的挑戰(zhàn)是多方面的，從簡單的信息檢索到復(fù)雜的知識整合和推理。每一個層次都需要特定的技術(shù)和方法來解決其獨(dú)特的挑戰(zhàn)。

在實際應(yīng)用中，一個成熟的RAG系統(tǒng)往往需要能夠處理所有這四個層次的查詢。這就要求我們不斷創(chuàng)新和改進(jìn)現(xiàn)有的技術(shù)，同時也為AI研究開辟了廣闊的前景。

第四章：數(shù)據(jù)與LLM的三種"聯(lián)姻"方式

在前面的內(nèi)容中，我們討論了RAG系統(tǒng)如何處理不同層次的查詢?，F(xiàn)在，讓我們轉(zhuǎn)向一個更加根本的問題：假如獲取到數(shù)據(jù)后，如何將外部數(shù)據(jù)與LLM結(jié)合起來？論文提出了三種主要的方法，每種方法都有其獨(dú)特的優(yōu)勢和挑戰(zhàn)。讓我們逐一深入探討。

4.1 上下文方法（Context）

這種方法就像是給LLM一個即時的"記憶補(bǔ)丁"。每次詢問LLM時，我們都會同時提供相關(guān)的上下文信息。

工作原理：

接收用戶查詢
從外部數(shù)據(jù)源檢索相關(guān)信息
將檢索到的信息與用戶查詢一起作為輸入提供給LLM
LLM基于這個增強(qiáng)的輸入生成回答

優(yōu)勢：

靈活性高：可以根據(jù)每個查詢動態(tài)選擇相關(guān)信息
無需重新訓(xùn)練模型：可以直接使用預(yù)訓(xùn)練的LLM
可解釋性強(qiáng)：我們知道模型使用了哪些額外信息

挑戰(zhàn)：

上下文長度限制：LLM通常有輸入長度限制，限制了可以提供的上下文量
檢索質(zhì)量依賴：回答質(zhì)量高度依賴于檢索系統(tǒng)的性能
計算成本：每次查詢都需要進(jìn)行檢索，可能增加延遲

實現(xiàn)示例：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-72B-Instruct")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-72B-Instruct")

def get_context(query):
    # 這里應(yīng)該是你的檢索邏輯
    return "相關(guān)上下文信息..."

query = "什么是量子計算？"
context = get_context(query)

input_text = f"上下文：{context}\n問題：{query}\n回答："
input_ids = tokenizer.encode(input_text, return_tensors="pt")

output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)
response = tokenizer.decode(output[0], skip_special_tokens=True)

print(response)

4.2 小模型方法（Small model）

這種方法就像是給LLM配備了一個專業(yè)的"助手"。我們訓(xùn)練一個小型模型來處理特定任務(wù)，如信息檢索或知識整合，然后將這個小模型的輸出提供給LLM。

工作原理：

訓(xùn)練一個專門的小模型（如檢索器或知識整合器）
接收用戶查詢
小模型處理查詢，生成相關(guān)信息或知識表示
將小模型的輸出與用戶查詢一起提供給LLM
LLM生成最終回答

優(yōu)勢：

效率：小模型可以更快速地處理大量數(shù)據(jù)
專業(yè)性：可以為特定任務(wù)定制小模型
模塊化：可以輕松更新或替換小模型，而不影響主要的LLM

挑戰(zhàn)：

訓(xùn)練復(fù)雜性：需要額外的訓(xùn)練過程和數(shù)據(jù)
集成難度：需要設(shè)計有效的方法將小模型的輸出與LLM結(jié)合
性能瓶頸：如果小模型性能不佳，可能會限制整個系統(tǒng)的表現(xiàn)

實現(xiàn)示例：

from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
import torch

# 假設(shè)這是我們的小模型，用于生成查詢的向量表示
retriever_tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
retriever_model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")

# 主要的LLM
lm_tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-72B-Instruct")
lm_model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-72B-Instruct")

def get_query_embedding(query):
    inputs = retriever_tokenizer(query, return_tensors="pt", padding=True, truncatinotallow=True)
    with torch.no_grad():
        outputs = retriever_model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)

query = "什么是量子計算？"
query_embedding = get_query_embedding(query)

# 在實際應(yīng)用中，我們會用這個嵌入來檢索相關(guān)文檔
# 這里我們簡單地假設(shè)我們得到了一些相關(guān)信息
retrieved_info = "量子計算是利用量子力學(xué)現(xiàn)象進(jìn)行計算的技術(shù)..."

input_text = f"基于以下信息：{retrieved_info}\n回答問題：{query}"
input_ids = lm_tokenizer.encode(input_text, return_tensors="pt")

output = lm_model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)
response = lm_tokenizer.decode(output[0], skip_special_tokens=True)

print(response)

4.3 微調(diào)方法（Fine-tuning）

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

這種方法就像是給LLM進(jìn)行"專業(yè)培訓(xùn)"。我們使用特定領(lǐng)域的數(shù)據(jù)對預(yù)訓(xùn)練的LLM進(jìn)行進(jìn)一步的訓(xùn)練，使其能夠更好地處理特定類型的任務(wù)或領(lǐng)域知識。

工作原理：

準(zhǔn)備特定領(lǐng)域或任務(wù)的數(shù)據(jù)集
使用這些數(shù)據(jù)對預(yù)訓(xùn)練的LLM進(jìn)行進(jìn)一步訓(xùn)練
在推理時，直接使用微調(diào)后的模型處理用戶查詢

優(yōu)勢：

性能：在特定領(lǐng)域或任務(wù)上可以獲得最佳性能
效率：推理時不需要額外的檢索步驟
知識整合：可以將大量領(lǐng)域知識直接整合到模型中

挑戰(zhàn)：

計算成本：微調(diào)大型模型需要大量計算資源
數(shù)據(jù)需求：需要大量高質(zhì)量的領(lǐng)域特定數(shù)據(jù)
靈活性降低：微調(diào)后的模型可能在其他領(lǐng)域表現(xiàn)下降

實現(xiàn)示例：

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
import torch
from datasets import load_dataset

# 加載預(yù)訓(xùn)練模型
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 準(zhǔn)備數(shù)據(jù)集（這里使用虛構(gòu)的數(shù)據(jù)集名稱）
dataset = load_dataset("quantum_physics_dataset")

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncatinotallow=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

# 設(shè)置訓(xùn)練參數(shù)
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="./logs",
)

# 創(chuàng)建Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
)

# 開始微調(diào)
trainer.train()

# 使用微調(diào)后的模型
query = "什么是量子糾纏？"
input_ids = tokenizer.encode(query, return_tensors="pt")
output = model.generate(input_ids, max_length=200, num_return_sequences=1, no_repeat_ngram_size=2)
response = tokenizer.decode(output[0], skip_special_tokens=True)

print(response)

每種方法都有其適用的場景：

上下文方法適合需要高度靈活性，或者經(jīng)常需要處理新信息的場景。
小模型方法適合需要專門處理某些復(fù)雜任務(wù)（如高級檢索或知識推理）的場景。
微調(diào)方法適合在特定領(lǐng)域需要深度專業(yè)知識，且有大量相關(guān)數(shù)據(jù)可用的場景。

在實際應(yīng)用中，這三種方法往往是結(jié)合使用的。例如，我們可能會先對LLM進(jìn)行領(lǐng)域微調(diào)，然后在使用時還配合上下文方法提供最新信息?；蛘?，我們可能會使用經(jīng)過微調(diào)的小模型來進(jìn)行檢索，然后將檢索結(jié)果作為上下文提供給主要的LLM。

選擇哪種方法，或如何組合這些方法，取決于具體的應(yīng)用需求、可用資源、以及對模型性能、效率和靈活性的權(quán)衡。

第五章：RAG的藝術(shù) - 從理論到實踐的整合之道

我們將把前面所學(xué)的所有概念串聯(lián)起來，看看如何在實際中運(yùn)用這些知識。系好安全帶，我們開始這段激動人心的旅程吧！

5.1 三種整合方式的利弊權(quán)衡

還記得我們討論過的三種將外部數(shù)據(jù)整合到LLM中的方式嗎？讓我們再深入探討一下它們各自的優(yōu)缺點(diǎn)和適用場景。

上下文方法（Context）

優(yōu)勢：

- 靈活性拉滿：想換數(shù)據(jù)就換，LLM完全不用動
- 透明度高：我們清楚地知道模型用了哪些額外信息

局限性：

- 上下文長度有限：就像塞鴨子，塞太多LLM也消化不了
- 檢索質(zhì)量決定生死：垃圾進(jìn)垃圾出，檢索不好全盤皆輸

適用場景：

- 需要頻繁更新知識庫的應(yīng)用
- 對結(jié)果可解釋性要求高的場景

小模型方法（Small model）

優(yōu)勢：

- 專業(yè)性強(qiáng)：可以為特定任務(wù)定制"小助手"
- 模塊化設(shè)計：想換就換，主LLM不受影響

局限性：

- 訓(xùn)練成本高：又要準(zhǔn)備數(shù)據(jù)又要訓(xùn)練，累死個人
- 集成難度大：讓"小助手"和LLM無縫配合不是易事

適用場景：

- 有特定復(fù)雜任務(wù)需要處理的應(yīng)用
- 計算資源有限，無法頻繁調(diào)用大型LLM的情況

微調(diào)方法（Fine-tuning）

優(yōu)勢：

- 性能王者：在特定領(lǐng)域可以達(dá)到最佳表現(xiàn)
- 推理效率高：不需要額外的檢索步驟

局限性：

- 計算成本高：微調(diào)大模型，沒個幾千塊GPU別想了
- 靈活性降低：一旦微調(diào)，可能會影響其他領(lǐng)域的表現(xiàn)

適用場景：

- 特定領(lǐng)域的專業(yè)應(yīng)用
- 有大量高質(zhì)量領(lǐng)域數(shù)據(jù)可用的情況

5.2 四個查詢層次的技術(shù)方案

現(xiàn)在，讓我們看看如何針對不同復(fù)雜度的查詢選擇合適的技術(shù)方案。

顯式事實查詢：基礎(chǔ)RAG就夠了這就像是在圖書館找一本特定的書。我們用基礎(chǔ)的RAG就能搞定，主要是要把檢索做好。代碼示例：

from haystack import Pipeline
from haystack.nodes import BM25Retriever, FARMReader

retriever = BM25Retriever(document_store)
reader = FARMReader("deepset/roberta-base-squad2")

pipe = Pipeline()
pipe.add_node(compnotallow=retriever, name="Retriever", inputs=["Query"])
pipe.add_node(compnotallow=reader, name="Reader", inputs=["Retriever"])

result = pipe.run(query="誰發(fā)明了電話？")
print(result['answers'][0].answer)

隱式事實查詢：迭代RAG、圖/樹RAG、RAG+SQL這就像是要寫一篇研究報告，需要查閱多本書籍并整合信息。

代碼示例（迭代RAG）：

def iterative_rag(query, max_iteratinotallow=3):
    context = ""
    for i in range(max_iterations):
        result = pipe.run(query=query + " " + context)
        new_info = result['answers'][0].answer
        context += new_info
        if "完整回答" in new_info:
            break
    return context

final_answer = iterative_rag("比較太陽系中最大和最小的行星")
print(final_answer)

- 迭代RAG：多輪檢索，每輪基于之前的結(jié)果繼續(xù)深入
- 圖/樹RAG：構(gòu)建知識圖譜，進(jìn)行多跳推理
- RAG+SQL：結(jié)合結(jié)構(gòu)化數(shù)據(jù)查詢，處理復(fù)雜的數(shù)值計算

可解釋推理查詢：提示調(diào)優(yōu)、思維鏈提示這就像是要解決一道復(fù)雜的數(shù)學(xué)題，需要一步步推導(dǎo)。

代碼示例（思維鏈提示）：

prompt = """
問題：一個水箱可以在6小時內(nèi)裝滿水?，F(xiàn)在已經(jīng)裝了2小時，還剩下3/4沒裝滿。請問這個水箱實際上需要多長時間才能裝滿？

讓我們一步步思考：
1) 首先，我們知道正常情況下，水箱需要6小時裝滿。
2) 現(xiàn)在已經(jīng)裝了2小時，還剩3/4沒裝滿。
3) 這意味著2小時內(nèi)只裝滿了1/4的水箱。
4) 如果2小時裝滿1/4，那么裝滿整個水箱需要的時間是：
   2小時 * 4 = 8小時

因此，這個水箱實際上需要8小時才能裝滿。

是否需要我進(jìn)一步解釋這個推理過程？
"""

response = openai.Completion.create(engine="gpt4", prompt=prompt, max_tokens=150)
print(response.choices[0].text.strip())

- 提示調(diào)優(yōu)：設(shè)計特定的提示模板，引導(dǎo)LLM進(jìn)行推理
- 思維鏈提示：讓LLM像人類一樣，一步步寫出推理過程

隱藏推理查詢：離線學(xué)習(xí)、上下文學(xué)習(xí)、微調(diào)這就像是要預(yù)測未來的股市走勢，需要整合大量信息并進(jìn)行復(fù)雜的推理。

代碼示例（微調(diào)）：

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer

model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 準(zhǔn)備特定領(lǐng)域的數(shù)據(jù)集
train_dataset = ...  # 你的訓(xùn)練數(shù)據(jù)
eval_dataset = ...   # 你的評估數(shù)據(jù)

training_args = TrainingArguments(output_dir="./results", num_train_epochs=3, per_device_train_batch_size=8)

trainer = Trainer(model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset)
trainer.train()

# 使用微調(diào)后的模型
query = "預(yù)測未來5年的全球經(jīng)濟(jì)趨勢"
input_ids = tokenizer.encode(query, return_tensors="pt")
output = model.generate(input_ids, max_length=200)
print(tokenizer.decode(output[0], skip_special_tokens=True))

- 離線學(xué)習(xí)：預(yù)先學(xué)習(xí)領(lǐng)域知識，構(gòu)建專門的知識庫
- 上下文學(xué)習(xí)：動態(tài)選擇最相關(guān)的上下文進(jìn)行學(xué)習(xí)
- 微調(diào)：在特定領(lǐng)域數(shù)據(jù)上微調(diào)LLM

5.3 知己知彼，百戰(zhàn)不殆

在開發(fā)RAG應(yīng)用之前，我們需要做的第一件事是什么？沒錯，就是深入理解我們要解決的問題。這就像是要打仗前先要了解敵情一樣重要。

理解目標(biāo)任務(wù)：我們到底要解決什么問題？是簡單的信息檢索還是復(fù)雜的推理任務(wù)？
確定查詢復(fù)雜度：我們的用戶會問什么類型的問題？是簡單的事實查詢還是需要深度推理的問題？
評估數(shù)據(jù)情況：我們有什么樣的數(shù)據(jù)可用？數(shù)據(jù)的質(zhì)量如何？是否需要預(yù)處理？
考慮資源限制：我們有多少計算資源？對響應(yīng)速度有什么要求？

只有充分理解了這些因素，我們才能選擇最適合的技術(shù)方案。記住，沒有一種方法是萬能的，關(guān)鍵是找到最適合你特定需求的方法。

5.4 大雜燴才是真正的美味

在實際應(yīng)用中，我們經(jīng)常會遇到各種類型的查詢混雜在一起的情況。這就像是要做一道大雜燴，需要各種食材和調(diào)料的完美配合。

我們需要設(shè)計一個智能的路由系統(tǒng)，能夠識別不同類型的查詢，并將其導(dǎo)向最合適的處理模塊。這個系統(tǒng)可能看起來像這樣：

def query_router(query):
    if is_simple_fact_query(query):
        return basic_rag(query)
    elif is_implicit_fact_query(query):
        return iterative_rag(query)
    elif is_interpretable_reasoning_query(query):
        return chain_of_thought_prompting(query)
    elif is_hidden_reasoning_query(query):
        return fine_tuned_model(query)
    else:
        return fallback_method(query)

def process_query(query):
    response = query_router(query)
    return post_process(response)

# 使用示例
user_query = "請解釋量子糾纏的原理及其在量子計算中的應(yīng)用"
answer = process_query(user_query)
print(answer)

這個路由系統(tǒng)就像是一個經(jīng)驗豐富的總廚，知道每種原料應(yīng)該如何處理，最終做出一道美味的大餐。

結(jié)語

構(gòu)建一個優(yōu)秀的RAG系統(tǒng)，就像是在進(jìn)行一場復(fù)雜的廚藝比賽。你需要了解每種原料（數(shù)據(jù)）的特性，掌握各種烹飪技巧（技術(shù)方法），并且要有足夠的創(chuàng)意來應(yīng)對各種挑戰(zhàn)。

RAG系統(tǒng)的四層天梯：大模型RAG系統(tǒng)的成長之路-AI.x社區(qū)

記住，理論和實踐同樣重要。多嘗試，多總結(jié)，你就會發(fā)現(xiàn)RAG的魅力所在。誰知道呢，或許也許下一個改變AI世界的突破，就來自于你的靈感。

論文原文：

《Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely》

本文轉(zhuǎn)載自 ??芝士AI吃魚??，作者：芝士AI吃魚

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Advanced RAG 07：在 RAG 系統(tǒng)中進(jìn)行表格數(shù)據(jù)處理的新思路

Baihai_IDP ? 4924瀏覽 ? 0回復(fù)
AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 3271瀏覽 ? 0回復(fù)
提升 RAG 系統(tǒng)的回答質(zhì)量：構(gòu)建高效的 Prompt

玄姐聊AGI ? 3231瀏覽 ? 0回復(fù)
評估RAG系統(tǒng)組件的終極指南

51CTO內(nèi)容精選 ? 2300瀏覽 ? 0回復(fù)
微軟新綜述：大模型RAG系統(tǒng)的4層境界！

探索AGI ? 3023瀏覽 ? 0回復(fù)
智能決策進(jìn)化之路：從長上下文LLM到自主RAG系統(tǒng)

Halo咯咯 ? 2984瀏覽 ? 0回復(fù)
超越GraphRAG的大模型RAG系統(tǒng)LightRAG開源啦！

AI博物院 ? 3122瀏覽 ? 0回復(fù)
RAG系統(tǒng)的檢索機(jī)制真的需要那么"完美"嗎？

sbf_2000 ? 1982瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG檢索模塊初建成

一起AI技術(shù) ? 2051瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：RAG的檢索增強(qiáng)之ElasticSearch

一起AI技術(shù) ? 2435瀏覽 ? 0回復(fù)
大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 3459瀏覽 ? 0回復(fù)
四年匠心磨礪，快手系統(tǒng)軟件技術(shù)創(chuàng)新與領(lǐng)域演進(jìn)之路

快手技術(shù) ? 1794瀏覽 ? 0回復(fù)
RAG在智能問答系統(tǒng)中的應(yīng)用

數(shù)字化助推器 ? 1994瀏覽 ? 0回復(fù)
超越 RAG：構(gòu)建增強(qiáng)而非替代思維的知識管理系統(tǒng)

ermulong ? 1667瀏覽 ? 0回復(fù)
LangChain與CrewAI構(gòu)建基于RAG的智能查詢解答系統(tǒng)

Halo咯咯 ? 1020瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時代 ? 832瀏覽 ? 0回復(fù)
從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解

PyTorch研習(xí)社 ? 828瀏覽 ? 0回復(fù)
RAG系統(tǒng)從60分到95分的進(jìn)化之路，LlamaParse+多模態(tài)實戰(zhàn)全解析

AI博物院 ? 398瀏覽 ? 0回復(fù)
關(guān)于基于RAG技術(shù)的智能客服系統(tǒng)解決方案

AI探索時代 ? 275瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Agentic RAG 的小白科普文 7天前發(fā)布
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維 7天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：大模型的記憶困境：平衡持續(xù)學(xué)習(xí)與災(zāi)難性遺忘

下一篇：我的“七年之癢”-變與不變：從LSTM到RAG、大模型

社區(qū)精華內(nèi)容

目錄