RAG還是微調(diào)?微軟出了一份特定領(lǐng)域大模型應(yīng)用建設(shè)流程指南
在構(gòu)建大語言模型應(yīng)用程序時通常有兩種常見的方法來整合專有和特定領(lǐng)域的數(shù)據(jù):檢索增強生成和微調(diào)。檢索增強生成通過外部數(shù)據(jù)增強提示,而微調(diào)將額外的知識整合到模型本身中。不過,對這兩種方法的優(yōu)缺點了解的卻不夠充分。
本文中,來自微軟的研究者引入一個新的關(guān)注點:為需要特定背景和自適應(yīng)響應(yīng)的行業(yè)(農(nóng)業(yè))創(chuàng)建 AI 助手。本文提出了一個全面的大語言模型流程,用于生成高質(zhì)量的、行業(yè)特定的問題和答案。該方法包含一個系統(tǒng)化的過程,包括鑒別和收集涵蓋廣泛農(nóng)業(yè)主題的相關(guān)文檔。接著清理和結(jié)構(gòu)化這些文檔,以便使用基本的 GPT 模型生成有意義的問答對。生成的問答對隨后根據(jù)其質(zhì)量進(jìn)行評估和篩選。
本文的目標(biāo)是為特定行業(yè)創(chuàng)建有價值的知識資源,以農(nóng)業(yè)為案例研究,最終的目標(biāo)是能為 LLM 在農(nóng)業(yè)領(lǐng)域的發(fā)展做出貢獻(xiàn)。
- 論文地址:https://arxiv.org/pdf/2401.08406.pdf
- 論文標(biāo)題:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
本文提出的流程旨在生成滿足某個行業(yè)中專業(yè)人員和利益相關(guān)者需求的領(lǐng)域特定問題和答案,在該行業(yè)中,期望從 AI 助手那里得到的答案應(yīng)該基于相關(guān)的行業(yè)特定因素。
本文涉及的是農(nóng)業(yè)研究,目標(biāo)是生成該特定領(lǐng)域的答案。因此研究的起點是農(nóng)業(yè)數(shù)據(jù)集,它被輸入到三個主要組件中:問答生成、檢索增強生成和微調(diào)過程。問答生成根據(jù)農(nóng)業(yè)數(shù)據(jù)集中的信息創(chuàng)建問答對,檢索增強生成將其用作知識源。生成的數(shù)據(jù)經(jīng)過精煉,并用于微調(diào)多個模型,其質(zhì)量通過一組提出的度量標(biāo)準(zhǔn)進(jìn)行評估。通過這種全面的方法,利用大語言模型的力量,造福農(nóng)業(yè)行業(yè)及其他利益相關(guān)者。
本文對大語言模型在農(nóng)業(yè)領(lǐng)域的理解做出了一些特殊貢獻(xiàn),這些貢獻(xiàn)可以歸納如下:
1、對 LLMs 的全面評估:本文對大語言模型進(jìn)行了廣泛評估,包括 LlaMa2-13B、GPT-4 和 Vicuna,以回答與農(nóng)業(yè)相關(guān)的問題。使用了來自主要農(nóng)業(yè)生產(chǎn)國的基準(zhǔn)數(shù)據(jù)集進(jìn)行評估。本文的分析中,GPT-4 一直表現(xiàn)優(yōu)于其它模型,但也需要考慮與其微調(diào)和推理相關(guān)的成本。
2、檢索技術(shù)和微調(diào)對性能的影響:本文研究了檢索技術(shù)和微調(diào)對 LLMs 性能的影響。研究發(fā)現(xiàn),檢索增強生成和微調(diào)都是提高 LLMs 性能的有效技術(shù)。
3、LLMs 在不同行業(yè)潛在應(yīng)用的影響:對于想要建立 RAG 和微調(diào)技術(shù)在 LLMs 中應(yīng)用的流程而言,本文走出了開創(chuàng)性的一步,并促進(jìn)了多個行業(yè)之間的創(chuàng)新和合作。
方法
本文第 2 部分詳細(xì)介紹采用了方法論,包括數(shù)據(jù)獲取過程、信息提取過程、問題和答案生成,以及模型的微調(diào)。該方法論圍繞著一個旨在生成和評估用于構(gòu)建領(lǐng)域特定助手的問答對流程展開,如下圖 1 所示。
該流程以數(shù)據(jù)獲取開始,這包括從各種高質(zhì)量的存儲庫中獲取數(shù)據(jù),比如政府機構(gòu)、科學(xué)知識數(shù)據(jù)庫,以及必要時使用專有數(shù)據(jù)。
在完成數(shù)據(jù)獲取后,流程繼續(xù)從收集的文檔中提取信息。這一步驟至關(guān)重要,因為它涉及解析復(fù)雜且非結(jié)構(gòu)化的 PDF 文件,以恢復(fù)其中的內(nèi)容和結(jié)構(gòu)。下圖 2 展示了數(shù)據(jù)集中一個 PDF 文件的示例。
流程的下一個組成部分是問題和答案生成。這里的目標(biāo)是生成有上下文基礎(chǔ)的高質(zhì)量問題,準(zhǔn)確反映提取文本的內(nèi)容。本文方法采用了一個框架來控制輸入和輸出的結(jié)構(gòu)組成,從而增強語言模型生成響應(yīng)的整體效果。
隨后,流程為制定的問題生成答案。此處采用的方法利用了檢索增強生成,結(jié)合了檢索和生成機制的能力,以創(chuàng)建高質(zhì)量的答案。
最后,流程通過 Q&A 對微調(diào)模型。優(yōu)化過程采用了低秩調(diào)整(LoRA)等方法,確保全面理解科學(xué)文獻(xiàn)的內(nèi)容和背景,使其成為各個領(lǐng)域或行業(yè)的有價值資源。
數(shù)據(jù)集
研究中評估了經(jīng)過微調(diào)和檢索增強生成的語言模型,使用與背景相關(guān)的問題和答案數(shù)據(jù)集,這些數(shù)據(jù)集來源于三個主要的作物生產(chǎn)國:美國、巴西和印度。本文的案例中,以農(nóng)業(yè)作為工業(yè)背景。可用的數(shù)據(jù)在格式和內(nèi)容上變化很大,涵蓋了法規(guī)文件、科學(xué)報告、農(nóng)學(xué)考試以及知識數(shù)據(jù)庫等各種類型。
本文從美國農(nóng)業(yè)部、州農(nóng)業(yè)和消費者服務(wù)機構(gòu)等公開可獲得的在線文檔、手冊和報告中收集了信息。
可獲得的文檔包括了有關(guān)作物和牲畜管理、疾病和最佳實踐的聯(lián)邦法規(guī)和政策信息,質(zhì)量保證和出口法規(guī),援助計劃的詳細(xì)信息,以及保險和定價指南。收集的數(shù)據(jù)總計超過 23,000 個 PDF 文件,包含超過 5000 萬個 tokens,涵蓋了美國 44 個州。研究者下載并預(yù)處理了這些文件,提取了可以用作問答生成流程輸入的文本信息。
為了對模型進(jìn)行基準(zhǔn)測試和評估,本文使用了與華盛頓州相關(guān)的文檔,其中包括 573 個文件,包含超過 200 萬個 tokens。如下清單 5 展示了這些文件中的內(nèi)容示例。
度量標(biāo)準(zhǔn)
本節(jié)的主要目的是建立一套全面的度量標(biāo)準(zhǔn),目的是指導(dǎo)對問答生成過程的質(zhì)量評估,尤其是對微調(diào)和檢索增強生成方法的評估。
在開發(fā)度量標(biāo)準(zhǔn)時,必須考慮幾個關(guān)鍵因素。首先,問題質(zhì)量中固有的主觀性提出了重大挑戰(zhàn)。
其次,度量標(biāo)準(zhǔn)必須考慮到問題的相關(guān)性、實用性對上下文的依賴性。
第三,需要評估生成問題的多樣性和新穎性。強大的問題生成系統(tǒng)應(yīng)該能夠產(chǎn)生涵蓋給定內(nèi)容各個方面的廣泛問題。然而,對多樣性和新穎性進(jìn)行量化可能面臨著挑戰(zhàn),因為這涉及到評估問題的獨特性以及它們與內(nèi)容、其他生成問題的相似性。
最后,好的問題應(yīng)該能夠基于提供的內(nèi)容得到回答。評估問題是否可以使用現(xiàn)有信息來準(zhǔn)確回答,這需要對內(nèi)容進(jìn)行深刻的理解,并具備識別回答問題的相關(guān)信息的能力。
這些度量標(biāo)準(zhǔn)在確保模型提供的答案準(zhǔn)確、相關(guān)且有效地回答問題方面發(fā)揮著不可或缺的作用。然而,在專門設(shè)計用于評估問題質(zhì)量的度量標(biāo)準(zhǔn)方面存在顯著的缺失。
意識到這一缺失,本文專注于開發(fā)旨在評估問題質(zhì)量的度量標(biāo)準(zhǔn)??紤]到問題在推動有意義的對話和生成有用答案方面的關(guān)鍵作用,確保問題質(zhì)量與確保答案質(zhì)量同樣重要。
本文開發(fā)的度量標(biāo)準(zhǔn)旨在彌補以往研究在這一領(lǐng)域的空缺,提供一種全面評估問題質(zhì)量的手段,這將對問答生成過程的進(jìn)展產(chǎn)生顯著影響。
問題評估
本文開發(fā)的用于評估問題的度量標(biāo)準(zhǔn)如下:
- 相關(guān)性
- 全局相關(guān)性
- 覆蓋范圍
- 重疊度
- 多樣性
- 詳細(xì)程度
- 流暢度
答案評估
由于大語言模型傾向于生成長而詳細(xì)的、富有信息的對話式回答,因此評估它們生成的答案是具有挑戰(zhàn)性的。
本文使用了 AzureML 模型評估,采用以下度量標(biāo)準(zhǔn)來將生成的答案與實際情況進(jìn)行比較:
- 一致性:在給定上下文的情況下,比較實際情況與預(yù)測之間的一致性。
- 相關(guān)性:衡量答案在上下文中如何有效地回答問題的主要方面。
- 真實性:定義了答案是否邏輯上符合上下文中包含的信息,并提供一個整數(shù)分?jǐn)?shù)來確定答案的真實性。
模型評估
為了評估不同的微調(diào)模型,本文使用了 GPT-4 作為評估器。利用 GPT-4 從農(nóng)業(yè)文檔中生成了約 270 個問題和答案對,作為實際情況數(shù)據(jù)集。對于每個微調(diào)模型和檢索增強生成模型,生成這些問題的答案。
本文對 LLMs 進(jìn)行了多個不同度量標(biāo)準(zhǔn)的評估:
- 帶有指南的評估:對于每個問答實際情況對,本文提示 GPT-4 生成一個評估指南,列出正確答案應(yīng)包含的內(nèi)容。然后,GPT-4 被提示根據(jù)評估指南中的標(biāo)準(zhǔn),為每個答案打分,分?jǐn)?shù)范圍從 0 到 1。下面是一個例子:
- 簡潔性:創(chuàng)建了描述簡潔和冗長答案可能包含內(nèi)容的評分表?;谠撛u分表、實際情況答案和 LLM 答案提示 GPT-4,并要求根據(jù) 1 到 5 的分?jǐn)?shù)給出評分。
- 正確性:本文創(chuàng)建了一個描述完整、部分正確或不正確的答案應(yīng)包含內(nèi)容的評分表?;谠撛u分表、實際情況答案和 LLM 答案提示 GPT-4,并要求給出正確、不正確或部分正確的評分。
實驗
本文的實驗被劃分為幾個獨立的實驗,每個實驗都側(cè)重于問答生成和評估、檢索增強生成和微調(diào)的特定方面。
這些實驗探索以下領(lǐng)域:
- 問答質(zhì)量
- 上下文研究
- 模型到度量的計算
- 組合生成與分別生成對比
- 檢索消融研究
- 微調(diào)
問答質(zhì)量
該實驗評估了三個大語言模型,即 GPT-3、GPT-3.5 和 GPT-4,在不同上下文設(shè)置下生成的問答對的質(zhì)量。質(zhì)量評估基于多個指標(biāo),包括相關(guān)性、覆蓋范圍、重疊度和多樣性。
上下文研究
該實驗研究了不同上下文設(shè)置對模型生成問答對性能的影響。它在三種上下文設(shè)置下評估生成的問答對:無上下文、上下文和外部上下文。表 12 中提供了一個示例。
在無上下文設(shè)置中,GPT-4 在三個模型中具有最高的覆蓋率和大小的提示,表明它可以涵蓋更多的文本部分,但生成的問題更冗長。然而,三個模型在多樣性、重疊度、相關(guān)性和流暢度方面的數(shù)值都相似。
當(dāng)包含上下文時,與 GPT-3 相比,GPT-3.5 的覆蓋率略有增加,而 GPT-4 保持了最高的覆蓋率。對于 Size Prompt,GPT-4 具有最大的數(shù)值,表明其能夠生成更冗長的問題和答案。
在多樣性和重疊度方面,三個模型表現(xiàn)相似。對于相關(guān)性和流暢度,與其他模型相比,GPT-4 略有增加。
在外部上下文設(shè)置中,也有類似的情況。
此外,觀察每個模型時,無上下文設(shè)置似乎在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面為 GPT-4 提供了最佳平衡,但生成的問答對較短。上下文設(shè)置導(dǎo)致了較長的問答對和其他指標(biāo)的輕微下降,除了大小。外部上下文設(shè)置生成的問答對最長,但保持了平均覆蓋率,并在平均相關(guān)性和流暢度上略有增加。
總體而言,對于 GPT-4,無上下文設(shè)置在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面似乎提供了最佳平衡,但生成的答案較短。上下文設(shè)置導(dǎo)致了更長的提示和其他指標(biāo)的輕微下降。外部上下文設(shè)置生成的提示最長,但保持了平均覆蓋率,并在平均相關(guān)性和流暢度上略有增加。
因此,在這三者之間的選擇將取決于任務(wù)的具體要求。如果不考慮提示的長度,則由于更高的相關(guān)性和流暢度分?jǐn)?shù),外部上下文可能是最佳選擇。
模型到度量的計算
該實驗比較了在用于計算評估問答對質(zhì)量的度量標(biāo)準(zhǔn)時,GPT-3.5 和 GPT-4 的表現(xiàn)。
總體上,雖然 GPT-4 通常將生成的問答對評價為更具流暢性和上下文真實性,但與 GPT-3.5 的評分相比, 它們的多樣性和相關(guān)性較低。這些觀點對于理解不同模型如何感知和評估生成內(nèi)容的質(zhì)量至關(guān)重要。
組合生成與單獨生成的對比
該實驗探討了單獨生成問題和答案與組合生成問題和答案之間的優(yōu)劣,并側(cè)重于在 token 使用效率方面的比較。
總的來說,僅生成問題的方法提供更好的覆蓋范圍和較低的多樣性,而組合生成方法在重疊度和相關(guān)性方面得分更高。在流暢度方面,兩種方法表現(xiàn)相似。因此在這兩種方法之間的選擇將取決于任務(wù)的具體要求。
如果目標(biāo)是覆蓋更多信息并保持更多的多樣性,那么只生成問題的方法會更受青睞。然而,如果要與源材料保持較高的重疊度,那么組合生成方法將是更好的選擇。
檢索消融研究
這個實驗評估了檢索增強生成的檢索能力,這是一種通過在問題回答過程中提供額外上下文來增強 LLMs 固有知識的方法。
本文研究了檢索的片段數(shù)量 (即 top-k) 對結(jié)果的影響,并在表 16 中呈現(xiàn)了結(jié)果。通過考慮更多的片段,檢索增強生成能夠更一致地恢復(fù)原始摘錄。
為確保模型能夠處理來自各種地理背景和現(xiàn)象的問題,需要擴展支持文檔的語料庫,以涵蓋各種主題。隨著考慮更多文檔,預(yù)計索引的大小將增加。這可能會在檢索過程中增加相似片段之間的碰撞數(shù)量,從而阻礙恢復(fù)輸入問題的相關(guān)信息的能力,降低召回率。
微調(diào)
該實驗評估了微調(diào)模型與基礎(chǔ)指令微調(diào)模型的性能差異。目的在于了解微調(diào)對幫助模型學(xué)習(xí)新知識的潛力。
對于基礎(chǔ)模型,本文評估了開源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。這兩個模型相對較小,代表了計算與性能之間的有趣權(quán)衡。這兩個模型都是 Llama2-13B 的微調(diào)版本,使用了不同的方法。
Llama2-13B-chat 通過監(jiān)督微調(diào)和強化學(xué)習(xí)進(jìn)行了指令微調(diào)。Vicuna-13B-v1.5-16k 是通過在 ShareGPT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的指令微調(diào)版本。此外,本文還評估了基礎(chǔ)的 GPT-4,作為一個更大、更昂貴和更強大的替代方案。
對于微調(diào)模型,本文直接在農(nóng)業(yè)數(shù)據(jù)上對 Llama2-13B 進(jìn)行微調(diào),以便將其性能與為更通用任務(wù)進(jìn)行微調(diào)的類似模型進(jìn)行比較。本文還對 GPT-4 進(jìn)行微調(diào),以評估微調(diào)在非常大的模型上是否仍然有幫助。帶有指南的評估結(jié)果見表 18。
為全面衡量回答的質(zhì)量,除了準(zhǔn)確性外,本文還評估了回答的簡潔性。
表 21 中顯示,這些模型并不始終對問題提供完整的回答。例如,有些回答指出土壤流失是一個問題,但并沒有提到空氣質(zhì)量。
總的來說,就準(zhǔn)確而簡潔地回答參考答案而言,性能最好的模型是 Vicuna + 檢索增強生成、GPT-4 + 檢索增強生成、GPT-4 微調(diào)和 GPT-4 微調(diào) + 檢索增強生成。這些模型提供了精確性、簡潔性和信息深度的平衡混合。
知識發(fā)現(xiàn)
本文的研究目標(biāo)是探索微調(diào)對幫助 GPT-4 學(xué)習(xí)新知識的潛力,這對應(yīng)用研究至關(guān)重要。
為了測試這一點,本文選擇了在美國的 50 個州中至少有三個州相似的問題。然后計算了嵌入的余弦相似度,并確定了 1000 個這樣的問題列表。這些問題從訓(xùn)練集中刪除,使用微調(diào)和帶有檢索增強生成的微調(diào)來評估 GPT-4 是否能夠根據(jù)不同州之間的相似性學(xué)習(xí)新知識。
更多實驗結(jié)果請參閱原論文。