自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RAG還是微調(diào)?微軟出了一份特定領(lǐng)域大模型應(yīng)用建設(shè)流程指南

人工智能 新聞
檢索增強生成(RAG)和微調(diào)(Fine-tuning)是提升大語言模型性能的兩種常用方法,那么到底哪種方法更好?在建設(shè)特定領(lǐng)域的應(yīng)用時哪種更高效?微軟的這篇論文供你選擇時進(jìn)行參考。

在構(gòu)建大語言模型應(yīng)用程序時通常有兩種常見的方法來整合專有和特定領(lǐng)域的數(shù)據(jù):檢索增強生成和微調(diào)。檢索增強生成通過外部數(shù)據(jù)增強提示,而微調(diào)將額外的知識整合到模型本身中。不過,對這兩種方法的優(yōu)缺點了解的卻不夠充分。

本文中,來自微軟的研究者引入一個新的關(guān)注點:為需要特定背景和自適應(yīng)響應(yīng)的行業(yè)(農(nóng)業(yè))創(chuàng)建 AI 助手。本文提出了一個全面的大語言模型流程,用于生成高質(zhì)量的、行業(yè)特定的問題和答案。該方法包含一個系統(tǒng)化的過程,包括鑒別和收集涵蓋廣泛農(nóng)業(yè)主題的相關(guān)文檔。接著清理和結(jié)構(gòu)化這些文檔,以便使用基本的 GPT 模型生成有意義的問答對。生成的問答對隨后根據(jù)其質(zhì)量進(jìn)行評估和篩選。

本文的目標(biāo)是為特定行業(yè)創(chuàng)建有價值的知識資源,以農(nóng)業(yè)為案例研究,最終的目標(biāo)是能為 LLM 在農(nóng)業(yè)領(lǐng)域的發(fā)展做出貢獻(xiàn)。

圖片


  • 論文地址:https://arxiv.org/pdf/2401.08406.pdf
  • 論文標(biāo)題:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

本文提出的流程旨在生成滿足某個行業(yè)中專業(yè)人員和利益相關(guān)者需求的領(lǐng)域特定問題和答案,在該行業(yè)中,期望從 AI 助手那里得到的答案應(yīng)該基于相關(guān)的行業(yè)特定因素。

本文涉及的是農(nóng)業(yè)研究,目標(biāo)是生成該特定領(lǐng)域的答案。因此研究的起點是農(nóng)業(yè)數(shù)據(jù)集,它被輸入到三個主要組件中:問答生成、檢索增強生成和微調(diào)過程。問答生成根據(jù)農(nóng)業(yè)數(shù)據(jù)集中的信息創(chuàng)建問答對,檢索增強生成將其用作知識源。生成的數(shù)據(jù)經(jīng)過精煉,并用于微調(diào)多個模型,其質(zhì)量通過一組提出的度量標(biāo)準(zhǔn)進(jìn)行評估。通過這種全面的方法,利用大語言模型的力量,造福農(nóng)業(yè)行業(yè)及其他利益相關(guān)者。

本文對大語言模型在農(nóng)業(yè)領(lǐng)域的理解做出了一些特殊貢獻(xiàn),這些貢獻(xiàn)可以歸納如下:

1、對 LLMs 的全面評估:本文對大語言模型進(jìn)行了廣泛評估,包括 LlaMa2-13B、GPT-4 和 Vicuna,以回答與農(nóng)業(yè)相關(guān)的問題。使用了來自主要農(nóng)業(yè)生產(chǎn)國的基準(zhǔn)數(shù)據(jù)集進(jìn)行評估。本文的分析中,GPT-4 一直表現(xiàn)優(yōu)于其它模型,但也需要考慮與其微調(diào)和推理相關(guān)的成本。

2、檢索技術(shù)和微調(diào)對性能的影響:本文研究了檢索技術(shù)和微調(diào)對 LLMs 性能的影響。研究發(fā)現(xiàn),檢索增強生成和微調(diào)都是提高 LLMs 性能的有效技術(shù)。

3、LLMs 在不同行業(yè)潛在應(yīng)用的影響:對于想要建立 RAG 和微調(diào)技術(shù)在 LLMs 中應(yīng)用的流程而言,本文走出了開創(chuàng)性的一步,并促進(jìn)了多個行業(yè)之間的創(chuàng)新和合作。

方法

本文第 2 部分詳細(xì)介紹采用了方法論,包括數(shù)據(jù)獲取過程、信息提取過程、問題和答案生成,以及模型的微調(diào)。該方法論圍繞著一個旨在生成和評估用于構(gòu)建領(lǐng)域特定助手的問答對流程展開,如下圖 1 所示。

圖片

該流程以數(shù)據(jù)獲取開始,這包括從各種高質(zhì)量的存儲庫中獲取數(shù)據(jù),比如政府機構(gòu)、科學(xué)知識數(shù)據(jù)庫,以及必要時使用專有數(shù)據(jù)。

在完成數(shù)據(jù)獲取后,流程繼續(xù)從收集的文檔中提取信息。這一步驟至關(guān)重要,因為它涉及解析復(fù)雜且非結(jié)構(gòu)化的 PDF 文件,以恢復(fù)其中的內(nèi)容和結(jié)構(gòu)。下圖 2 展示了數(shù)據(jù)集中一個 PDF 文件的示例。

圖片

流程的下一個組成部分是問題和答案生成。這里的目標(biāo)是生成有上下文基礎(chǔ)的高質(zhì)量問題,準(zhǔn)確反映提取文本的內(nèi)容。本文方法采用了一個框架來控制輸入和輸出的結(jié)構(gòu)組成,從而增強語言模型生成響應(yīng)的整體效果。

隨后,流程為制定的問題生成答案。此處采用的方法利用了檢索增強生成,結(jié)合了檢索和生成機制的能力,以創(chuàng)建高質(zhì)量的答案。

最后,流程通過 Q&A 對微調(diào)模型。優(yōu)化過程采用了低秩調(diào)整(LoRA)等方法,確保全面理解科學(xué)文獻(xiàn)的內(nèi)容和背景,使其成為各個領(lǐng)域或行業(yè)的有價值資源。

數(shù)據(jù)集

研究中評估了經(jīng)過微調(diào)和檢索增強生成的語言模型,使用與背景相關(guān)的問題和答案數(shù)據(jù)集,這些數(shù)據(jù)集來源于三個主要的作物生產(chǎn)國:美國、巴西和印度。本文的案例中,以農(nóng)業(yè)作為工業(yè)背景。可用的數(shù)據(jù)在格式和內(nèi)容上變化很大,涵蓋了法規(guī)文件、科學(xué)報告、農(nóng)學(xué)考試以及知識數(shù)據(jù)庫等各種類型。

本文從美國農(nóng)業(yè)部、州農(nóng)業(yè)和消費者服務(wù)機構(gòu)等公開可獲得的在線文檔、手冊和報告中收集了信息。

可獲得的文檔包括了有關(guān)作物和牲畜管理、疾病和最佳實踐的聯(lián)邦法規(guī)和政策信息,質(zhì)量保證和出口法規(guī),援助計劃的詳細(xì)信息,以及保險和定價指南。收集的數(shù)據(jù)總計超過 23,000 個 PDF 文件,包含超過 5000 萬個 tokens,涵蓋了美國 44 個州。研究者下載并預(yù)處理了這些文件,提取了可以用作問答生成流程輸入的文本信息。

為了對模型進(jìn)行基準(zhǔn)測試和評估,本文使用了與華盛頓州相關(guān)的文檔,其中包括 573 個文件,包含超過 200 萬個 tokens。如下清單 5 展示了這些文件中的內(nèi)容示例。

圖片

度量標(biāo)準(zhǔn)

本節(jié)的主要目的是建立一套全面的度量標(biāo)準(zhǔn),目的是指導(dǎo)對問答生成過程的質(zhì)量評估,尤其是對微調(diào)和檢索增強生成方法的評估。

在開發(fā)度量標(biāo)準(zhǔn)時,必須考慮幾個關(guān)鍵因素。首先,問題質(zhì)量中固有的主觀性提出了重大挑戰(zhàn)。

其次,度量標(biāo)準(zhǔn)必須考慮到問題的相關(guān)性、實用性對上下文的依賴性。

第三,需要評估生成問題的多樣性和新穎性。強大的問題生成系統(tǒng)應(yīng)該能夠產(chǎn)生涵蓋給定內(nèi)容各個方面的廣泛問題。然而,對多樣性和新穎性進(jìn)行量化可能面臨著挑戰(zhàn),因為這涉及到評估問題的獨特性以及它們與內(nèi)容、其他生成問題的相似性。

最后,好的問題應(yīng)該能夠基于提供的內(nèi)容得到回答。評估問題是否可以使用現(xiàn)有信息來準(zhǔn)確回答,這需要對內(nèi)容進(jìn)行深刻的理解,并具備識別回答問題的相關(guān)信息的能力。

這些度量標(biāo)準(zhǔn)在確保模型提供的答案準(zhǔn)確、相關(guān)且有效地回答問題方面發(fā)揮著不可或缺的作用。然而,在專門設(shè)計用于評估問題質(zhì)量的度量標(biāo)準(zhǔn)方面存在顯著的缺失。

意識到這一缺失,本文專注于開發(fā)旨在評估問題質(zhì)量的度量標(biāo)準(zhǔn)??紤]到問題在推動有意義的對話和生成有用答案方面的關(guān)鍵作用,確保問題質(zhì)量與確保答案質(zhì)量同樣重要。

本文開發(fā)的度量標(biāo)準(zhǔn)旨在彌補以往研究在這一領(lǐng)域的空缺,提供一種全面評估問題質(zhì)量的手段,這將對問答生成過程的進(jìn)展產(chǎn)生顯著影響。

問題評估

本文開發(fā)的用于評估問題的度量標(biāo)準(zhǔn)如下:


  • 相關(guān)性
  • 全局相關(guān)性
  • 覆蓋范圍
  • 重疊度
  • 多樣性
  • 詳細(xì)程度
  • 流暢度

答案評估

由于大語言模型傾向于生成長而詳細(xì)的、富有信息的對話式回答,因此評估它們生成的答案是具有挑戰(zhàn)性的。

本文使用了 AzureML 模型評估,采用以下度量標(biāo)準(zhǔn)來將生成的答案與實際情況進(jìn)行比較:

  • 一致性:在給定上下文的情況下,比較實際情況與預(yù)測之間的一致性。
  • 相關(guān)性:衡量答案在上下文中如何有效地回答問題的主要方面。
  • 真實性:定義了答案是否邏輯上符合上下文中包含的信息,并提供一個整數(shù)分?jǐn)?shù)來確定答案的真實性。

模型評估

為了評估不同的微調(diào)模型,本文使用了 GPT-4 作為評估器。利用 GPT-4 從農(nóng)業(yè)文檔中生成了約 270 個問題和答案對,作為實際情況數(shù)據(jù)集。對于每個微調(diào)模型和檢索增強生成模型,生成這些問題的答案。

本文對 LLMs 進(jìn)行了多個不同度量標(biāo)準(zhǔn)的評估:

  • 帶有指南的評估:對于每個問答實際情況對,本文提示 GPT-4 生成一個評估指南,列出正確答案應(yīng)包含的內(nèi)容。然后,GPT-4 被提示根據(jù)評估指南中的標(biāo)準(zhǔn),為每個答案打分,分?jǐn)?shù)范圍從 0 到 1。下面是一個例子:
  • 簡潔性:創(chuàng)建了描述簡潔和冗長答案可能包含內(nèi)容的評分表?;谠撛u分表、實際情況答案和 LLM 答案提示 GPT-4,并要求根據(jù) 1 到 5 的分?jǐn)?shù)給出評分。
  • 正確性:本文創(chuàng)建了一個描述完整、部分正確或不正確的答案應(yīng)包含內(nèi)容的評分表?;谠撛u分表、實際情況答案和 LLM 答案提示 GPT-4,并要求給出正確、不正確或部分正確的評分。

實驗

本文的實驗被劃分為幾個獨立的實驗,每個實驗都側(cè)重于問答生成和評估、檢索增強生成和微調(diào)的特定方面。

這些實驗探索以下領(lǐng)域:

  • 問答質(zhì)量
  • 上下文研究
  • 模型到度量的計算
  • 組合生成與分別生成對比
  • 檢索消融研究
  • 微調(diào)

問答質(zhì)量

該實驗評估了三個大語言模型,即 GPT-3、GPT-3.5 和 GPT-4,在不同上下文設(shè)置下生成的問答對的質(zhì)量。質(zhì)量評估基于多個指標(biāo),包括相關(guān)性、覆蓋范圍、重疊度和多樣性。

上下文研究

該實驗研究了不同上下文設(shè)置對模型生成問答對性能的影響。它在三種上下文設(shè)置下評估生成的問答對:無上下文、上下文和外部上下文。表 12 中提供了一個示例。

圖片

在無上下文設(shè)置中,GPT-4 在三個模型中具有最高的覆蓋率和大小的提示,表明它可以涵蓋更多的文本部分,但生成的問題更冗長。然而,三個模型在多樣性、重疊度、相關(guān)性和流暢度方面的數(shù)值都相似。

當(dāng)包含上下文時,與 GPT-3 相比,GPT-3.5 的覆蓋率略有增加,而 GPT-4 保持了最高的覆蓋率。對于 Size Prompt,GPT-4 具有最大的數(shù)值,表明其能夠生成更冗長的問題和答案。

在多樣性和重疊度方面,三個模型表現(xiàn)相似。對于相關(guān)性和流暢度,與其他模型相比,GPT-4 略有增加。

在外部上下文設(shè)置中,也有類似的情況。

此外,觀察每個模型時,無上下文設(shè)置似乎在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面為 GPT-4 提供了最佳平衡,但生成的問答對較短。上下文設(shè)置導(dǎo)致了較長的問答對和其他指標(biāo)的輕微下降,除了大小。外部上下文設(shè)置生成的問答對最長,但保持了平均覆蓋率,并在平均相關(guān)性和流暢度上略有增加。

總體而言,對于 GPT-4,無上下文設(shè)置在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面似乎提供了最佳平衡,但生成的答案較短。上下文設(shè)置導(dǎo)致了更長的提示和其他指標(biāo)的輕微下降。外部上下文設(shè)置生成的提示最長,但保持了平均覆蓋率,并在平均相關(guān)性和流暢度上略有增加。

因此,在這三者之間的選擇將取決于任務(wù)的具體要求。如果不考慮提示的長度,則由于更高的相關(guān)性和流暢度分?jǐn)?shù),外部上下文可能是最佳選擇。

模型到度量的計算

該實驗比較了在用于計算評估問答對質(zhì)量的度量標(biāo)準(zhǔn)時,GPT-3.5 和 GPT-4 的表現(xiàn)。

總體上,雖然 GPT-4 通常將生成的問答對評價為更具流暢性和上下文真實性,但與 GPT-3.5 的評分相比, 它們的多樣性和相關(guān)性較低。這些觀點對于理解不同模型如何感知和評估生成內(nèi)容的質(zhì)量至關(guān)重要。

組合生成與單獨生成的對比

該實驗探討了單獨生成問題和答案與組合生成問題和答案之間的優(yōu)劣,并側(cè)重于在 token 使用效率方面的比較。

圖片

總的來說,僅生成問題的方法提供更好的覆蓋范圍和較低的多樣性,而組合生成方法在重疊度和相關(guān)性方面得分更高。在流暢度方面,兩種方法表現(xiàn)相似。因此在這兩種方法之間的選擇將取決于任務(wù)的具體要求。

如果目標(biāo)是覆蓋更多信息并保持更多的多樣性,那么只生成問題的方法會更受青睞。然而,如果要與源材料保持較高的重疊度,那么組合生成方法將是更好的選擇。

檢索消融研究

這個實驗評估了檢索增強生成的檢索能力,這是一種通過在問題回答過程中提供額外上下文來增強 LLMs 固有知識的方法。

本文研究了檢索的片段數(shù)量 (即 top-k) 對結(jié)果的影響,并在表 16 中呈現(xiàn)了結(jié)果。通過考慮更多的片段,檢索增強生成能夠更一致地恢復(fù)原始摘錄。

圖片

為確保模型能夠處理來自各種地理背景和現(xiàn)象的問題,需要擴展支持文檔的語料庫,以涵蓋各種主題。隨著考慮更多文檔,預(yù)計索引的大小將增加。這可能會在檢索過程中增加相似片段之間的碰撞數(shù)量,從而阻礙恢復(fù)輸入問題的相關(guān)信息的能力,降低召回率。

微調(diào)

該實驗評估了微調(diào)模型與基礎(chǔ)指令微調(diào)模型的性能差異。目的在于了解微調(diào)對幫助模型學(xué)習(xí)新知識的潛力。

對于基礎(chǔ)模型,本文評估了開源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。這兩個模型相對較小,代表了計算與性能之間的有趣權(quán)衡。這兩個模型都是 Llama2-13B 的微調(diào)版本,使用了不同的方法。

Llama2-13B-chat 通過監(jiān)督微調(diào)和強化學(xué)習(xí)進(jìn)行了指令微調(diào)。Vicuna-13B-v1.5-16k 是通過在 ShareGPT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的指令微調(diào)版本。此外,本文還評估了基礎(chǔ)的 GPT-4,作為一個更大、更昂貴和更強大的替代方案。

對于微調(diào)模型,本文直接在農(nóng)業(yè)數(shù)據(jù)上對 Llama2-13B 進(jìn)行微調(diào),以便將其性能與為更通用任務(wù)進(jìn)行微調(diào)的類似模型進(jìn)行比較。本文還對 GPT-4 進(jìn)行微調(diào),以評估微調(diào)在非常大的模型上是否仍然有幫助。帶有指南的評估結(jié)果見表 18。

圖片

為全面衡量回答的質(zhì)量,除了準(zhǔn)確性外,本文還評估了回答的簡潔性。

圖片

表 21 中顯示,這些模型并不始終對問題提供完整的回答。例如,有些回答指出土壤流失是一個問題,但并沒有提到空氣質(zhì)量。

總的來說,就準(zhǔn)確而簡潔地回答參考答案而言,性能最好的模型是 Vicuna + 檢索增強生成、GPT-4 + 檢索增強生成、GPT-4 微調(diào)和 GPT-4 微調(diào) + 檢索增強生成。這些模型提供了精確性、簡潔性和信息深度的平衡混合。

圖片

知識發(fā)現(xiàn)

本文的研究目標(biāo)是探索微調(diào)對幫助 GPT-4 學(xué)習(xí)新知識的潛力,這對應(yīng)用研究至關(guān)重要。

為了測試這一點,本文選擇了在美國的 50 個州中至少有三個州相似的問題。然后計算了嵌入的余弦相似度,并確定了 1000 個這樣的問題列表。這些問題從訓(xùn)練集中刪除,使用微調(diào)和帶有檢索增強生成的微調(diào)來評估 GPT-4 是否能夠根據(jù)不同州之間的相似性學(xué)習(xí)新知識。

圖片

更多實驗結(jié)果請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-10-24 20:56:36

2023-04-28 15:41:08

模型ChatGPT

2020-01-02 14:13:01

機器學(xué)習(xí)模型部署預(yù)測

2023-03-21 09:44:34

模型AI

2010-03-09 09:05:19

Office 2010鏡像

2025-04-09 11:59:29

2022-02-28 11:26:40

模型深度學(xué)習(xí)谷歌

2019-03-15 15:15:12

硬盤SSD閃存

2023-07-04 12:55:39

模型指南IFT

2024-09-26 10:42:20

2024-12-30 00:01:00

多模態(tài)大模型Python

2017-05-05 11:25:43

2019-06-10 15:06:56

高考AI人工智能

2018-01-29 16:29:35

數(shù)據(jù)開發(fā)從業(yè)

2023-09-01 21:12:13

GPT3.5模型微調(diào)

2018-06-14 15:34:59

深度學(xué)習(xí)GitHub機器學(xué)習(xí)

2019-03-18 08:08:24

知識圖譜技術(shù)

2024-02-05 14:12:37

大模型RAG架構(gòu)

2023-06-07 08:22:59

LLM微調(diào)技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號