自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<button id="woo0k"><sup id="woo0k"><input id="woo0k"></input></sup></button>

<cite id="woo0k"><track id="woo0k"></track></cite>

<sub id="woo0k"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

RAG還是微調(diào)？微軟出了一份特定領(lǐng)域大模型應(yīng)用建設(shè)流程指南

作者：機器之心 2024-02-19 00:06:50

人工智能新聞

檢索增強生成（RAG）和微調(diào)（Fine-tuning）是提升大語言模型性能的兩種常用方法，那么到底哪種方法更好？在建設(shè)特定領(lǐng)域的應(yīng)用時哪種更高效？微軟的這篇論文供你選擇時進(jìn)行參考。

在構(gòu)建大語言模型應(yīng)用程序時通常有兩種常見的方法來整合專有和特定領(lǐng)域的數(shù)據(jù)：檢索增強生成和微調(diào)。檢索增強生成通過外部數(shù)據(jù)增強提示，而微調(diào)將額外的知識整合到模型本身中。不過，對這兩種方法的優(yōu)缺點了解的卻不夠充分。

本文中，來自微軟的研究者引入一個新的關(guān)注點：為需要特定背景和自適應(yīng)響應(yīng)的行業(yè)（農(nóng)業(yè)）創(chuàng)建 AI 助手。本文提出了一個全面的大語言模型流程，用于生成高質(zhì)量的、行業(yè)特定的問題和答案。該方法包含一個系統(tǒng)化的過程，包括鑒別和收集涵蓋廣泛農(nóng)業(yè)主題的相關(guān)文檔。接著清理和結(jié)構(gòu)化這些文檔，以便使用基本的 GPT 模型生成有意義的問答對。生成的問答對隨后根據(jù)其質(zhì)量進(jìn)行評估和篩選。

本文的目標(biāo)是為特定行業(yè)創(chuàng)建有價值的知識資源，以農(nóng)業(yè)為案例研究，最終的目標(biāo)是能為 LLM 在農(nóng)業(yè)領(lǐng)域的發(fā)展做出貢獻(xiàn)。

論文地址：https://arxiv.org/pdf/2401.08406.pdf
論文標(biāo)題：RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

本文提出的流程旨在生成滿足某個行業(yè)中專業(yè)人員和利益相關(guān)者需求的領(lǐng)域特定問題和答案，在該行業(yè)中，期望從 AI 助手那里得到的答案應(yīng)該基于相關(guān)的行業(yè)特定因素。

本文涉及的是農(nóng)業(yè)研究，目標(biāo)是生成該特定領(lǐng)域的答案。因此研究的起點是農(nóng)業(yè)數(shù)據(jù)集，它被輸入到三個主要組件中：問答生成、檢索增強生成和微調(diào)過程。問答生成根據(jù)農(nóng)業(yè)數(shù)據(jù)集中的信息創(chuàng)建問答對，檢索增強生成將其用作知識源。生成的數(shù)據(jù)經(jīng)過精煉，并用于微調(diào)多個模型，其質(zhì)量通過一組提出的度量標(biāo)準(zhǔn)進(jìn)行評估。通過這種全面的方法，利用大語言模型的力量，造福農(nóng)業(yè)行業(yè)及其他利益相關(guān)者。

本文對大語言模型在農(nóng)業(yè)領(lǐng)域的理解做出了一些特殊貢獻(xiàn)，這些貢獻(xiàn)可以歸納如下：

1、對 LLMs 的全面評估：本文對大語言模型進(jìn)行了廣泛評估，包括 LlaMa2-13B、GPT-4 和 Vicuna，以回答與農(nóng)業(yè)相關(guān)的問題。使用了來自主要農(nóng)業(yè)生產(chǎn)國的基準(zhǔn)數(shù)據(jù)集進(jìn)行評估。本文的分析中，GPT-4 一直表現(xiàn)優(yōu)于其它模型，但也需要考慮與其微調(diào)和推理相關(guān)的成本。

2、檢索技術(shù)和微調(diào)對性能的影響：本文研究了檢索技術(shù)和微調(diào)對 LLMs 性能的影響。研究發(fā)現(xiàn)，檢索增強生成和微調(diào)都是提高 LLMs 性能的有效技術(shù)。

3、LLMs 在不同行業(yè)潛在應(yīng)用的影響：對于想要建立 RAG 和微調(diào)技術(shù)在 LLMs 中應(yīng)用的流程而言，本文走出了開創(chuàng)性的一步，并促進(jìn)了多個行業(yè)之間的創(chuàng)新和合作。

方法

本文第 2 部分詳細(xì)介紹采用了方法論，包括數(shù)據(jù)獲取過程、信息提取過程、問題和答案生成，以及模型的微調(diào)。該方法論圍繞著一個旨在生成和評估用于構(gòu)建領(lǐng)域特定助手的問答對流程展開，如下圖 1 所示。

該流程以數(shù)據(jù)獲取開始，這包括從各種高質(zhì)量的存儲庫中獲取數(shù)據(jù)，比如政府機構(gòu)、科學(xué)知識數(shù)據(jù)庫，以及必要時使用專有數(shù)據(jù)。

在完成數(shù)據(jù)獲取后，流程繼續(xù)從收集的文檔中提取信息。這一步驟至關(guān)重要，因為它涉及解析復(fù)雜且非結(jié)構(gòu)化的 PDF 文件，以恢復(fù)其中的內(nèi)容和結(jié)構(gòu)。下圖 2 展示了數(shù)據(jù)集中一個 PDF 文件的示例。

流程的下一個組成部分是問題和答案生成。這里的目標(biāo)是生成有上下文基礎(chǔ)的高質(zhì)量問題，準(zhǔn)確反映提取文本的內(nèi)容。本文方法采用了一個框架來控制輸入和輸出的結(jié)構(gòu)組成，從而增強語言模型生成響應(yīng)的整體效果。

隨后，流程為制定的問題生成答案。此處采用的方法利用了檢索增強生成，結(jié)合了檢索和生成機制的能力，以創(chuàng)建高質(zhì)量的答案。

最后，流程通過 Q&A 對微調(diào)模型。優(yōu)化過程采用了低秩調(diào)整（LoRA）等方法，確保全面理解科學(xué)文獻(xiàn)的內(nèi)容和背景，使其成為各個領(lǐng)域或行業(yè)的有價值資源。

數(shù)據(jù)集

研究中評估了經(jīng)過微調(diào)和檢索增強生成的語言模型，使用與背景相關(guān)的問題和答案數(shù)據(jù)集，這些數(shù)據(jù)集來源于三個主要的作物生產(chǎn)國：美國、巴西和印度。本文的案例中，以農(nóng)業(yè)作為工業(yè)背景。可用的數(shù)據(jù)在格式和內(nèi)容上變化很大，涵蓋了法規(guī)文件、科學(xué)報告、農(nóng)學(xué)考試以及知識數(shù)據(jù)庫等各種類型。

本文從美國農(nóng)業(yè)部、州農(nóng)業(yè)和消費者服務(wù)機構(gòu)等公開可獲得的在線文檔、手冊和報告中收集了信息。

可獲得的文檔包括了有關(guān)作物和牲畜管理、疾病和最佳實踐的聯(lián)邦法規(guī)和政策信息，質(zhì)量保證和出口法規(guī)，援助計劃的詳細(xì)信息，以及保險和定價指南。收集的數(shù)據(jù)總計超過 23,000 個 PDF 文件，包含超過 5000 萬個 tokens，涵蓋了美國 44 個州。研究者下載并預(yù)處理了這些文件，提取了可以用作問答生成流程輸入的文本信息。

為了對模型進(jìn)行基準(zhǔn)測試和評估，本文使用了與華盛頓州相關(guān)的文檔，其中包括 573 個文件，包含超過 200 萬個 tokens。如下清單 5 展示了這些文件中的內(nèi)容示例。

度量標(biāo)準(zhǔn)

本節(jié)的主要目的是建立一套全面的度量標(biāo)準(zhǔn)，目的是指導(dǎo)對問答生成過程的質(zhì)量評估，尤其是對微調(diào)和檢索增強生成方法的評估。

在開發(fā)度量標(biāo)準(zhǔn)時，必須考慮幾個關(guān)鍵因素。首先，問題質(zhì)量中固有的主觀性提出了重大挑戰(zhàn)。

其次，度量標(biāo)準(zhǔn)必須考慮到問題的相關(guān)性、實用性對上下文的依賴性。

第三，需要評估生成問題的多樣性和新穎性。強大的問題生成系統(tǒng)應(yīng)該能夠產(chǎn)生涵蓋給定內(nèi)容各個方面的廣泛問題。然而，對多樣性和新穎性進(jìn)行量化可能面臨著挑戰(zhàn)，因為這涉及到評估問題的獨特性以及它們與內(nèi)容、其他生成問題的相似性。

最后，好的問題應(yīng)該能夠基于提供的內(nèi)容得到回答。評估問題是否可以使用現(xiàn)有信息來準(zhǔn)確回答，這需要對內(nèi)容進(jìn)行深刻的理解，并具備識別回答問題的相關(guān)信息的能力。

這些度量標(biāo)準(zhǔn)在確保模型提供的答案準(zhǔn)確、相關(guān)且有效地回答問題方面發(fā)揮著不可或缺的作用。然而，在專門設(shè)計用于評估問題質(zhì)量的度量標(biāo)準(zhǔn)方面存在顯著的缺失。

意識到這一缺失，本文專注于開發(fā)旨在評估問題質(zhì)量的度量標(biāo)準(zhǔn)?？紤]到問題在推動有意義的對話和生成有用答案方面的關(guān)鍵作用，確保問題質(zhì)量與確保答案質(zhì)量同樣重要。

本文開發(fā)的度量標(biāo)準(zhǔn)旨在彌補以往研究在這一領(lǐng)域的空缺，提供一種全面評估問題質(zhì)量的手段，這將對問答生成過程的進(jìn)展產(chǎn)生顯著影響。

問題評估

本文開發(fā)的用于評估問題的度量標(biāo)準(zhǔn)如下：

相關(guān)性
全局相關(guān)性
覆蓋范圍
重疊度
多樣性
詳細(xì)程度
流暢度

答案評估

由于大語言模型傾向于生成長而詳細(xì)的、富有信息的對話式回答，因此評估它們生成的答案是具有挑戰(zhàn)性的。

本文使用了 AzureML 模型評估，采用以下度量標(biāo)準(zhǔn)來將生成的答案與實際情況進(jìn)行比較：

一致性：在給定上下文的情況下，比較實際情況與預(yù)測之間的一致性。
相關(guān)性：衡量答案在上下文中如何有效地回答問題的主要方面。
真實性：定義了答案是否邏輯上符合上下文中包含的信息，并提供一個整數(shù)分?jǐn)?shù)來確定答案的真實性。

模型評估

為了評估不同的微調(diào)模型，本文使用了 GPT-4 作為評估器。利用 GPT-4 從農(nóng)業(yè)文檔中生成了約 270 個問題和答案對，作為實際情況數(shù)據(jù)集。對于每個微調(diào)模型和檢索增強生成模型，生成這些問題的答案。

本文對 LLMs 進(jìn)行了多個不同度量標(biāo)準(zhǔn)的評估：

帶有指南的評估：對于每個問答實際情況對，本文提示 GPT-4 生成一個評估指南，列出正確答案應(yīng)包含的內(nèi)容。然后，GPT-4 被提示根據(jù)評估指南中的標(biāo)準(zhǔn)，為每個答案打分，分?jǐn)?shù)范圍從 0 到 1。下面是一個例子：
簡潔性：創(chuàng)建了描述簡潔和冗長答案可能包含內(nèi)容的評分表?；谠撛u分表、實際情況答案和 LLM 答案提示 GPT-4，并要求根據(jù) 1 到 5 的分?jǐn)?shù)給出評分。
正確性：本文創(chuàng)建了一個描述完整、部分正確或不正確的答案應(yīng)包含內(nèi)容的評分表?；谠撛u分表、實際情況答案和 LLM 答案提示 GPT-4，并要求給出正確、不正確或部分正確的評分。

實驗

本文的實驗被劃分為幾個獨立的實驗，每個實驗都側(cè)重于問答生成和評估、檢索增強生成和微調(diào)的特定方面。

這些實驗探索以下領(lǐng)域：

問答質(zhì)量
上下文研究
模型到度量的計算
組合生成與分別生成對比
檢索消融研究
微調(diào)

問答質(zhì)量

該實驗評估了三個大語言模型，即 GPT-3、GPT-3.5 和 GPT-4，在不同上下文設(shè)置下生成的問答對的質(zhì)量。質(zhì)量評估基于多個指標(biāo)，包括相關(guān)性、覆蓋范圍、重疊度和多樣性。

上下文研究

該實驗研究了不同上下文設(shè)置對模型生成問答對性能的影響。它在三種上下文設(shè)置下評估生成的問答對：無上下文、上下文和外部上下文。表 12 中提供了一個示例。

在無上下文設(shè)置中，GPT-4 在三個模型中具有最高的覆蓋率和大小的提示，表明它可以涵蓋更多的文本部分，但生成的問題更冗長。然而，三個模型在多樣性、重疊度、相關(guān)性和流暢度方面的數(shù)值都相似。

當(dāng)包含上下文時，與 GPT-3 相比，GPT-3.5 的覆蓋率略有增加，而 GPT-4 保持了最高的覆蓋率。對于 Size Prompt，GPT-4 具有最大的數(shù)值，表明其能夠生成更冗長的問題和答案。

在多樣性和重疊度方面，三個模型表現(xiàn)相似。對于相關(guān)性和流暢度，與其他模型相比，GPT-4 略有增加。

在外部上下文設(shè)置中，也有類似的情況。

此外，觀察每個模型時，無上下文設(shè)置似乎在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面為 GPT-4 提供了最佳平衡，但生成的問答對較短。上下文設(shè)置導(dǎo)致了較長的問答對和其他指標(biāo)的輕微下降，除了大小。外部上下文設(shè)置生成的問答對最長，但保持了平均覆蓋率，并在平均相關(guān)性和流暢度上略有增加。

總體而言，對于 GPT-4，無上下文設(shè)置在平均覆蓋率、多樣性、重疊度、相關(guān)性和流暢度方面似乎提供了最佳平衡，但生成的答案較短。上下文設(shè)置導(dǎo)致了更長的提示和其他指標(biāo)的輕微下降。外部上下文設(shè)置生成的提示最長，但保持了平均覆蓋率，并在平均相關(guān)性和流暢度上略有增加。

因此，在這三者之間的選擇將取決于任務(wù)的具體要求。如果不考慮提示的長度，則由于更高的相關(guān)性和流暢度分?jǐn)?shù)，外部上下文可能是最佳選擇。

模型到度量的計算

該實驗比較了在用于計算評估問答對質(zhì)量的度量標(biāo)準(zhǔn)時，GPT-3.5 和 GPT-4 的表現(xiàn)。

總體上，雖然 GPT-4 通常將生成的問答對評價為更具流暢性和上下文真實性，但與 GPT-3.5 的評分相比，它們的多樣性和相關(guān)性較低。這些觀點對于理解不同模型如何感知和評估生成內(nèi)容的質(zhì)量至關(guān)重要。

組合生成與單獨生成的對比

該實驗探討了單獨生成問題和答案與組合生成問題和答案之間的優(yōu)劣，并側(cè)重于在 token 使用效率方面的比較。

總的來說，僅生成問題的方法提供更好的覆蓋范圍和較低的多樣性，而組合生成方法在重疊度和相關(guān)性方面得分更高。在流暢度方面，兩種方法表現(xiàn)相似。因此在這兩種方法之間的選擇將取決于任務(wù)的具體要求。

如果目標(biāo)是覆蓋更多信息并保持更多的多樣性，那么只生成問題的方法會更受青睞。然而，如果要與源材料保持較高的重疊度，那么組合生成方法將是更好的選擇。

檢索消融研究

這個實驗評估了檢索增強生成的檢索能力，這是一種通過在問題回答過程中提供額外上下文來增強 LLMs 固有知識的方法。

本文研究了檢索的片段數(shù)量 (即 top-k) 對結(jié)果的影響，并在表 16 中呈現(xiàn)了結(jié)果。通過考慮更多的片段，檢索增強生成能夠更一致地恢復(fù)原始摘錄。

為確保模型能夠處理來自各種地理背景和現(xiàn)象的問題，需要擴展支持文檔的語料庫，以涵蓋各種主題。隨著考慮更多文檔，預(yù)計索引的大小將增加。這可能會在檢索過程中增加相似片段之間的碰撞數(shù)量，從而阻礙恢復(fù)輸入問題的相關(guān)信息的能力，降低召回率。

微調(diào)

該實驗評估了微調(diào)模型與基礎(chǔ)指令微調(diào)模型的性能差異。目的在于了解微調(diào)對幫助模型學(xué)習(xí)新知識的潛力。

對于基礎(chǔ)模型，本文評估了開源模型 Llama2-13B-chat 和 Vicuna-13B-v1.5-16k。這兩個模型相對較小，代表了計算與性能之間的有趣權(quán)衡。這兩個模型都是 Llama2-13B 的微調(diào)版本，使用了不同的方法。

Llama2-13B-chat 通過監(jiān)督微調(diào)和強化學(xué)習(xí)進(jìn)行了指令微調(diào)。Vicuna-13B-v1.5-16k 是通過在 ShareGPT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)的指令微調(diào)版本。此外，本文還評估了基礎(chǔ)的 GPT-4，作為一個更大、更昂貴和更強大的替代方案。

對于微調(diào)模型，本文直接在農(nóng)業(yè)數(shù)據(jù)上對 Llama2-13B 進(jìn)行微調(diào)，以便將其性能與為更通用任務(wù)進(jìn)行微調(diào)的類似模型進(jìn)行比較。本文還對 GPT-4 進(jìn)行微調(diào)，以評估微調(diào)在非常大的模型上是否仍然有幫助。帶有指南的評估結(jié)果見表 18。

為全面衡量回答的質(zhì)量，除了準(zhǔn)確性外，本文還評估了回答的簡潔性。

表 21 中顯示，這些模型并不始終對問題提供完整的回答。例如，有些回答指出土壤流失是一個問題，但并沒有提到空氣質(zhì)量。

總的來說，就準(zhǔn)確而簡潔地回答參考答案而言，性能最好的模型是 Vicuna + 檢索增強生成、GPT-4 + 檢索增強生成、GPT-4 微調(diào)和 GPT-4 微調(diào) + 檢索增強生成。這些模型提供了精確性、簡潔性和信息深度的平衡混合。

知識發(fā)現(xiàn)

本文的研究目標(biāo)是探索微調(diào)對幫助 GPT-4 學(xué)習(xí)新知識的潛力，這對應(yīng)用研究至關(guān)重要。

為了測試這一點，本文選擇了在美國的 50 個州中至少有三個州相似的問題。然后計算了嵌入的余弦相似度，并確定了 1000 個這樣的問題列表。這些問題從訓(xùn)練集中刪除，使用微調(diào)和帶有檢索增強生成的微調(diào)來評估 GPT-4 是否能夠根據(jù)不同州之間的相似性學(xué)習(xí)新知識。

更多實驗結(jié)果請參閱原論文。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<big id="z1a2p"><pre id="z1a2p"></pre></big>