自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

檢索增強微調(diào)(RAFT)簡介 原創(chuàng)

發(fā)布于 2024-4-16 10:13
瀏覽
0收藏

當(dāng)將大型語言模型(LLMs)集成到各種應(yīng)用程序中時,通常需要通過檢索增強生成(RAG)為基礎(chǔ)的提示或微調(diào)等技術(shù),引入新的信息,如領(lǐng)域特定知識或?qū)S袛?shù)據(jù)。然而,挑戰(zhàn)在于確定將這些新知識灌輸?shù)侥P椭械淖钣行Х椒ā?strong>檢索增強微調(diào)(RAFT)是一種簡單而強大的微調(diào)方法,可增強模型在特定領(lǐng)域內(nèi)以“開放書本”設(shè)置回答問題的性能。開放書本是指模型可以參考文檔來回答問題的范式。RAFT的操作方式是通過訓(xùn)練模型忽略不對回答給定問題有貢獻(xiàn)的檢索到的文檔,從而消除干擾。這是通過準(zhǔn)確識別和引用有助于回答手頭問題的相關(guān)文檔部分來實現(xiàn)的。此外,RAFT使用思維鏈?zhǔn)巾憫?yīng)進(jìn)一步完善了模型的推理能力。當(dāng)應(yīng)用于領(lǐng)域特定的RAG時,RAFT在各種數(shù)據(jù)集上始終提高了性能,包括PubMed、HotpotQA和Gorilla,為具有領(lǐng)域特定RAG能力的預(yù)訓(xùn)練LLMs提供了有價值的后期訓(xùn)練增強。

RAFT建立在Retriever Aware Training (RAT)的基礎(chǔ)上,并在RAG應(yīng)用程序中推廣超出API的范圍。

類比:如何為LLM準(zhǔn)備考試???

RAFT是一種通用的微調(diào)方法,用于將預(yù)訓(xùn)練的LLM調(diào)整到特定領(lǐng)域的RAG設(shè)置。這是一個常見的場景,您希望您的LLM回答基于一組文檔的問題,例如企業(yè)中的私有文件。這種情況與一般的RAG不同,其中LLM不知道它將在哪個領(lǐng)域(文檔)上進(jìn)行測試。為了更好地說明這種情況,讓部署和使用LLM的真實世界設(shè)置之間進(jìn)行類比,準(zhǔn)備考試。

封閉書本考試 封閉書本考試通常指的是LLMs在考試期間沒有訪問任何額外文檔或參考資料的情況。對于LLMs,這相當(dāng)于一種情況,例如LLMs被用作聊天機器人。在這種情況下,LLMs依靠預(yù)訓(xùn)練和監(jiān)督微調(diào)中嵌入的知識來回應(yīng)用戶的提示。

開放書本考試 相反,將開放書本考試設(shè)置比作LLM可以參考外部信息來源(例如網(wǎng)站或書的章節(jié))。在這種情況下,通常LLM與檢索器配對,檢索器檢索到k個文檔(或文檔的特定部分),并將其附加到用戶的提示中。只有通過檢索到的這些文檔,LLM才能獲得新知識。因此,LLM在這些設(shè)置中的性能,其中它被訓(xùn)練為通用LLM,很大程度上取決于檢索器的質(zhì)量以及檢索器如何準(zhǔn)確識別最相關(guān)的信息片段。

RAFT RAFT專注于一個比一般開放書本考試更狹窄但越來越受歡迎的領(lǐng)域,稱為特定領(lǐng)域的開放書本考試。在特定領(lǐng)域的開放書本考試中,預(yù)先知道LLM將在其中進(jìn)行測試的領(lǐng)域---用于推理。LLM可以使用來自特定領(lǐng)域的任何和所有信息來回應(yīng)用戶的提示,它已經(jīng)進(jìn)行了微調(diào)。特定領(lǐng)域的示例包括企業(yè)文件、最新新聞、屬于組織的代碼存儲庫等。在所有這些場景中,LLM將用于回答問題,其答案可以在一組文檔(一個小型實際領(lǐng)域)中找到。檢索技術(shù)本身對機制幾乎沒有影響(盡管它可能會影響準(zhǔn)確性)。本文主要研究這種特定領(lǐng)域的開放書本設(shè)置,以及如何使預(yù)訓(xùn)練LLM適應(yīng)這個特定領(lǐng)域,包括如何使其對檢索到的文檔和干擾因素的數(shù)量變化更加健壯。

檢索增強微調(diào)(RAFT)簡介 -AI.x社區(qū)

RAFT類比于開放書本 如何為LLM準(zhǔn)備考試?封閉書本 vs. 開放書本 vs. RAFT

RAFT:將語言模型調(diào)整為特定領(lǐng)域的RAG ??

檢索感知微調(diào)(RAFT)提出了一種新穎的配方,用于準(zhǔn)備微調(diào)數(shù)據(jù),以定制模型適用于特定領(lǐng)域的開放書本設(shè)置,相當(dāng)于領(lǐng)域內(nèi)的RAG。在RAFT中,準(zhǔn)備訓(xùn)練數(shù)據(jù),使每個數(shù)據(jù)點包含一個問題(Q)、一組文檔(Dk)和從其中一個文檔(D)生成的相應(yīng)的思維鏈?zhǔn)綐邮酱鸢福ˋ)。區(qū)分兩種類型的文檔:Oracle文檔(D),即可以從中推導(dǎo)出問題答案的文檔,以及“干擾因素”文檔(Di),其中不包含與答案相關(guān)的信息。作為一個實現(xiàn)細(xì)節(jié),Oracle文檔不需要是單個文檔,而可以是多個文檔,就像在HotpotQA中的情況一樣。然后,對于數(shù)據(jù)集中的P%的問題(qi),保留Oracle文檔(di)以及干擾因素文檔(dk-1)。對于數(shù)據(jù)集中的(1-P)%的問題(qi),不包含Oracle文檔,只包含干擾因素文檔(dk)。然后,使用標(biāo)準(zhǔn)的監(jiān)督訓(xùn)練(SFT)技術(shù)微調(diào)語言模型,訓(xùn)練它從提供的文檔和問題生成答案。下圖說明了RAFT的高級設(shè)計原則。

展示了RAG方法訓(xùn)練模型在其訓(xùn)練的文檔集上更好地進(jìn)行RAG。通過在訓(xùn)練數(shù)據(jù)的某些實例中刪除Oracle文檔,迫使模型記憶領(lǐng)域知識。RAFT的訓(xùn)練數(shù)據(jù)如下,并且可以在下圖中看到一個示例訓(xùn)練數(shù)據(jù):

P%的數(shù)據(jù):Q + D* + D1 + D2 + ... + Dk => A* 

1-P%的數(shù)據(jù):Q + D1 + D2 + ... + Dk => A*

檢索增強微調(diào)(RAFT)簡介 -AI.x社區(qū)

RAFT的數(shù)據(jù)訓(xùn)練和測試配置

還提供了數(shù)據(jù)集的一個訓(xùn)練數(shù)據(jù)示例。這涉及問題、上下文、指令和最終的CoT答案。在答案中,使用##begin_quote##和##end_quote##來表示直接從上下文復(fù)制粘貼的引用的開始和結(jié)束。發(fā)現(xiàn)這是一種有效的方法,可以防止模型產(chǎn)生幻覺,并專注于提供的上下文。

RAFT評估 ??

在實驗中,使用以下數(shù)據(jù)集來評估模型和所有基線。從流行和多樣化的領(lǐng)域中選擇這些數(shù)據(jù)集,包括維基百科、編碼/API文檔和醫(yī)學(xué)問答。

  • 自然問答(NQ)、Trivia QA和Hotpot QA是基于維基百科的開放領(lǐng)域問題,主要關(guān)注常識(例如電影、體育等)。
  • HuggingFace、Torch Hub和TensorFlow Hub來自Gorilla論文提出的APIBench。這些基準(zhǔn)主要關(guān)注如何根據(jù)文檔生成正確的功能性API調(diào)用。
  • PubMed QA是專門針對生物醫(yī)學(xué)研究問題回答的問答數(shù)據(jù)集。它主要關(guān)注根據(jù)給定文檔集回答醫(yī)學(xué)和生物學(xué)問題。

考慮以下基線進(jìn)行實驗:

  • 具有0-shot提示的LlaMA2-7B-chat模型:這是用于QA任務(wù)的常用調(diào)整指令的模型,具有清晰的說明但沒有參考文檔。
  • 具有RAG的LlaMA2-7B-chat模型(Llama2 + RAG):與前一設(shè)置類似,但不同之處在于添加了參考上下文。這是處理特定領(lǐng)域QA任務(wù)時最常用的組合。
  • 具有0-shot提示的領(lǐng)域特定微調(diào)(DSF):在上下文中執(zhí)行標(biāo)準(zhǔn)的指令微調(diào)而不使用文檔。
  • 具有RAG的領(lǐng)域特定微調(diào)(DSF + RAG):使用RAG為領(lǐng)域特定微調(diào)模型配備外部知識。因此,對于模型不知道的“知識”,它仍然可以參考上下文。

檢索增強微調(diào)(RAFT)簡介 -AI.x社區(qū)

RAFT在醫(yī)學(xué)(PubMed)、通用知識(HotPotQA)和API(Gorilla)基準(zhǔn)上的結(jié)果。

訓(xùn)練您自己的RAFT ??

以下是關(guān)于如何為RAG應(yīng)用程序訓(xùn)練您自己的RAFT模型的簡短教程,從數(shù)據(jù)集準(zhǔn)備到模型微調(diào),最后到模型部署。

數(shù)據(jù)集準(zhǔn)備:提供一個示例來準(zhǔn)備RAFT的數(shù)據(jù)集。數(shù)據(jù)集包含問題、上下文和答案。上下文是一組文檔,答案是使用GPT-4從其中一個文檔生成的思維鏈?zhǔn)綐邮酱鸢?。請參閱下面的一個示例。

檢索增強微調(diào)(RAFT)簡介 -AI.x社區(qū)

模型微調(diào):將訓(xùn)練模型根據(jù)問題和提供的上下文輸出CoT答案?;A(chǔ)模型Llama2-7B適用于RAG任務(wù),其中任務(wù)需要模型的推理能力、理解語言能力、低延遲推理能力,并且可以輕松適應(yīng)各種設(shè)置。Llama2-7B非常適合許多通用知識問答任務(wù),具有鼓勵數(shù)學(xué)技能,并且由于其4k的預(yù)訓(xùn)練,可以合理解析相當(dāng)長的文檔。Llama2-7B還是一個完美的模型,可以在4個A100-40G GPU上進(jìn)行訓(xùn)練,并在一個GPU上提供服務(wù)。因此,在性能、部署便利性和具有正確許可證的pareto曲線中,LLaMA2模型非常適合RAFT任務(wù)。借助Microsoft AI Studio的幫助,用戶也可以探索Llama-13b或70b等其他模型。下面是在Azure AI Studio上顯示的模型微調(diào)過程的截圖。

檢索增強微調(diào)(RAFT)簡介 -AI.x社區(qū)

模型部署:一旦模型訓(xùn)練完成,您可以自由地將其部署在您自己的GPU上(或通過llama.cpp在CPU上);另一種選擇是將其部署在Microsoft AI Studio上。以下圖片展示了在Azure AI Studio上進(jìn)行模型部署的過程。感謝Meta Llama-2和Microsoft AI Studio的幫助,為企業(yè)微調(diào)和部署LLMs變得容易,極大地促進(jìn)了為不同企業(yè)部署定制模型。

檢索增強微調(diào)(RAFT)簡介 -AI.x社區(qū)

結(jié)論

RAFT是一種旨在增強模型在特定領(lǐng)域內(nèi)以“開卷”方式回答問題的訓(xùn)練策略。這種技術(shù)展示了一種基于選定文檔集合的問題回答任務(wù)的LLMs的微調(diào)配方。已經(jīng)確定了幾個關(guān)鍵的設(shè)計決策,例如訓(xùn)練模型與干擾文檔一起,組織數(shù)據(jù)集以使部分?jǐn)?shù)據(jù)缺乏上下文中的oracle文檔,并以鏈?zhǔn)剿季S的方式從相關(guān)文本中直接引用來制定答案。對PubMed、Hotpot QA和Gorilla API Bench的評估凸顯了RAFT的巨大潛力。展望未來,預(yù)計領(lǐng)域內(nèi)檢索增強生成(RAG)將繼續(xù)在工業(yè)和學(xué)術(shù)領(lǐng)域引起興趣。與一般的RAG不同,該工作解決了LLMs在使用特定領(lǐng)域知識回答問題的實際場景。與當(dāng)前趨勢一致,研究結(jié)果表明,相比于通用LLM模型,更小、經(jīng)過微調(diào)的模型在特定領(lǐng)域的問題回答任務(wù)中表現(xiàn)得同樣出色。

譯自(有刪改):https://gorilla.cs.berkeley.edu/blogs/9_raft.html


本文轉(zhuǎn)載自公眾號AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/NyZnAK7Sh5-pUB5ATC-Lvw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦