FineTuneBench:商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識?
研究背景
這篇文章研究了商業(yè)微調(diào)API在將新知識注入大型語言模型(LLMs)和更新現(xiàn)有知識方面的效果。盡管OpenAI和Google等提供商提供的商業(yè)LLMs微調(diào)API具有靈活的應(yīng)用適應(yīng)性,但其有效性尚不清楚。
該問題的研究難點(diǎn)包括:微調(diào)方法的不透明性、缺乏統(tǒng)一的基準(zhǔn)評估、用戶對超參數(shù)優(yōu)化的限制以及模型在處理新知識和更新知識時(shí)的泛化能力有限。
相關(guān)工作:
該問題的研究相關(guān)工作包括監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)從人類反饋、檢索增強(qiáng)生成等方法,但這些方法在知識注入方面的效果尚不明確。此外,之前的研究主要集中在開源LLMs上,而對大型商業(yè)LLMs的微調(diào)研究較少。
研究方法
這篇論文提出了FineTuneBench,一個(gè)評估框架和數(shù)據(jù)集,用于理解商業(yè)微調(diào)API在學(xué)習(xí)和更新知識方面的效果。具體來說,
- 數(shù)據(jù)集構(gòu)建:FineTuneBench包含四個(gè)領(lǐng)域的數(shù)據(jù)集:最新新聞、虛構(gòu)人物、醫(yī)療指南和代碼。每個(gè)領(lǐng)域有150個(gè)訓(xùn)練問題和50個(gè)測試問題。
- 模型選擇:評估了五個(gè)模型:三個(gè)來自O(shè)penAI的GPT模型(gpt-4o-mini、gpt-4o、gpt-3.5-turbo)和兩個(gè)來自Google的Gemini模型(gemini-1.5-flash、gemini-1.5-pro)。
- 微調(diào)方法:使用各自的微調(diào)服務(wù)對模型進(jìn)行微調(diào)。OpenAI僅允許指定學(xué)習(xí)率、批量大小和訓(xùn)練輪數(shù),而Google Cloud還允許指定微調(diào)方法的適配器大小。所有分析中,除了訓(xùn)練輪數(shù)外,其他微調(diào)特定超參數(shù)保持默認(rèn)值。
- 知識注入技術(shù):在最新新聞數(shù)據(jù)集中,采用了四種技術(shù)來誘導(dǎo)知識獲?。褐苯訂柎饘?、掩碼、完成和無提示完成。
實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)收集:從2024年9月1日至9月30日隨機(jī)抽取了2000篇美聯(lián)社的新聞文章,確保這些文章不出現(xiàn)在任何評估模型的預(yù)訓(xùn)練數(shù)據(jù)中。然后使用GPT-4o生成問題和答案對,并通過質(zhì)量控制步驟篩選出最終的問題/答案對。
- 實(shí)驗(yàn)設(shè)置:在每個(gè)數(shù)據(jù)集上,模型在原始問題和修改后的問題上進(jìn)行訓(xùn)練和評估。對于最新新聞數(shù)據(jù)集,還包括重新措辭和日期更改的修改。對于虛構(gòu)人物數(shù)據(jù)集,生成了基于虛構(gòu)人物的描述和相關(guān)問題。對于醫(yī)療指南和代碼數(shù)據(jù)集,收集了最新的醫(yī)療指南和代碼庫,并使用Claude Sonnet-3.5生成問題和答案對。
- 訓(xùn)練過程:固定批量大小為1,默認(rèn)學(xué)習(xí)率參數(shù)。對于新知識數(shù)據(jù)集,模型訓(xùn)練1、10、20和30輪。對于更新知識數(shù)據(jù)集,模型訓(xùn)練1、5、10、15和20輪。
結(jié)果與分析
新知識任務(wù):在所有新知識數(shù)據(jù)集上,OpenAI模型幾乎可以完美地記住問答對,但在重新措辭或派生問題上表現(xiàn)較差,表明許多情況下記憶并未轉(zhuǎn)化為真正的知識獲取。Gemini模型的表現(xiàn)更差,無法準(zhǔn)確記住問答對。
更新知識任務(wù):在更新知識數(shù)據(jù)集上,商業(yè)微調(diào)模型的泛化性能更低。OpenAI模型在重新措辭的編程問題上平均準(zhǔn)確率為10%,在醫(yī)療數(shù)據(jù)集上的臨床情景測試問題上的準(zhǔn)確率為40%。
泛化能力:盡管模型在訓(xùn)練初期表現(xiàn)出強(qiáng)烈的記憶能力,但在泛化任務(wù)上的性能提升較慢。Gemini模型在20或30輪訓(xùn)練后仍未顯著提高性能。
替代訓(xùn)練技術(shù):使用掩碼、提示完成和無提示完成的替代訓(xùn)練技術(shù)未能提高泛化能力,并且在原始問答對上的性能也較低。
總體結(jié)論
這篇論文通過FineTuneBench評估框架和數(shù)據(jù)集,系統(tǒng)地分析了商業(yè)微調(diào)API在學(xué)習(xí)和更新知識方面的效果。結(jié)果表明,盡管微調(diào)可以提高模型的某些能力,但在大多數(shù)情況下,模型在處理新知識和更新知識時(shí)的泛化能力有限。特別是,Gemini模型的微調(diào)效果最差,無法有效學(xué)習(xí)新知識或更新現(xiàn)有知識。未來的研究可以擴(kuò)展評估范圍,并探索不同的超參數(shù)組合以提高模型的性能。
優(yōu)點(diǎn)與創(chuàng)新
引入FineTuneBench:論文首次提出了FineTuneBench,這是一個(gè)評估框架和數(shù)據(jù)集,用于理解商業(yè)微調(diào)API在學(xué)習(xí)和更新知識方面的能力。
多模型和多API評估:論文評估了五個(gè)前沿LLM(包括GPT-4o和Gemini 1.5 Pro)使用OpenAI和Google Vertex AI的商業(yè)微調(diào)API的效果。多樣化的數(shù)據(jù)集:FineTuneBench數(shù)據(jù)集包含四個(gè)領(lǐng)域的知識注入測試:最新新聞、虛構(gòu)人物、醫(yī)療指南和代碼。
關(guān)鍵問題及回答
問題1:FineTuneBench數(shù)據(jù)集是如何構(gòu)建的?各個(gè)數(shù)據(jù)集的構(gòu)建過程有何不同?
FineTuneBench數(shù)據(jù)集包含四個(gè)領(lǐng)域的數(shù)據(jù)集:最新新聞、虛構(gòu)人物、醫(yī)療指南和代碼。每個(gè)領(lǐng)域有150個(gè)訓(xùn)練問題和50個(gè)測試問題,總共625個(gè)訓(xùn)練問題和1075個(gè)測試問題。
最新新聞數(shù)據(jù)集:從2024年9月1日至9月30日隨機(jī)抽取了2000篇美聯(lián)社的新聞文章,確保這些文章不出現(xiàn)在任何評估模型的預(yù)訓(xùn)練數(shù)據(jù)中。然后使用GPT-4o生成問題和答案對,并通過質(zhì)量控制步驟篩選出最終的問題/答案對。此外,還包括重新措辭和日期更改的修改。虛構(gòu)人物數(shù)據(jù)集:生成了基于虛構(gòu)人物的描述和相關(guān)問題。每個(gè)虛構(gòu)人物的描述包含六個(gè)事實(shí)(如體重、身高、年齡、職業(yè)、喜歡的顏色和城市),并基于這些事實(shí)生成六個(gè)問題/答案對。還包括基于這些事實(shí)生成的衍生問題(如二次問題和比較問題)。醫(yī)療指南數(shù)據(jù)集:收集了最新的醫(yī)療指南和代碼庫,并使用Claude Sonnet-3.5生成問題和答案對。每個(gè)指南更新對應(yīng)一個(gè)問題/答案對,并要求模型將這些更新應(yīng)用到臨床情景中,生成新的問題和答案對。代碼數(shù)據(jù)集:從Scikit-Learn的代碼庫中生成了與代碼相關(guān)的問答對。每個(gè)Python文件生成一個(gè)問題和答案對,并測試模型對對象或函數(shù)名稱更改后的理解。
問題2:在微調(diào)過程中,使用了哪些技術(shù)來誘導(dǎo)知識獲???這些技術(shù)在最新新聞數(shù)據(jù)集上的表現(xiàn)如何?
在最新新聞數(shù)據(jù)集上,采用了四種技術(shù)來誘導(dǎo)知識獲?。褐苯訂柎饘?、掩碼、完成和無提示完成。
直接問答對:這是最基本的訓(xùn)練方法,模型在提示(系統(tǒng)提示)下生成問題和答案對。
掩碼:在句子中掩碼掉答案部分,模型需要根據(jù)上下文推斷出答案。
無提示完成:沒有系統(tǒng)提示,模型需要自行理解事實(shí)并完成句子。
這些技術(shù)在最新新聞數(shù)據(jù)集上的表現(xiàn)有所不同。直接問答對的效果最好,模型在重新措辭和日期更改問題上的表現(xiàn)較差,表明記憶并未轉(zhuǎn)化為真正的知識獲取。掩碼和完成技術(shù)在某些情況下有所改進(jìn),但仍未能顯著提高模型的泛化能力。無提示完成的效果最差,模型在重新措辭和日期更改問題上的表現(xiàn)仍然不理想。
問題3:在更新知識任務(wù)中,商業(yè)微調(diào)模型的泛化性能為何較低?與學(xué)習(xí)新知識相比,更新知識有哪些額外的挑戰(zhàn)?
在更新知識任務(wù)中,商業(yè)微調(diào)模型的泛化性能較低,主要有以下幾個(gè)原因:
知識沖突:更新知識需要模型替換現(xiàn)有的知識,并在各種實(shí)例中傳播這些變化。這可能會導(dǎo)致模型在處理新舊知識時(shí)產(chǎn)生沖突,從而影響其泛化能力。
一致性要求:例如,當(dāng)函數(shù)的名稱更改時(shí),模型不僅需要記住新的名稱,還需要在所有代碼實(shí)例中一致地應(yīng)用這個(gè)更改。這種一致性要求在訓(xùn)練過程中難以實(shí)現(xiàn)。
模型先驗(yàn):醫(yī)療問題的答案通常是概率性的(如列出多個(gè)建議),更新模型的答案需要引導(dǎo)其在已知答案中選擇。而編程問題的答案通常是確定性的,更改名稱需要模型完全記住新的名稱。
與學(xué)習(xí)新知識相比,更新知識有以下額外的挑戰(zhàn):
知識擴(kuò)散:更新知識需要在多個(gè)實(shí)例中傳播變化,這增加了模型的復(fù)雜性和計(jì)算成本。一致性維護(hù):模型需要確保在所有相關(guān)實(shí)例中保持一致的知識,這在訓(xùn)練過程中難以實(shí)現(xiàn)。先驗(yàn)知識的利用:醫(yī)療知識具有一定的分布性,模型可以通過選擇已知答案來更新;而編程知識則需要完全記住新的名稱,增加了學(xué)習(xí)的難度。
本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企
