訓(xùn)練14分鐘,超越Alpaca!華人團隊發(fā)布「飛天羊駝」,基于LLM的數(shù)據(jù)過濾新范式
近期,指令微調(diào)(IFT)已經(jīng)被作為預(yù)訓(xùn)練大語言模型(LLMs)獲得指令遵循能力的關(guān)鍵訓(xùn)練階段。
然而,廣泛使用的IFT數(shù)據(jù)集(例如,Alpaca的52k數(shù)據(jù))卻包含許多質(zhì)量低下的實例,這些實例帶有錯誤或無關(guān)的回應(yīng),對IFT產(chǎn)生了誤導(dǎo)和不利影響。
先前的處理方法主要依靠人工篩選這些低質(zhì)量數(shù)據(jù),但這既費時費力,又難以擴展。
因此,如何以高效、自動化的方式過濾出這些低質(zhì)量數(shù)據(jù),成為提升LLM微調(diào)效果的關(guān)鍵所在。
現(xiàn)在,來自馬里蘭大學(xué),三星和南加大的研究人員提出了一種有效的數(shù)據(jù)過濾策略,使用強大的LLM(例如,ChatGPT)自動識別和移除低質(zhì)量數(shù)據(jù),以改善指令微調(diào)(IFT)的效果。
圖片
論文地址:https://arxiv.org/abs/2307.08701
項目地址:https://lichang-chen.github.io/AlpaGasus/
在這項工作中,研究者提出的模型AlpaGasus,使用從52k Alpaca數(shù)據(jù)中過濾出來的9k高質(zhì)量數(shù)據(jù)進行微調(diào)。
AlpaGasus在多個測試集上顯著優(yōu)于原始的Alpaca,其13B版本甚至在測試任務(wù)上的表現(xiàn)超過了90%的教師模型(即,Text-Davinci-003)。
并且,AlpaGasus在訓(xùn)練時間上也實現(xiàn)了5.7倍的提升,將7B版本的訓(xùn)練時間從80分鐘縮短到了14分鐘。
更少數(shù)據(jù),訓(xùn)練更強「羊駝」
具體來說,研究者利用強大的LLM(如ChatGPT)自動評估每個(指令,輸入,回應(yīng))元組的質(zhì)量,對輸入的各個維度如Accurac、Helpfulness進行打分,并過濾掉分?jǐn)?shù)低于閾值的數(shù)據(jù)。
打分的prompt如下:
圖片
方法的pipeline如下:
實驗部分
在實驗部分,作者使用了一組全面且多樣化的測試集對他們提出的語言模型AlpaGasus進行了評估。
這個全面的評估集包含了來自Self-instruct、Vicuna、WizardLM和Koala的測試集。每一個測試集都提供了不同的指令,減少了評估偏差,提供了對AlpaGasus性能的全面概述。
作者們將AlpaGasus與四種最近的LLMs進行了比較:Alpaca、Text-Davinci-003、ChatGPT和Claude。
性能評估
對于性能的評估,作者們采用了GPT-4作為裁判來評估和比較不同模型對一組指令的回復(fù)。
為了解決GPT-4裁判的位置偏差,作者們對兩種順序(即,將AlpaGasus的回復(fù)置于基線模型的回復(fù)之前/之后)都進行了嘗試,最終得分基于兩次得分的「勝-平-負(fù)」準(zhǔn)則。
結(jié)果分析
在結(jié)果部分,作者強調(diào)——數(shù)據(jù)的質(zhì)量比數(shù)量更重要。
這一點通過AlpaGasus-9k與AlpaGasus-52k在所有測試集上的優(yōu)異表現(xiàn)得到了證明,盡管前者使用的訓(xùn)練數(shù)據(jù)明顯少于后者。
作者還將AlpaGasus-9k和使用從Alpaca數(shù)據(jù)集中隨機挑選出9k數(shù)據(jù)訓(xùn)練的模型進行了對比。
為了研究閾值對IFT的影響,作者比較了AlpaGasus和在應(yīng)用較低閾值(4.0)選出的39k數(shù)據(jù)上微調(diào)的LLaMA。
結(jié)果顯示,只用9k高質(zhì)量數(shù)據(jù)訓(xùn)練的模型會顯著好于用39k質(zhì)量一般數(shù)據(jù)訓(xùn)練的模型。
消融實驗部分,作者從選出訓(xùn)練AlpaGasus的9k數(shù)據(jù)中隨機抽取3k和6k數(shù)據(jù),并使用相同的訓(xùn)練腳本從LLaMA微調(diào)兩個AlpaGasus的變體。
在所有四個測試集上,AlpaGasus在9k數(shù)據(jù)上的訓(xùn)練表現(xiàn)最好,這表明更多的高質(zhì)量數(shù)據(jù)會導(dǎo)致更好的IFT模型。
細(xì)節(jié)評估
此外,作者還對AlpaGasus模型在WizardLM和Vicuna測試集的各項技能/類別進行了細(xì)致的評估。
首先,作者比較了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM測試集上的表現(xiàn)。
結(jié)果顯示,AlpaGasus在29項技能中的22項上表現(xiàn)得比Alpaca好或相同,但在剩余的7項技能,例如編程(如代碼生成)方面,AlpaGasus并未表現(xiàn)出優(yōu)勢。
作者發(fā)現(xiàn),這可能是由于在數(shù)據(jù)選擇和過濾過程中,沒有指定技能類別的比例,導(dǎo)致與編程相關(guān)的數(shù)據(jù)被過濾的比例(88.16%)比平均過濾比例(82.25%)高很多。因此,這導(dǎo)致編程技能比其他技能弱。
也就是說,在IFT中,保持訓(xùn)練數(shù)據(jù)在不同類別之間的多樣性和平衡性非常重要。
接下來,作者進一步比較了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM測試集上的表現(xiàn)。
其中,結(jié)果與7B模型的觀察結(jié)果一致,AlpaGasus在大多數(shù)技能上仍然優(yōu)于Alpaca。
這表明,即使模型大小增加,數(shù)據(jù)質(zhì)量仍然優(yōu)于數(shù)據(jù)量。
在對Vicuna測試集的分析中,AlpaGasus-7B在大多數(shù)類別上,包括反事實、角色扮演、知識和通用等方面,都優(yōu)于Alpaca-7B。而且,當(dāng)基模型規(guī)模擴大時,這一結(jié)論仍然成立。
然后,作者比較了AlpaGasus、text-Davinci-003、ChatGPT和Claude。結(jié)果顯示,AlpaGasus-13B可以達到其教師模型text-Davinci-003 (text-Davinci-003被用來生成Alpaca-52k指令數(shù)據(jù)) 的90%的能力.
成本節(jié)約
在成本節(jié)約部分,作者比較了AlpaGasus和Alpaca的訓(xùn)練成本,考慮到在AWS上所需的計算費用。
對于7B模型,使用9k數(shù)據(jù)的AlpaGasus的訓(xùn)練成本為4.78美元,使用52k數(shù)據(jù)的Alpaca的訓(xùn)練成本為27.31美元。
對于13B模型,使用9k數(shù)據(jù)的AlpaGasus的訓(xùn)練成本為40.96美元,而使用52k數(shù)據(jù)的Alpaca的訓(xùn)練成本為225.28美元。
這顯示出,作者的數(shù)據(jù)選擇策略在模型規(guī)模擴大時,可以帶來更顯著的訓(xùn)練成本節(jié)約。
總結(jié)
本文提出的數(shù)據(jù)過濾方法在可擴展性和自動化方面表現(xiàn)出顯著的優(yōu)勢,證明了精心管理訓(xùn)練數(shù)據(jù)質(zhì)量可以帶來IFT性能的顯著提升以及計算成本的大幅節(jié)省。
數(shù)據(jù)選擇和評估策略也可以廣泛應(yīng)用于其他的指令微調(diào)數(shù)據(jù)集和LLMs,為大語言模型的實際部署開辟了新的研究方向。