上海交大、復(fù)旦、上海 AI Lab引入漸進(jìn)學(xué)習(xí)框架來驗(yàn)證弱到強(qiáng)的推理
?一、結(jié)論寫在前面
論文標(biāo)題:Weak-to-Strong Reasoning
論文鏈接:??https://arxiv.org/pdf/2407.13647??
代碼等:??https://github.com/GAIR-NLP/weak-to-strong-reasoning??
當(dāng)大型語言模型 (LLMs) 超越人類水平能力時(shí),為這些模型提供全面且準(zhǔn)確的監(jiān)督變得愈發(fā)困難。弱到強(qiáng)學(xué)習(xí),即利用能力較弱的模型來解鎖更強(qiáng)大模型的潛在能力,在此背景下被證明是有價(jià)值的。然而,這種方法在復(fù)雜推理任務(wù)中的有效性仍未得到驗(yàn)證。此外,在弱到強(qiáng)設(shè)置下解決推理任務(wù)目前缺乏有效方法來避免盲目模仿弱監(jiān)督者及其錯(cuò)誤。
本文探討了弱到強(qiáng)框架在復(fù)雜推理任務(wù)中的效能。論文引入了一種新方法,該方法利用弱監(jiān)督激發(fā)強(qiáng)大能力,無需依賴人類標(biāo)注或更高級(jí)模型的注釋。該方法側(cè)重于強(qiáng)模型自主精煉其訓(xùn)練數(shù)據(jù)的能力,即使它之前未曾學(xué)習(xí)過該任務(wù)。通過迭代擴(kuò)展其學(xué)習(xí)范圍,強(qiáng)模型不斷拓寬其推理技能。這種自我導(dǎo)向的數(shù)據(jù)治理對(duì)于擴(kuò)大AI推理能力提升的規(guī)模至關(guān)重要,使模型在其發(fā)展軌跡中更加獨(dú)立和高效。
論文使用Llama2-70b作為強(qiáng)模型,測(cè)試了三個(gè)獨(dú)立的弱模型:Llama2-7b、Gemma-2b和Mistral-7b,并在常用的數(shù)學(xué)推理數(shù)據(jù)集GSM8K和MATH上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示:
1.完全弱微調(diào)雖然在分類任務(wù)中有效,但在復(fù)雜推理任務(wù)中表現(xiàn)不佳。
2.論文提出的方法顯著優(yōu)于完全弱微調(diào)方法,在第一階段訓(xùn)練(M → Mplus)后,僅由弱模型(即Gemma-2b)監(jiān)督時(shí),在GSM8K上實(shí)現(xiàn)了26.99點(diǎn)的改進(jìn),并通過偏好優(yōu)化(Mplus → Mpro)進(jìn)一步提高了8.49點(diǎn)的性能,而無需知道金標(biāo)準(zhǔn)答案。
3.論文提出的偏好優(yōu)化階段使強(qiáng)模型能夠從弱監(jiān)督者的錯(cuò)誤中學(xué)習(xí),最終在具有挑戰(zhàn)性的場(chǎng)景(如4-5級(jí)MATH問題)中超越了在金標(biāo)準(zhǔn)解決方案上微調(diào)的強(qiáng)模型(即強(qiáng)上限)。
為更準(zhǔn)確地模擬未來場(chǎng)景,論文在OlympicArena上進(jìn)行了額外的實(shí)驗(yàn),這是一個(gè)極具挑戰(zhàn)性的數(shù)據(jù)集,沒有明確的標(biāo)準(zhǔn)答案。盡管規(guī)模較小,但Llama3-8binstruct(AI@Meta,2024)已經(jīng)經(jīng)過對(duì)齊,并被證明可以有效地監(jiān)督更大的Llama3-70b,后者的潛力尚未被充分發(fā)揮。此外,論文提出的兩階段訓(xùn)練方法比完全弱微調(diào)高出3.19點(diǎn)。
圖1:( a ):使用 Llama2-7b 監(jiān)督 Llama2-70b 在 GSM8K 上的測(cè)試準(zhǔn)確率。(b):使用 Llama3-8b-instruct 監(jiān)督 Llama3-70b 在 OlympicArena 上的測(cè)試準(zhǔn)確率。"弱基礎(chǔ)" 指的是弱模型的結(jié)果。"全弱微調(diào)" 指的是基線結(jié)果,其中強(qiáng)模型在弱模型生成的完整數(shù)據(jù)集上進(jìn)行簡(jiǎn)單微調(diào)。"論文的階段I" 表示使用論文提出的弱到強(qiáng)方法進(jìn)行監(jiān)督微調(diào)的第一階段結(jié)果。請(qǐng)注意,論文的方法在階段I產(chǎn)生了三種增強(qiáng)的強(qiáng)模型變體,論文在這里展示最佳結(jié)果。"論文的階段II" 表示使用論文的方法進(jìn)行偏好優(yōu)化的第二階段結(jié)果
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
"學(xué)生不必不如老師;老師不必比學(xué)生更聰明。" ——《On Teachers》
隨著人工通用智能(AGI)研究的推進(jìn),創(chuàng)造超越人類認(rèn)知能力的超智能系統(tǒng)一直是該領(lǐng)域的一個(gè)關(guān)鍵目標(biāo))。這一追求帶來了一系列挑戰(zhàn),尤其是在這些高級(jí)AI模型的監(jiān)督和學(xué)習(xí)范式方面。傳統(tǒng)的監(jiān)督方法通常依賴于人類監(jiān)督或來自更高級(jí)模型的指導(dǎo)(即知識(shí)蒸餾,distilled knowledge)),但當(dāng)AI的能力超越其監(jiān)督者時(shí),這些方法變得不足。
為解決這個(gè)問題,論文關(guān)注弱到強(qiáng)學(xué)習(xí)范式(weak-tostrong learning paradigm),該范式在一個(gè)獨(dú)特的任務(wù)設(shè)置下運(yùn)作,即只有一個(gè)能力較弱的模型和一個(gè)更強(qiáng)大但未充分利用的模型可用。弱到強(qiáng)學(xué)習(xí)的核心問題是,能力有限的模型是否能有效指導(dǎo)更先進(jìn)、更強(qiáng)大模型的發(fā)展。Burns等人(2023)的先前研究已經(jīng)證明了這種方法在分類、國(guó)際象棋和獎(jiǎng)勵(lì)建模任務(wù)中的可行性。然而,這種設(shè)置是否適用于更復(fù)雜的推理任務(wù)仍是一個(gè)開放性問題,這些任務(wù)需要的不僅僅是簡(jiǎn)單的外推或模式識(shí)別。
復(fù)雜推理是人類認(rèn)知的一個(gè)關(guān)鍵方面,對(duì)于評(píng)估大語言模型是否能模仿或超越人類理解世界、做出決策和解決問題的能力至關(guān)重要。鑒于這些任務(wù)的復(fù)雜性和關(guān)鍵性,將弱到強(qiáng)學(xué)習(xí)框架應(yīng)用于高級(jí)推理挑戰(zhàn)是至關(guān)重要的,特別是在實(shí)現(xiàn)超智能的更廣泛背景下。
盡管Burns等人(2023)建議,在弱模型產(chǎn)生的全部噪聲數(shù)據(jù)上簡(jiǎn)單地微調(diào)強(qiáng)模型(稱為完全弱微調(diào))可以持續(xù)提高其性能超過較弱的對(duì)應(yīng)模型,但這種方法仍遠(yuǎn)未恢復(fù)強(qiáng)模型的全部能力,而且論文的實(shí)驗(yàn)表明,在面對(duì)更復(fù)雜的推理挑戰(zhàn)時(shí),它失去了效果。他們還提出了一種輔助置信度損失,以緩解強(qiáng)模型模仿其監(jiān)督者錯(cuò)誤的問題。然而,這種方法是為具有一組固定標(biāo)簽的分類任務(wù)量身定制的,不能自然地?cái)U(kuò)展到包括推理在內(nèi)的開放式生成任務(wù)。目前,在弱到強(qiáng)推理框架內(nèi),除了簡(jiǎn)單的微調(diào)之外,缺乏有效的方法來防止過度擬合弱錯(cuò)誤并進(jìn)一步激發(fā)強(qiáng)模型的內(nèi)在推理能力。
為實(shí)現(xiàn)上述目標(biāo),論文引入了一個(gè)漸進(jìn)式改進(jìn)學(xué)習(xí)框架,遵循的原則是模型可以通過最初關(guān)注較小、更可靠的數(shù)據(jù)子集,然后逐步擴(kuò)大學(xué)習(xí)范圍來更有效地提高其能力,如圖2所示:
?在第一階段,論文假設(shè)利用可能更準(zhǔn)確的較小數(shù)量的數(shù)據(jù)更有利。論文通過結(jié)合弱模型生成的數(shù)據(jù)和更高級(jí)模型通過上下文學(xué)習(xí)自生成的數(shù)據(jù)來實(shí)現(xiàn)這一點(diǎn)。然后將這種混合用于有選擇地策劃后續(xù)監(jiān)督微調(diào)的數(shù)據(jù)集。
?在第二階段,在開發(fā)出具有改進(jìn)推理能力的強(qiáng)模型后,論文利用其構(gòu)建對(duì)比樣本進(jìn)行偏好優(yōu)化的能力,使模型能夠有效地從較弱模型的錯(cuò)誤中學(xué)習(xí)。
2.2 預(yù)備知識(shí)
2.2.1 大語言模型的典型學(xué)習(xí)范式
論文概述了大型模型訓(xùn)練中的常見學(xué)習(xí)范式,主要特征是需要標(biāo)準(zhǔn)答案和來自更強(qiáng)大模型的監(jiān)督,如表1所示。
通用監(jiān)督學(xué)習(xí) 在訓(xùn)練大語言模型時(shí),理想情況是擁有足夠數(shù)量的帶有標(biāo)準(zhǔn)答案的訓(xùn)練數(shù)據(jù),論文稱之為通用監(jiān)督學(xué)習(xí)范式。然而,獲取這樣的數(shù)據(jù)往往需要大量的標(biāo)注工作,有時(shí)甚至是不可能的。因此,各種學(xué)習(xí)范式應(yīng)運(yùn)而生,以減少數(shù)據(jù)質(zhì)量和數(shù)量的影響,同時(shí)仍能提高性能。
表1:LLMs的典型學(xué)習(xí)范式?!癡”和“X”表示是否需要監(jiān)督,“-”表示可選。“G.T:”代表真實(shí)答案
基于蒸餾的學(xué)習(xí) 在當(dāng)前背景下,即使沒有標(biāo)準(zhǔn)答案,要提升像Llama2-70b這樣的強(qiáng)大模型,仍可以通過尋求像GPT-4這樣更強(qiáng)大的模型的幫助來實(shí)現(xiàn)改進(jìn)。因此,許多現(xiàn)有工作建議讓一個(gè)更強(qiáng)大的模型充當(dāng)教師模型,為目標(biāo)模型提供具體反饋以改進(jìn)。這種范式可以被視為蒸餾更強(qiáng)大教師模型的知識(shí)。然而,僅僅模仿教師模型并非長(zhǎng)期解決方案;在模仿數(shù)據(jù)中未充分代表的任務(wù)上,模仿模型只能略微縮小與教師模型的性能差距。此外,蒸餾學(xué)習(xí)主要有益于那些不如教師模型能力強(qiáng)的模型。
自我改進(jìn)學(xué)習(xí) 考慮到由人類或更強(qiáng)大的專有模型標(biāo)注訓(xùn)練數(shù)據(jù)的高昂成本,一系列工作依賴于模型自身生成的正確響應(yīng)來更新它。例如,Zelikman等人(2022)、Yuan等人(2023)、Singh等人(2023)、Hosseini等人(2024)根據(jù)最終答案的正確性篩選解決方案,而Lightman等人(2023)、Lin等人(2024)則使用在金標(biāo)準(zhǔn)標(biāo)注上訓(xùn)練的獎(jiǎng)勵(lì)模型來評(píng)分自生成內(nèi)容。顯然,無論是使用二元標(biāo)簽還是細(xì)粒度反饋,這種范式仍然需要標(biāo)準(zhǔn)答案來評(píng)估模型自生成響應(yīng)的可用性。沒有標(biāo)準(zhǔn)答案,自我改進(jìn)只能帶來最小的性能提升,甚至可能降低性能。
半監(jiān)督學(xué)習(xí) 從傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域的半監(jiān)督學(xué)習(xí)中獲得啟發(fā),另一種大語言模型學(xué)習(xí)不依賴于大量標(biāo)注,而是依賴于一個(gè)小型的高質(zhì)量種子數(shù)據(jù)集。Tong等人(2024)通過學(xué)習(xí)自生成響應(yīng)與專家標(biāo)注響應(yīng)之間的差異,展示了改進(jìn)。論文還將當(dāng)前流行的研究主題——易到難泛化納入這一類別,其中模型通過學(xué)習(xí)人類對(duì)較簡(jiǎn)單任務(wù)的標(biāo)注來解決復(fù)雜任務(wù)。這一系列研究不可避免地需要獲取一小部分高質(zhì)量的標(biāo)準(zhǔn)答案。
弱到強(qiáng)學(xué)習(xí) 在模型超越人類能力的場(chǎng)景中,為復(fù)雜任務(wù)提供全面和精確監(jiān)督的挑戰(zhàn)變得更加嚴(yán)峻,特別是在沒有標(biāo)準(zhǔn)答案,也沒有更高級(jí)模型提供監(jiān)督指導(dǎo)的情況下。這種缺失凸顯了弱到強(qiáng)學(xué)習(xí)方法的關(guān)鍵重要性。這些方法獨(dú)特地利用較弱的監(jiān)督信號(hào)來恢復(fù)已經(jīng)強(qiáng)大的模型中的潛在知識(shí)。例如,用GPT-2級(jí)別的監(jiān)督者對(duì)GPT-4進(jìn)行微調(diào),可以在某些任務(wù)上恢復(fù)接近GPT-3.5級(jí)別的性能。這一策略對(duì)推動(dòng)人類社會(huì)進(jìn)步具有深遠(yuǎn)意義,它使大語言模型具備解決當(dāng)前無法解決的數(shù)學(xué)和物理挑戰(zhàn)的能力。與其他學(xué)習(xí)范式不同,弱到強(qiáng)學(xué)習(xí)在相對(duì)寬松的條件下運(yùn)作,為探索和創(chuàng)新開辟了廣闊的機(jī)會(huì)。
2.2.2 弱到強(qiáng)推理設(shè)置
論文在弱到強(qiáng)的設(shè)置下處理推理任務(wù),如表2所示。首先,論文研究數(shù)學(xué)推理任務(wù),如GSM8k和MATH中的任務(wù)。這些任務(wù)要求推理過程的每一步都展示基本的數(shù)學(xué)問題解決技能,包括問題理解和代數(shù)運(yùn)算,并在前幾步的基礎(chǔ)上繼續(xù)推進(jìn)。這對(duì)模型的學(xué)習(xí)和泛化能力提出了更高的要求。與分類任務(wù)不同,模型可以依賴于表面模式的外推或識(shí)別,而推理任務(wù)幾乎無法從猜測(cè)中獲益。
然后,論文使用一個(gè)具有一定數(shù)學(xué)問題解決能力的弱模型(例如Llama2-7b),記為m。這個(gè)模型類似于超智能時(shí)代中具有有限專業(yè)知識(shí)的人類監(jiān)督者。此外,論文只有一組沒有標(biāo)準(zhǔn)答案的問題Q = {qi,目標(biāo)是提高強(qiáng)模型M(例如Llama2-70b)的推理能力。
為了實(shí)現(xiàn)這一點(diǎn),論文遵循Burns等人(2023)的方法,將原始訓(xùn)練集隨機(jī)分成兩個(gè)相等的部分,Dgold,1和Dgold,2。弱模型最初使用Dgold,1進(jìn)行微調(diào),其中有可用的標(biāo)準(zhǔn)解決方案,從而得到一個(gè)具有一定問題解決能力的弱模型,即m。相比之下,強(qiáng)模型只能訪問來自Dgold,2的問題,沒有推理鏈或最終答案,即Q。
2.3 方法論
在本節(jié)中,論文提出了一種弱到強(qiáng)的訓(xùn)練方法,旨在最大限度地利用弱數(shù)據(jù)并激發(fā)強(qiáng)模型的內(nèi)在潛力。首先,在沒有標(biāo)準(zhǔn)答案和外部信號(hào)的情況下,論文識(shí)別出潛在的正樣本。在第一階段,論文僅利用這部分?jǐn)?shù)據(jù)進(jìn)行監(jiān)督式微調(diào)。然后,一旦強(qiáng)模型達(dá)到了一定的推理水平,論文就在第二階段使用全部弱數(shù)據(jù),特別是通過基于偏好學(xué)習(xí)的方法(如 DPO,)來利用潛在的負(fù)樣本,鼓勵(lì)強(qiáng)模型從弱模型的錯(cuò)誤中學(xué)習(xí)。整個(gè)框架如圖 3 所示。
2.3.1 階段I:從“正樣本”中學(xué)習(xí)
給定一個(gè)弱模型m 和一系列沒有真實(shí)標(biāo)簽的數(shù)學(xué)問題Q,m 生成弱數(shù)據(jù)D_weak = {q_i, C_weak,i, a_weak,i },其中q_i ∈ Q,C_weak,i 表示推理鏈,a_weak,i 表示最終答案。a_weak,i 的正確性是未知的。核心挑戰(zhàn)在于:論文如何最大化利用m 和D_weak 來充分增強(qiáng)和恢復(fù)一個(gè)更強(qiáng)模型M 的數(shù)學(xué)推理能力?
2.3.1.1 全面弱數(shù)據(jù)微調(diào)
論文的初始策略是對(duì)更強(qiáng)模型M 在整個(gè)弱數(shù)據(jù)集Dweak 上進(jìn)行微調(diào)。盡管先前研究(Burns et al., 2023)已驗(yàn)證了這種方法在文本分類任務(wù)中的有效性,但其在推理任務(wù)中的效果尚未探索。因此,論文著手研究弱到強(qiáng)泛化現(xiàn)象是否也能在此較少探討的領(lǐng)域增強(qiáng)M 的推理能力。
2.3.1.2 弱上下文學(xué)習(xí)
另一種直接的方法是上下文學(xué)習(xí)(ICL, in-context learning),它僅需要幾個(gè)訓(xùn)練樣本作為提示中的演示。具體來說,論文從D_weak 中隨機(jī)選擇四個(gè)樣本作為演示。由于論文無法訪問真實(shí)標(biāo)簽,這些演示不能被證明是正確的。
圖3:論文的方法概覽,從M 演進(jìn)為Mplus 再到Mpro。左側(cè):論文利用最終答案一致性來有選擇地從多樣化的來源中過濾弱數(shù)據(jù)和ICL數(shù)據(jù),這些數(shù)據(jù)用于微調(diào)強(qiáng)模型M 并獲得具有增強(qiáng)數(shù)學(xué)推理能力的Mplus。右側(cè):論文利用Mplus 的置信度來識(shí)別對(duì)比樣本以進(jìn)行性能優(yōu)化,從而得到更穩(wěn)健的強(qiáng)模型Mpro。
2.3.1.3 弱-ICL微調(diào)
鑒于模型可以通過監(jiān)督微調(diào)模仿弱錯(cuò)誤,論文建議在使用前對(duì)Dweak進(jìn)行精煉,而不是盲目使用所有數(shù)據(jù)。此外,論文還尋求利用通過上下文學(xué)習(xí)激活的強(qiáng)模型的固有能力。基于這兩個(gè)想法,論文引入了弱-icl微調(diào),同時(shí)使用弱數(shù)據(jù)D_weak和"icl數(shù)據(jù)"D_icl = {q_i, c_icl,i, a_icl,i},其中qi ∈ Q,c_icl,i和a_icl,i是由M通過少樣本示例生成的,作為更高質(zhì)量的監(jiān)督信號(hào)。需要注意的是,對(duì)于D_weak和D_icl,論文無法確定某個(gè)答案是否正確。
盡管如此,當(dāng)兩個(gè)采用不同數(shù)據(jù)表示的模型在開放式任務(wù)中得出相同答案時(shí),這表明準(zhǔn)確性的可能性更高。這種現(xiàn)象支持了在不同方法之間觀察到一致性時(shí)結(jié)果的可靠性。因此,論文比較由弱模型和強(qiáng)模型分別生成的D_weak和D_icl,并在a_weak,i = a_icl,i時(shí)選擇D?weak和D?icl用于后續(xù)的監(jiān)督微調(diào)。論文稱這種方法為最終答案一致性??紤]到這兩組數(shù)據(jù)的組合,論文可以得到三個(gè)版本的增強(qiáng)微調(diào)強(qiáng)模型:
?M_weak-ft:在D?weak上微調(diào)的M。
?M_icl-ft:在D?icl上微調(diào)的M。
?M_hybrid-ft:在D?weak和D?icl的并集上微調(diào)的M。
迭代訓(xùn)練 仔細(xì)觀察M_weak-ft和M_icl-ft,論文發(fā)現(xiàn)它們?nèi)匀粷M足具有不同數(shù)據(jù)表示的條件,因?yàn)樗鼈兪窃趤碜圆煌瑏碓吹臄?shù)據(jù)上訓(xùn)練的——D?weak由弱模型生成,而D?icl主要源自強(qiáng)模型本身。因此,論文可以進(jìn)行迭代訓(xùn)練以提升性能。論文將初始輪次的監(jiān)督微調(diào)數(shù)據(jù)表示為D?1weak和D?1icl,得到模型M1weak-ft、M1icl-ft和M1hybrid-ft。在第二次迭代中,論文將M1weak-ft應(yīng)用于Q以構(gòu)建D2weak,將M1icl-ft應(yīng)用于構(gòu)建D2icl。這里,下標(biāo)"weak"和"icl"表示初始數(shù)據(jù)來源。然后論文應(yīng)用最終答案一致性來獲得D?2weak和D?2icl。經(jīng)過另一輪監(jiān)督微調(diào)后,論文得到:
?M2weak-ft:在D?2weak上微調(diào)的M。
?M2icl-ft:在D?2icl上微調(diào)的M。
?M2hybrid-ft:在D?2weak和D?2icl的并集上微調(diào)的M。
需要注意的是,迭代訓(xùn)練步驟是可選的;當(dāng)數(shù)據(jù)質(zhì)量過低或模型過擬合時(shí),可能會(huì)導(dǎo)致性能下降。
2.3.2 第三階段:從“負(fù)面”樣本中學(xué)習(xí)
論文將第一階段的最終迭代模型表示為 Mplus,該模型已學(xué)習(xí)了雙重?cái)?shù)學(xué)解決方案,并具有進(jìn)一步增強(qiáng)的潛力。接下來,論文應(yīng)用偏好優(yōu)化技術(shù),戰(zhàn)略性地利用由m 生成的原始弱數(shù)據(jù)集Dweak={q_i, c_weak, a_weak,i}中的潛在錯(cuò)誤子集,使得強(qiáng)模型能夠識(shí)別并避免在未來的推理過程中出現(xiàn)類似的錯(cuò)誤。關(guān)鍵在于如何構(gòu)建用于學(xué)習(xí)的對(duì)比樣本。
在沒有訪問真實(shí)答案的情況下,當(dāng)前具備增強(qiáng)推理能力的強(qiáng)大模型會(huì)根據(jù)其置信度識(shí)別最可能正確的答案。具體而言,對(duì)于每個(gè)問題q_i 屬于 Q,論文從模型Mplus 中抽取n 個(gè)回答,并將這些回答中出現(xiàn)頻率最高的答案的概率定義為置信度。當(dāng)置信度低于指定閾值τ 時(shí),論文認(rèn)為模型對(duì)這一問題的判斷不可靠,因此將其舍棄。相反,如果置信度不低于τ,論文則認(rèn)為模型能夠解答該問題,并繼續(xù)構(gòu)建對(duì)比樣本,具體步驟如下:
進(jìn)一步在樣本上訓(xùn)練M_plus使其能夠區(qū)分正確與錯(cuò)誤的解決方案,從而得到一個(gè)更強(qiáng)的模型M_pro。
2.4 實(shí)驗(yàn)
2.4.1 數(shù)據(jù)集
GSM8K和 MATH是兩個(gè)廣泛使用的數(shù)學(xué)推理數(shù)據(jù)集,其中 MATH 包含更具挑戰(zhàn)性的競(jìng)賽問題。論文使用的數(shù)據(jù)統(tǒng)計(jì)信息如表 4 所示。特別是,為了確保弱模型有足夠的訓(xùn)練數(shù)據(jù)來培養(yǎng)初步的數(shù)學(xué)技能,論文通過 Chern 等人(2023)構(gòu)建的數(shù)據(jù)增強(qiáng)了 GSM8K 訓(xùn)練集。
表 4:數(shù)據(jù)統(tǒng)計(jì)。Dg o l d, 1 和Dg o l d, 2 是訓(xùn)練集的子集。弱模型使用Dg o l d, 1 來培養(yǎng)初始數(shù)學(xué)技能,而強(qiáng)模型只能訪問Dg o l d, 2 中的問題,沒有正確答案
圖4:第一階段的主要結(jié)果。第0^m 輪展示了兩個(gè)基線的性能,其中“weak”表示完全弱微調(diào),即在全部弱數(shù)據(jù)上進(jìn)行簡(jiǎn)單微調(diào),“icl”指的是不進(jìn)行微調(diào)的弱ICL。連線表示模型共享相同的訓(xùn)練數(shù)據(jù)源。低于“強(qiáng)上限”的結(jié)果顯示了通過貪婪解碼的測(cè)試準(zhǔn)確率,而高于“強(qiáng)上限”的結(jié)果顯示了pass@k分?jǐn)?shù)( k=10 和溫度=1.0 )。為簡(jiǎn)潔起見,論文僅展示了通過貪婪解碼超越的Mhybrid-tad 檢查點(diǎn)的pass@k分?jǐn)?shù),完整結(jié)果在A.4.2 中提供
2.4.2實(shí)驗(yàn)設(shè)置
論文使用Llama2-70b作為強(qiáng)模型,并采用來自不同家族的三種弱模型:Llama2-7b、Gemma-2b和Mistral-7b。論文對(duì)弱模型在D_gold,1 上進(jìn)行全參數(shù)微調(diào),并一致采用LoRA對(duì)強(qiáng)模型進(jìn)行微調(diào)。在第一階段,論文根據(jù)迭代原則,在GSM8K上進(jìn)行兩輪迭代,在MATH上進(jìn)行一輪迭代。在第二階段,論文采用基于偏好學(xué)習(xí)的兩種方法,DPO及其變體ORPO。
論文在測(cè)試集上評(píng)估準(zhǔn)確性。弱模型m 的性能與通過Dgold,2 中的黃金解決方案數(shù)據(jù)微調(diào)的強(qiáng)模型M 的性能相結(jié)合,代表了強(qiáng)模型與弱模型結(jié)合的最佳性能。
2.4.3 第一階段結(jié)果
GSM8K和MATH數(shù)據(jù)集上第一階段的主要結(jié)果如圖4所示。值得注意的是,在MATH實(shí)驗(yàn)中,由于可用數(shù)據(jù)量較小,論文隨機(jī)抽取了未根據(jù)最終答案一致性選擇的數(shù)據(jù)。根據(jù)圖4,論文有以下觀察結(jié)果。
弱ICL微調(diào)顯示出顯著提升。使用論文提出的方法,僅由在GSM8K上準(zhǔn)確率為25.17 的弱Gemma-2b監(jiān)督的強(qiáng)模型性能,可以提升至60.12,超過簡(jiǎn)單全弱微調(diào)31.08,并且超過Mplus(即Mhybrid-ft^2)。隨著弱模型的改進(jìn),這一結(jié)論在分類任務(wù)上得到了Liu和Alahi(2024)的驗(yàn)證。具體而言,GSM8K上的性能逐漸提升,從Gemma-2b到Llama-7,再到Mistral-7b(25.17 -> 33.81 -> 59.51)。因此,通過這些模型生成的數(shù)據(jù)訓(xùn)練的強(qiáng)模型的最大性能也逐步提升(60.12 -> 63.76 -> 68.39)。
Mhybrid-rt 實(shí)現(xiàn)了最高的 pass@k 分?jǐn)?shù)。正如預(yù)期,Mhybrid-t 在弱到強(qiáng)設(shè)置中取得了最高的 pass@k 分?jǐn)?shù),這得益于其訓(xùn)練數(shù)據(jù)融合了兩種類型的解決方案——一種來自弱模型,另一種來自強(qiáng)模型。這種多樣性通過降低過擬合的可能性增強(qiáng)了模型的魯棒性。此外,Mia-t 的表現(xiàn)通常優(yōu)于 Mweak-ft,這可以歸因于過程級(jí)精度的變化和可能的解決方案格式。
簡(jiǎn)單的微調(diào)不足以應(yīng)對(duì)弱到強(qiáng)的推理任務(wù)。當(dāng)使用 Gemma-2b 作為 MATH 數(shù)據(jù)集上的弱模型時(shí),完全弱微調(diào)的表現(xiàn)不如弱基準(zhǔn)(10.0 對(duì)比 11.6)。這表明,盡管簡(jiǎn)單的微調(diào)在分類、國(guó)際象棋和獎(jiǎng)勵(lì)建模任務(wù)中成功應(yīng)用(Burns et al., 2023),但對(duì)于復(fù)雜的推理任務(wù),尤其是像 MATH 中的高難度問題,這種方法顯得力不從心。相比之下,論文的弱-icl 微調(diào)方法有效地彌合了這一差距,為弱到強(qiáng)推理挑戰(zhàn)提供了一種有效且可擴(kuò)展的解決方案。
ICL性能的影響 考慮到弱-icl微調(diào)的有效性部分取決于弱ICL的效果,論文進(jìn)一步探討了通過謹(jǐn)慎選擇示例來增強(qiáng)ICL性能如何影響弱-icl微調(diào)的表現(xiàn)。圖5展示了使用Gemma-2b作為弱模型,在不同示例集下GSM8K測(cè)試的準(zhǔn)確率。結(jié)果表明,使用這組特定示例的弱ICL性能從原始的56.48提高到了64.06。
隨后,論文在提示中使用這些示例重新生成Dicl,并在通過最終答案一致性精選的D?icl上微調(diào)強(qiáng)模型。這進(jìn)一步將性能從64.06提升到64.75,證實(shí)了自主數(shù)據(jù)篩選的有效性。
值得注意的是,盡管弱ICL具有高性能的潛力,但在弱到強(qiáng)的框架中選擇有效的示例并非易事,這超出了本文的討論范圍。
2.4.4 第二階段結(jié)果
論文采用Mhybrid-ft的最終迭代作為Mplus進(jìn)行后續(xù)的偏好學(xué)習(xí)。實(shí)驗(yàn)結(jié)果驗(yàn)證了該檢查點(diǎn)達(dá)到了更高的pass@k,并具有進(jìn)一步提升的顯著潛力。
如表5所示,論文構(gòu)建正負(fù)樣本的方法有效地增強(qiáng)了強(qiáng)模型的數(shù)學(xué)推理能力。在GSM8K上,DPO和ORPO使用論文構(gòu)建的數(shù)據(jù)集都持續(xù)取得顯著改進(jìn),特別是在由Gemma-2b監(jiān)督時(shí),增加了8.49個(gè)百分點(diǎn)。盡管MATH問題本質(zhì)上具有挑戰(zhàn)性,這影響了強(qiáng)模型的判斷并在訓(xùn)練數(shù)據(jù)中引入了不準(zhǔn)確性,但論文的方法通過ORPO仍然在MATH上取得了至少1個(gè)百分點(diǎn)的改進(jìn)。
數(shù)據(jù)構(gòu)建方法 在構(gòu)建偏好數(shù)據(jù)時(shí),論文始終使用由弱模型生成的弱響應(yīng)作為被選擇/拒絕的響應(yīng)之一,而不是完全依賴自生成的數(shù)據(jù)。論文還在GSM8K上使用Llama2-7b作為弱模型測(cè)試了自生成設(shè)置,其中被選擇和被拒絕的響應(yīng)都由強(qiáng)模型自身生成。在這種設(shè)置下,DPO測(cè)試準(zhǔn)確率為62.40(-0.22),表明性能略有下降。在沒有真實(shí)標(biāo)簽的情況下,構(gòu)建的正負(fù)樣本實(shí)際上分別對(duì)應(yīng)于更頻繁和較少出現(xiàn)的答案,并與模型傾向于選擇的答案相關(guān)。由于偏好優(yōu)化本質(zhì)上執(zhí)行排序,這種自生成設(shè)置的潛在收益是最小的。因此,在偏好數(shù)據(jù)構(gòu)建過程中引入弱數(shù)據(jù)信號(hào)被證明是一種更好的方法。
2.4.5 分析
為進(jìn)行進(jìn)一步分析,論文檢查了MATH測(cè)試集中不同難度級(jí)別的準(zhǔn)確率。
如圖6所示,強(qiáng)模型在較簡(jiǎn)單的問題上表現(xiàn)出更好的泛化能力。具體來說,盡管Llama2-7b在1級(jí)問題上只達(dá)到了6.98點(diǎn)的準(zhǔn)確率,但Llama2-70b在使用這種弱監(jiān)督訓(xùn)練后,可以在1級(jí)問題上達(dá)到超過30點(diǎn)的準(zhǔn)確率。對(duì)于更具挑戰(zhàn)性的問題(4-5級(jí)),經(jīng)ORPO增強(qiáng)的Mpro甚至超過了僅通過金標(biāo)準(zhǔn)解決方案監(jiān)督微調(diào)獲得的強(qiáng)模型上限。這一現(xiàn)象驗(yàn)證了從不正確數(shù)據(jù)中學(xué)習(xí)的有效性。
2.4.6 更接近未來場(chǎng)景的實(shí)驗(yàn)
在對(duì)Llama3-70b(AI@Meta,2024)的初步測(cè)試中,論文觀察到在GSM8K和MATH上,Llama3-70b可以通過上下文學(xué)習(xí)在很大程度上釋放其潛力,而參數(shù)更新由于訓(xùn)練不穩(wěn)定性而產(chǎn)生邊際甚至負(fù)面影響。因此,論文聚焦于Llama3-70b發(fā)布后開發(fā)的更具挑戰(zhàn)性的數(shù)據(jù)集OlympicArena,以模擬更真實(shí)的未來場(chǎng)景。
論文僅考慮OlympicArena中的英語問題,排除了需要基于案例或?qū)<以u(píng)估的CODE(代碼生成)和OT(其他)問題類型。這樣得到了6,020個(gè)沒有解決方案和最終答案的訓(xùn)練數(shù)據(jù),以及313個(gè)有最終答案的測(cè)試數(shù)據(jù),用于評(píng)估不同方法的性能。論文使用Llama3-8b-instruct(未在訓(xùn)練數(shù)據(jù)子集上進(jìn)行初始微調(diào))作為弱模型,Llama3-70b作為待改進(jìn)的強(qiáng)模型。超參數(shù)與GSM8K中使用的一致。這種配置更接近未來真實(shí)世界的弱到強(qiáng)場(chǎng)景。
實(shí)驗(yàn)結(jié)果如表6所示。"Weak Floor"代表Llama3-8b-instruct的零樣本性能,"Full Weak FT"表示Llama3-70b在訓(xùn)練集上由Llama3-8b-instruct生成的全部(即6,020個(gè))弱解決方案上監(jiān)督微調(diào)后的性能,"Weak ICL"表示Llama3-70b在Llama3-8b-instruct生成的4-shot弱示例下的性能。盡管參數(shù)更多,但由于挖掘能力不足,Llama3-70b在上下文學(xué)習(xí)下的表現(xiàn)仍低于Llama3-8b-instruct的零樣本性能。
通過論文提出的弱-icl微調(diào)方法獲得的M1 weak-ft,以更少的訓(xùn)練數(shù)據(jù)(即746個(gè))達(dá)到了比Full Weak FT更高的性能,超過了0.32個(gè)百分點(diǎn)。經(jīng)過第二階段的偏好優(yōu)化,進(jìn)一步利用弱模型和沒有答案的訓(xùn)練問題,強(qiáng)模型的性能比Full Weak FT又提高了3.19個(gè)百分點(diǎn)。這證明了論文的方法在更接近未來?xiàng)l件的場(chǎng)景中的穩(wěn)健性和泛化能力。
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無影寺
