生成式模型不只會(huì)「模仿」!哈佛、UCSB等最新成果:性能可超越訓(xùn)練集專家水平
生成式模型(GMs)的設(shè)計(jì)宗旨是模仿人類的各種行為,例如回答問(wèn)題、創(chuàng)作藝術(shù)、唱歌等,人類在這些領(lǐng)域都展現(xiàn)出高超的技能。
然而,模型在訓(xùn)練過(guò)程中實(shí)際上只專注于一個(gè)核心目標(biāo),即最小化模型輸出的交叉熵?fù)p失,確保模型的輸出分布盡可能地接近人類標(biāo)注的分布。
換句話說(shuō),模型的能力上限可能已經(jīng)被定死了,最多只能達(dá)到人類專家在其專業(yè)領(lǐng)域的表現(xiàn)水平。
但最近來(lái)自哈佛大學(xué)、加州大學(xué)圣巴巴拉分校(UCSB)、普林斯頓大學(xué)的研究結(jié)果表明,模型在某些特定的領(lǐng)域可以實(shí)現(xiàn)「超越(transcend)訓(xùn)練數(shù)據(jù)中的專家水平」的性能,青出于藍(lán)而勝于藍(lán)。
論文鏈接:https://arxiv.org/pdf/2406.11741
研究人員選擇國(guó)際象棋作為研究目標(biāo)展現(xiàn)模型的超越性(transcendence),因?yàn)槠湟?guī)則和玩法是清晰且有限的。
然后使用Transformer模型基于公開(kāi)的人類國(guó)際象棋對(duì)局?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練,使其能夠預(yù)測(cè)對(duì)局中的下一步走法。
為了探索模型是否能夠超越人類專家,研究人員特意選擇了一個(gè)沒(méi)那么強(qiáng)的數(shù)據(jù)集,其中包含的人類玩家等級(jí)(使用Glicko-2對(duì)棋手等級(jí)進(jìn)行評(píng)分)都不超過(guò)某個(gè)特定的分?jǐn)?shù)。
實(shí)驗(yàn)結(jié)果顯示,模型不僅可以達(dá)到該分?jǐn)?shù),甚至部分模型還能實(shí)現(xiàn)性能超越,表明模型在某些情況下能夠超越提供訓(xùn)練數(shù)據(jù)的人類專家。
該研究主要包括以下幾個(gè)方面:
1. 在生成模型中形式化了超越(transcendence)的概念;
2. 通過(guò)將去噪專家的情況與模型集成聯(lián)系起來(lái),找到了解釋超越的一個(gè)關(guān)鍵原因;
3. 在特定技能水平的玩家數(shù)據(jù)集上訓(xùn)練國(guó)際象棋Transformer,并證實(shí)了模型在低溫設(shè)置下能夠超越其訓(xùn)練數(shù)據(jù)中專家的最高等級(jí)。
4. 通過(guò)降低采樣溫度,對(duì)獎(jiǎng)勵(lì)變化的分布進(jìn)行可視化,并發(fā)現(xiàn)性能的提升主要?dú)w因于在相對(duì)較小的一部分狀態(tài)下的大幅改進(jìn)。
5. 探索了數(shù)據(jù)集多樣性的必要性,以及在數(shù)據(jù)集不夠多樣化時(shí)模型無(wú)法實(shí)現(xiàn)超越的情況。
超越性的定義
研究人員首先描述了一個(gè)理論框架,用于構(gòu)建和評(píng)估能夠基于輸入數(shù)據(jù)預(yù)測(cè)輸出的機(jī)器學(xué)習(xí)模型:
1. 輸入空間X和輸出空間Y,其中X可以是任何長(zhǎng)度,而Y是有限的。
2. 函數(shù)類F是所有將輸入X映射到Y(jié)上概率分布的函數(shù)的集合,其中每個(gè)函數(shù)f ∈ F定義了給定輸入x時(shí)輸出y的條件概率。
3. 存在一個(gè)輸入分布p,其對(duì)X中的所有輸入都有非零概率。
4. 數(shù)據(jù)由k位專家進(jìn)行標(biāo)注,每位專家提供一個(gè)函數(shù)fi,定義了給定輸入x時(shí)輸出y的概率分布。所有專家的分布被混合起來(lái)形成了一個(gè)混合分布。
5、由專家標(biāo)注的過(guò)程生成的X和Y上的聯(lián)合概率分布D。
6、獎(jiǎng)勵(lì)函數(shù)r,為每個(gè)輸入-輸出對(duì)分配一個(gè)獎(jiǎng)勵(lì)值
7、選擇一個(gè)測(cè)試分布ptest,并定義了在ptest上的平均獎(jiǎng)勵(lì)Rptest(f),即對(duì)所有可能輸出的獎(jiǎng)勵(lì)的期望值。
8、模型的目標(biāo)是找到在聯(lián)合分布D上的交叉熵?fù)p失最小的函數(shù),其中交叉熵?fù)p失是衡量預(yù)測(cè)概率分布與真實(shí)概率分布差異的指標(biāo)。
9、優(yōu)化過(guò)程:學(xué)習(xí)者通過(guò)最小化交叉熵?fù)p失來(lái)選擇最優(yōu)的預(yù)測(cè)函數(shù),包括對(duì)F中的所有可能函數(shù)進(jìn)行評(píng)估和選擇。
基于上述框架,超越性(transcendence)可以被定義為,在特定的函數(shù)設(shè)置和概率分布下,學(xué)習(xí)到的預(yù)測(cè)器在測(cè)試分布ptest上的平均獎(jiǎng)勵(lì)超過(guò)了所有專家(fi)中的最高獎(jiǎng)勵(lì)值。
但這里討論的是一個(gè)理想化的情況,學(xué)習(xí)器可以訪問(wèn)無(wú)限的數(shù)據(jù),并且可以選擇任何函數(shù)來(lái)擬合數(shù)據(jù),不受架構(gòu)或優(yōu)化方法的限制。
不過(guò),即使在這種理想化的條件下,如果沒(méi)有對(duì)數(shù)據(jù)分布進(jìn)行適當(dāng)?shù)男薷模揭部赡苁菬o(wú)法實(shí)現(xiàn)的。
在介紹這個(gè)理論框架時(shí),研究人員做出了一些簡(jiǎn)化的假設(shè),比如所有專家使用相同的輸入分布,所有輸入在訓(xùn)練分布下都有非零概率,專家是隨機(jī)均勻選擇的等等。
超越的條件
低溫采樣對(duì)于實(shí)現(xiàn)超越(transcendence)是必要的
在生成模型中,采樣溫度是一個(gè)控制生成過(guò)程隨機(jī)性的參數(shù)。低溫采樣意味著模型在生成預(yù)測(cè)時(shí)更加確定,傾向于選擇概率最高的輸出,從而減少噪聲和隨機(jī)性,提高預(yù)測(cè)的準(zhǔn)確性。
定理一:無(wú)論選擇哪些專家函數(shù)和測(cè)試分布,總存在至少一個(gè)專家預(yù)測(cè)器,在測(cè)試分布上的獎(jiǎng)勵(lì)大于等于學(xué)習(xí)到的預(yù)測(cè)器。
當(dāng)前的理論框架假設(shè)所有專家對(duì)于給定的輸入x被均勻采樣,即每個(gè)專家對(duì)輸入x的預(yù)測(cè)被賦予相同的重要性。
未來(lái)也可以考慮使用貝葉斯加權(quán),可以更有效地結(jié)合專家的意見(jiàn),可能會(huì)提高預(yù)測(cè)器的性能。
使用低溫度采樣實(shí)現(xiàn)超越性
定理2:如果存在某個(gè)溫度值??在0到1之間,使得在這個(gè)溫度值下或更低的溫度下,通過(guò)溫度采樣得到的預(yù)測(cè)器的性能(即在測(cè)試分布上的獎(jiǎng)勵(lì))高于所有專家,那么argmax預(yù)測(cè)器的性能也會(huì)高于所有專家。
低溫采樣可以被看作是在專家之間進(jìn)行「多數(shù)投票」的過(guò)程,如果專家們對(duì)于最佳動(dòng)作有顯著的預(yù)測(cè)概率,那么通過(guò)多數(shù)投票得出的結(jié)果可能就會(huì)選擇最佳動(dòng)作。
當(dāng)多個(gè)專家對(duì)最佳動(dòng)作有共識(shí)時(shí),這種共識(shí)可以通過(guò)多數(shù)投票被識(shí)別出來(lái),從而提高整體的預(yù)測(cè)性能,體現(xiàn)了「群體的智慧」,即集體決策可能優(yōu)于個(gè)體決策的現(xiàn)象。
通過(guò)這種方式,模型不僅復(fù)制了專家的知識(shí),而且通過(guò)集體智慧提高了性能,實(shí)現(xiàn)了超越專家的預(yù)測(cè)。
對(duì)單個(gè)專家降噪
定理3:如果數(shù)據(jù)是由單個(gè)帶噪聲的專家生成的,那么存在某個(gè)溫度??在 (0, 1) 范圍內(nèi),使得對(duì)于所有不超過(guò)??的??′,預(yù)測(cè)器能夠?qū)崿F(xiàn)超越。
在單一專家提供的數(shù)據(jù)中,即使存在噪聲,通過(guò)低溫采樣也能夠?qū)崿F(xiàn)超越。
多專家超越
定理4:如果測(cè)試分布??test不是集中在單一子集Xi上,即至少有兩個(gè)不同的子集滿足??test(????)>0和??test(????)>0,那么在低溫采樣下,通過(guò)??1,…,????生成的數(shù)據(jù)可以實(shí)現(xiàn)超越。
只要測(cè)試分布不是只關(guān)注一個(gè)專家擅長(zhǎng)的子集,而是涵蓋了多個(gè)子集,那么通過(guò)低溫采樣,就可以實(shí)現(xiàn)超越。這是因?yàn)榈蜏夭蓸佑兄诩懈怕寿|(zhì)量在更可能的預(yù)測(cè)上,從而提高整體性能。
實(shí)驗(yàn)結(jié)果
研究的核心問(wèn)題是探討「低溫采樣是否能夠在實(shí)踐中真正引發(fā)超越現(xiàn)象」。
為了回答這個(gè)問(wèn)題,研究人員測(cè)試了定理2,通過(guò)評(píng)估不同溫度值下的多個(gè)ChessFormer模型,測(cè)試溫度值的范圍變化從0.001(接近確定性)到1.0(原始分布),再到1.5(高熵)。
在圖1中,作者明確證實(shí)了超越現(xiàn)象的存在。ChessFormer 1000和ChessFormer 1300模型在溫度τ等于0.001時(shí)能夠?qū)崿F(xiàn)大約1500的等級(jí)評(píng)分,展現(xiàn)出了超越現(xiàn)象。
通過(guò)調(diào)整采樣溫度,模型能夠在某些情況下超越它們?cè)谟?xùn)練期間所見(jiàn)過(guò)的最高等級(jí)。
研究人員還提出了兩個(gè)問(wèn)題來(lái)深入理解超越現(xiàn)象:獎(jiǎng)勵(lì)函數(shù)如何隨低溫采樣而變化,以及超越是否依賴于數(shù)據(jù)集的多樣性。
在棋類游戲中,技術(shù)水平較低的玩家可能在關(guān)鍵時(shí)刻犯下重大錯(cuò)誤。如果這些錯(cuò)誤具有個(gè)體差異,通過(guò)多個(gè)專家的預(yù)測(cè)平均化可以產(chǎn)生去噪效果,從而提高最佳走法的概率。
低溫采樣可以將概率質(zhì)量轉(zhuǎn)移到特定游戲情境中的更好走法上,從而提高預(yù)期獎(jiǎng)勵(lì)。
總之,實(shí)驗(yàn)和可視化結(jié)果強(qiáng)調(diào)了通過(guò)低溫采樣實(shí)現(xiàn)超越現(xiàn)象的潛力,并提出了研究問(wèn)題來(lái)探索這一現(xiàn)象背后的機(jī)制。