自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生成式模型不只會(huì)「模仿」!哈佛、UCSB等最新成果:性能可超越訓(xùn)練集專家水平

人工智能 新聞
生成式模型原本被設(shè)計(jì)來(lái)模仿人類的各種復(fù)雜行為,但人們普遍認(rèn)為它們最多只能達(dá)到與其訓(xùn)練數(shù)據(jù)中的專家相當(dāng)?shù)乃健2贿^(guò),最新的研究突破了這一限制,表明在特定領(lǐng)域,如國(guó)際象棋,通過(guò)采用低溫采樣技術(shù),這些模型能夠超越它們所學(xué)習(xí)的那些專家,展現(xiàn)出更高的能力。

生成式模型(GMs)的設(shè)計(jì)宗旨是模仿人類的各種行為,例如回答問(wèn)題、創(chuàng)作藝術(shù)、唱歌等,人類在這些領(lǐng)域都展現(xiàn)出高超的技能。

然而,模型在訓(xùn)練過(guò)程中實(shí)際上只專注于一個(gè)核心目標(biāo),即最小化模型輸出的交叉熵?fù)p失,確保模型的輸出分布盡可能地接近人類標(biāo)注的分布。

換句話說(shuō),模型的能力上限可能已經(jīng)被定死了,最多只能達(dá)到人類專家在其專業(yè)領(lǐng)域的表現(xiàn)水平。

但最近來(lái)自哈佛大學(xué)、加州大學(xué)圣巴巴拉分校(UCSB)、普林斯頓大學(xué)的研究結(jié)果表明,模型在某些特定的領(lǐng)域可以實(shí)現(xiàn)「超越(transcend)訓(xùn)練數(shù)據(jù)中的專家水平」的性能,青出于藍(lán)而勝于藍(lán)。

圖片

論文鏈接:https://arxiv.org/pdf/2406.11741

研究人員選擇國(guó)際象棋作為研究目標(biāo)展現(xiàn)模型的超越性(transcendence),因?yàn)槠湟?guī)則和玩法是清晰且有限的。

然后使用Transformer模型基于公開(kāi)的人類國(guó)際象棋對(duì)局?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練,使其能夠預(yù)測(cè)對(duì)局中的下一步走法。

為了探索模型是否能夠超越人類專家,研究人員特意選擇了一個(gè)沒(méi)那么強(qiáng)的數(shù)據(jù)集,其中包含的人類玩家等級(jí)(使用Glicko-2對(duì)棋手等級(jí)進(jìn)行評(píng)分)都不超過(guò)某個(gè)特定的分?jǐn)?shù)。

實(shí)驗(yàn)結(jié)果顯示,模型不僅可以達(dá)到該分?jǐn)?shù),甚至部分模型還能實(shí)現(xiàn)性能超越,表明模型在某些情況下能夠超越提供訓(xùn)練數(shù)據(jù)的人類專家。

該研究主要包括以下幾個(gè)方面:

1. 在生成模型中形式化了超越(transcendence)的概念;

2. 通過(guò)將去噪專家的情況與模型集成聯(lián)系起來(lái),找到了解釋超越的一個(gè)關(guān)鍵原因;

3. 在特定技能水平的玩家數(shù)據(jù)集上訓(xùn)練國(guó)際象棋Transformer,并證實(shí)了模型在低溫設(shè)置下能夠超越其訓(xùn)練數(shù)據(jù)中專家的最高等級(jí)。

4. 通過(guò)降低采樣溫度,對(duì)獎(jiǎng)勵(lì)變化的分布進(jìn)行可視化,并發(fā)現(xiàn)性能的提升主要?dú)w因于在相對(duì)較小的一部分狀態(tài)下的大幅改進(jìn)。

5. 探索了數(shù)據(jù)集多樣性的必要性,以及在數(shù)據(jù)集不夠多樣化時(shí)模型無(wú)法實(shí)現(xiàn)超越的情況。

超越性的定義

研究人員首先描述了一個(gè)理論框架,用于構(gòu)建和評(píng)估能夠基于輸入數(shù)據(jù)預(yù)測(cè)輸出的機(jī)器學(xué)習(xí)模型:

1. 輸入空間X和輸出空間Y,其中X可以是任何長(zhǎng)度,而Y是有限的。

2. 函數(shù)類F是所有將輸入X映射到Y(jié)上概率分布的函數(shù)的集合,其中每個(gè)函數(shù)f ∈ F定義了給定輸入x時(shí)輸出y的條件概率。

3. 存在一個(gè)輸入分布p,其對(duì)X中的所有輸入都有非零概率。

4. 數(shù)據(jù)由k位專家進(jìn)行標(biāo)注,每位專家提供一個(gè)函數(shù)fi,定義了給定輸入x時(shí)輸出y的概率分布。所有專家的分布被混合起來(lái)形成了一個(gè)混合分布。

圖片

5、由專家標(biāo)注的過(guò)程生成的X和Y上的聯(lián)合概率分布D。

圖片

6、獎(jiǎng)勵(lì)函數(shù)r,為每個(gè)輸入-輸出對(duì)分配一個(gè)獎(jiǎng)勵(lì)值

7、選擇一個(gè)測(cè)試分布ptest,并定義了在ptest上的平均獎(jiǎng)勵(lì)Rptest(f),即對(duì)所有可能輸出的獎(jiǎng)勵(lì)的期望值。

圖片


8、模型的目標(biāo)是找到在聯(lián)合分布D上的交叉熵?fù)p失最小的函數(shù),其中交叉熵?fù)p失是衡量預(yù)測(cè)概率分布與真實(shí)概率分布差異的指標(biāo)。

圖片

9、優(yōu)化過(guò)程:學(xué)習(xí)者通過(guò)最小化交叉熵?fù)p失來(lái)選擇最優(yōu)的預(yù)測(cè)函數(shù),包括對(duì)F中的所有可能函數(shù)進(jìn)行評(píng)估和選擇。

基于上述框架,超越性(transcendence)可以被定義為,在特定的函數(shù)設(shè)置和概率分布下,學(xué)習(xí)到的預(yù)測(cè)器在測(cè)試分布ptest上的平均獎(jiǎng)勵(lì)超過(guò)了所有專家(fi)中的最高獎(jiǎng)勵(lì)值。

圖片

但這里討論的是一個(gè)理想化的情況,學(xué)習(xí)器可以訪問(wèn)無(wú)限的數(shù)據(jù),并且可以選擇任何函數(shù)來(lái)擬合數(shù)據(jù),不受架構(gòu)或優(yōu)化方法的限制。

不過(guò),即使在這種理想化的條件下,如果沒(méi)有對(duì)數(shù)據(jù)分布進(jìn)行適當(dāng)?shù)男薷模揭部赡苁菬o(wú)法實(shí)現(xiàn)的。

在介紹這個(gè)理論框架時(shí),研究人員做出了一些簡(jiǎn)化的假設(shè),比如所有專家使用相同的輸入分布,所有輸入在訓(xùn)練分布下都有非零概率,專家是隨機(jī)均勻選擇的等等。

超越的條件

低溫采樣對(duì)于實(shí)現(xiàn)超越(transcendence)是必要的

在生成模型中,采樣溫度是一個(gè)控制生成過(guò)程隨機(jī)性的參數(shù)。低溫采樣意味著模型在生成預(yù)測(cè)時(shí)更加確定,傾向于選擇概率最高的輸出,從而減少噪聲和隨機(jī)性,提高預(yù)測(cè)的準(zhǔn)確性。

定理一:無(wú)論選擇哪些專家函數(shù)和測(cè)試分布,總存在至少一個(gè)專家預(yù)測(cè)器,在測(cè)試分布上的獎(jiǎng)勵(lì)大于等于學(xué)習(xí)到的預(yù)測(cè)器。

圖片

當(dāng)前的理論框架假設(shè)所有專家對(duì)于給定的輸入x被均勻采樣,即每個(gè)專家對(duì)輸入x的預(yù)測(cè)被賦予相同的重要性。

未來(lái)也可以考慮使用貝葉斯加權(quán),可以更有效地結(jié)合專家的意見(jiàn),可能會(huì)提高預(yù)測(cè)器的性能。

使用低溫度采樣實(shí)現(xiàn)超越性

定理2:如果存在某個(gè)溫度值??在0到1之間,使得在這個(gè)溫度值下或更低的溫度下,通過(guò)溫度采樣得到的預(yù)測(cè)器的性能(即在測(cè)試分布上的獎(jiǎng)勵(lì))高于所有專家,那么argmax預(yù)測(cè)器的性能也會(huì)高于所有專家。

圖片

低溫采樣可以被看作是在專家之間進(jìn)行「多數(shù)投票」的過(guò)程,如果專家們對(duì)于最佳動(dòng)作有顯著的預(yù)測(cè)概率,那么通過(guò)多數(shù)投票得出的結(jié)果可能就會(huì)選擇最佳動(dòng)作。

當(dāng)多個(gè)專家對(duì)最佳動(dòng)作有共識(shí)時(shí),這種共識(shí)可以通過(guò)多數(shù)投票被識(shí)別出來(lái),從而提高整體的預(yù)測(cè)性能,體現(xiàn)了「群體的智慧」,即集體決策可能優(yōu)于個(gè)體決策的現(xiàn)象。

通過(guò)這種方式,模型不僅復(fù)制了專家的知識(shí),而且通過(guò)集體智慧提高了性能,實(shí)現(xiàn)了超越專家的預(yù)測(cè)。

對(duì)單個(gè)專家降噪

定理3:如果數(shù)據(jù)是由單個(gè)帶噪聲的專家生成的,那么存在某個(gè)溫度??在 (0, 1) 范圍內(nèi),使得對(duì)于所有不超過(guò)??的??′,預(yù)測(cè)器能夠?qū)崿F(xiàn)超越。

在單一專家提供的數(shù)據(jù)中,即使存在噪聲,通過(guò)低溫采樣也能夠?qū)崿F(xiàn)超越。

多專家超越

定理4:如果測(cè)試分布??test不是集中在單一子集Xi上,即至少有兩個(gè)不同的子集滿足??test(????)>0和??test(????)>0,那么在低溫采樣下,通過(guò)??1,…,????生成的數(shù)據(jù)可以實(shí)現(xiàn)超越。

只要測(cè)試分布不是只關(guān)注一個(gè)專家擅長(zhǎng)的子集,而是涵蓋了多個(gè)子集,那么通過(guò)低溫采樣,就可以實(shí)現(xiàn)超越。這是因?yàn)榈蜏夭蓸佑兄诩懈怕寿|(zhì)量在更可能的預(yù)測(cè)上,從而提高整體性能。

實(shí)驗(yàn)結(jié)果

研究的核心問(wèn)題是探討「低溫采樣是否能夠在實(shí)踐中真正引發(fā)超越現(xiàn)象」。

為了回答這個(gè)問(wèn)題,研究人員測(cè)試了定理2,通過(guò)評(píng)估不同溫度值下的多個(gè)ChessFormer模型,測(cè)試溫度值的范圍變化從0.001(接近確定性)到1.0(原始分布),再到1.5(高熵)。

在圖1中,作者明確證實(shí)了超越現(xiàn)象的存在。ChessFormer 1000和ChessFormer 1300模型在溫度τ等于0.001時(shí)能夠?qū)崿F(xiàn)大約1500的等級(jí)評(píng)分,展現(xiàn)出了超越現(xiàn)象。

通過(guò)調(diào)整采樣溫度,模型能夠在某些情況下超越它們?cè)谟?xùn)練期間所見(jiàn)過(guò)的最高等級(jí)。

研究人員還提出了兩個(gè)問(wèn)題來(lái)深入理解超越現(xiàn)象:獎(jiǎng)勵(lì)函數(shù)如何隨低溫采樣而變化,以及超越是否依賴于數(shù)據(jù)集的多樣性。

圖片

在棋類游戲中,技術(shù)水平較低的玩家可能在關(guān)鍵時(shí)刻犯下重大錯(cuò)誤。如果這些錯(cuò)誤具有個(gè)體差異,通過(guò)多個(gè)專家的預(yù)測(cè)平均化可以產(chǎn)生去噪效果,從而提高最佳走法的概率。

低溫采樣可以將概率質(zhì)量轉(zhuǎn)移到特定游戲情境中的更好走法上,從而提高預(yù)期獎(jiǎng)勵(lì)。

總之,實(shí)驗(yàn)和可視化結(jié)果強(qiáng)調(diào)了通過(guò)低溫采樣實(shí)現(xiàn)超越現(xiàn)象的潛力,并提出了研究問(wèn)題來(lái)探索這一現(xiàn)象背后的機(jī)制。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-02-14 09:30:00

視頻生成模型開(kāi)源機(jī)器人

2014-04-23 17:58:32

碼農(nóng)碼農(nóng)思想

2023-06-06 07:03:02

2023-10-25 16:27:05

2024-07-02 01:09:02

2023-08-04 17:01:30

代碼模型

2025-01-08 09:00:00

訓(xùn)練數(shù)據(jù)研究

2023-11-23 18:19:15

騰訊騰訊混元Angel

2024-04-18 09:02:11

數(shù)據(jù)流Mixtral混合模型

2022-12-25 14:19:55

模型

2019-09-10 13:48:12

NLP神經(jīng)網(wǎng)絡(luò)模型

2023-04-18 23:33:46

分類模型辨別式模型生成式模型

2022-08-08 09:47:09

AI算法模型

2020-08-31 14:55:48

代碼開(kāi)發(fā)AI

2022-01-06 09:57:02

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

2023-11-17 08:46:26

2025-03-03 10:04:49

2024-03-04 13:36:00

模型訓(xùn)練

2024-07-22 07:10:00

小模型機(jī)器學(xué)習(xí)蘋果
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)