自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="sg8na"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

生成式模型不只會(huì)「模仿」！哈佛、UCSB等最新成果：性能可超越訓(xùn)練集專家水平

作者：新智元 2024-07-12 12:55:55

人工智能新聞

生成式模型原本被設(shè)計(jì)來(lái)模仿人類的各種復(fù)雜行為，但人們普遍認(rèn)為它們最多只能達(dá)到與其訓(xùn)練數(shù)據(jù)中的專家相當(dāng)?shù)乃健２贿^(guò)，最新的研究突破了這一限制，表明在特定領(lǐng)域，如國(guó)際象棋，通過(guò)采用低溫采樣技術(shù)，這些模型能夠超越它們所學(xué)習(xí)的那些專家，展現(xiàn)出更高的能力。

生成式模型（GMs）的設(shè)計(jì)宗旨是模仿人類的各種行為，例如回答問(wèn)題、創(chuàng)作藝術(shù)、唱歌等，人類在這些領(lǐng)域都展現(xiàn)出高超的技能。

然而，模型在訓(xùn)練過(guò)程中實(shí)際上只專注于一個(gè)核心目標(biāo)，即最小化模型輸出的交叉熵?fù)p失，確保模型的輸出分布盡可能地接近人類標(biāo)注的分布。

換句話說(shuō)，模型的能力上限可能已經(jīng)被定死了，最多只能達(dá)到人類專家在其專業(yè)領(lǐng)域的表現(xiàn)水平。

但最近來(lái)自哈佛大學(xué)、加州大學(xué)圣巴巴拉分校（UCSB）、普林斯頓大學(xué)的研究結(jié)果表明，模型在某些特定的領(lǐng)域可以實(shí)現(xiàn)「超越（transcend）訓(xùn)練數(shù)據(jù)中的專家水平」的性能，青出于藍(lán)而勝于藍(lán)。

論文鏈接：https://arxiv.org/pdf/2406.11741

研究人員選擇國(guó)際象棋作為研究目標(biāo)展現(xiàn)模型的超越性（transcendence），因?yàn)槠湟?guī)則和玩法是清晰且有限的。

然后使用Transformer模型基于公開(kāi)的人類國(guó)際象棋對(duì)局?jǐn)?shù)據(jù)集進(jìn)行訓(xùn)練，使其能夠預(yù)測(cè)對(duì)局中的下一步走法。

為了探索模型是否能夠超越人類專家，研究人員特意選擇了一個(gè)沒(méi)那么強(qiáng)的數(shù)據(jù)集，其中包含的人類玩家等級(jí)（使用Glicko-2對(duì)棋手等級(jí)進(jìn)行評(píng)分）都不超過(guò)某個(gè)特定的分?jǐn)?shù)。

實(shí)驗(yàn)結(jié)果顯示，模型不僅可以達(dá)到該分?jǐn)?shù)，甚至部分模型還能實(shí)現(xiàn)性能超越，表明模型在某些情況下能夠超越提供訓(xùn)練數(shù)據(jù)的人類專家。

該研究主要包括以下幾個(gè)方面：

1. 在生成模型中形式化了超越（transcendence）的概念；

2. 通過(guò)將去噪專家的情況與模型集成聯(lián)系起來(lái)，找到了解釋超越的一個(gè)關(guān)鍵原因；

3. 在特定技能水平的玩家數(shù)據(jù)集上訓(xùn)練國(guó)際象棋Transformer，并證實(shí)了模型在低溫設(shè)置下能夠超越其訓(xùn)練數(shù)據(jù)中專家的最高等級(jí)。

4. 通過(guò)降低采樣溫度，對(duì)獎(jiǎng)勵(lì)變化的分布進(jìn)行可視化，并發(fā)現(xiàn)性能的提升主要?dú)w因于在相對(duì)較小的一部分狀態(tài)下的大幅改進(jìn)。

5. 探索了數(shù)據(jù)集多樣性的必要性，以及在數(shù)據(jù)集不夠多樣化時(shí)模型無(wú)法實(shí)現(xiàn)超越的情況。

超越性的定義

研究人員首先描述了一個(gè)理論框架，用于構(gòu)建和評(píng)估能夠基于輸入數(shù)據(jù)預(yù)測(cè)輸出的機(jī)器學(xué)習(xí)模型：

1. 輸入空間X和輸出空間Y，其中X可以是任何長(zhǎng)度，而Y是有限的。

2. 函數(shù)類F是所有將輸入X映射到Y(jié)上概率分布的函數(shù)的集合，其中每個(gè)函數(shù)f ∈ F定義了給定輸入x時(shí)輸出y的條件概率。

3. 存在一個(gè)輸入分布p，其對(duì)X中的所有輸入都有非零概率。

4. 數(shù)據(jù)由k位專家進(jìn)行標(biāo)注，每位專家提供一個(gè)函數(shù)fi，定義了給定輸入x時(shí)輸出y的概率分布。所有專家的分布被混合起來(lái)形成了一個(gè)混合分布。

5、由專家標(biāo)注的過(guò)程生成的X和Y上的聯(lián)合概率分布D。

6、獎(jiǎng)勵(lì)函數(shù)r，為每個(gè)輸入-輸出對(duì)分配一個(gè)獎(jiǎng)勵(lì)值

7、選擇一個(gè)測(cè)試分布ptest，并定義了在ptest上的平均獎(jiǎng)勵(lì)Rptest(f)，即對(duì)所有可能輸出的獎(jiǎng)勵(lì)的期望值。

8、模型的目標(biāo)是找到在聯(lián)合分布D上的交叉熵?fù)p失最小的函數(shù)，其中交叉熵?fù)p失是衡量預(yù)測(cè)概率分布與真實(shí)概率分布差異的指標(biāo)。

9、優(yōu)化過(guò)程：學(xué)習(xí)者通過(guò)最小化交叉熵?fù)p失來(lái)選擇最優(yōu)的預(yù)測(cè)函數(shù)，包括對(duì)F中的所有可能函數(shù)進(jìn)行評(píng)估和選擇。

基于上述框架，超越性（transcendence）可以被定義為，在特定的函數(shù)設(shè)置和概率分布下，學(xué)習(xí)到的預(yù)測(cè)器在測(cè)試分布ptest上的平均獎(jiǎng)勵(lì)超過(guò)了所有專家（fi）中的最高獎(jiǎng)勵(lì)值。

但這里討論的是一個(gè)理想化的情況，學(xué)習(xí)器可以訪問(wèn)無(wú)限的數(shù)據(jù)，并且可以選擇任何函數(shù)來(lái)擬合數(shù)據(jù)，不受架構(gòu)或優(yōu)化方法的限制。

不過(guò)，即使在這種理想化的條件下，如果沒(méi)有對(duì)數(shù)據(jù)分布進(jìn)行適當(dāng)?shù)男薷模揭部赡苁菬o(wú)法實(shí)現(xiàn)的。

在介紹這個(gè)理論框架時(shí)，研究人員做出了一些簡(jiǎn)化的假設(shè)，比如所有專家使用相同的輸入分布，所有輸入在訓(xùn)練分布下都有非零概率，專家是隨機(jī)均勻選擇的等等。

超越的條件

低溫采樣對(duì)于實(shí)現(xiàn)超越（transcendence）是必要的

在生成模型中，采樣溫度是一個(gè)控制生成過(guò)程隨機(jī)性的參數(shù)。低溫采樣意味著模型在生成預(yù)測(cè)時(shí)更加確定，傾向于選擇概率最高的輸出，從而減少噪聲和隨機(jī)性，提高預(yù)測(cè)的準(zhǔn)確性。

定理一：無(wú)論選擇哪些專家函數(shù)和測(cè)試分布，總存在至少一個(gè)專家預(yù)測(cè)器，在測(cè)試分布上的獎(jiǎng)勵(lì)大于等于學(xué)習(xí)到的預(yù)測(cè)器。

當(dāng)前的理論框架假設(shè)所有專家對(duì)于給定的輸入x被均勻采樣，即每個(gè)專家對(duì)輸入x的預(yù)測(cè)被賦予相同的重要性。

未來(lái)也可以考慮使用貝葉斯加權(quán)，可以更有效地結(jié)合專家的意見(jiàn)，可能會(huì)提高預(yù)測(cè)器的性能。

使用低溫度采樣實(shí)現(xiàn)超越性

定理2：如果存在某個(gè)溫度值??在0到1之間，使得在這個(gè)溫度值下或更低的溫度下，通過(guò)溫度采樣得到的預(yù)測(cè)器的性能（即在測(cè)試分布上的獎(jiǎng)勵(lì)）高于所有專家，那么argmax預(yù)測(cè)器的性能也會(huì)高于所有專家。

低溫采樣可以被看作是在專家之間進(jìn)行「多數(shù)投票」的過(guò)程，如果專家們對(duì)于最佳動(dòng)作有顯著的預(yù)測(cè)概率，那么通過(guò)多數(shù)投票得出的結(jié)果可能就會(huì)選擇最佳動(dòng)作。

當(dāng)多個(gè)專家對(duì)最佳動(dòng)作有共識(shí)時(shí)，這種共識(shí)可以通過(guò)多數(shù)投票被識(shí)別出來(lái)，從而提高整體的預(yù)測(cè)性能，體現(xiàn)了「群體的智慧」，即集體決策可能優(yōu)于個(gè)體決策的現(xiàn)象。

通過(guò)這種方式，模型不僅復(fù)制了專家的知識(shí)，而且通過(guò)集體智慧提高了性能，實(shí)現(xiàn)了超越專家的預(yù)測(cè)。

對(duì)單個(gè)專家降噪

定理3：如果數(shù)據(jù)是由單個(gè)帶噪聲的專家生成的，那么存在某個(gè)溫度??在 (0, 1) 范圍內(nèi)，使得對(duì)于所有不超過(guò)??的??′，預(yù)測(cè)器能夠?qū)崿F(xiàn)超越。

在單一專家提供的數(shù)據(jù)中，即使存在噪聲，通過(guò)低溫采樣也能夠?qū)崿F(xiàn)超越。

多專家超越

定理4：如果測(cè)試分布??test不是集中在單一子集Xi上，即至少有兩個(gè)不同的子集滿足??test(????)>0和??test(????)>0，那么在低溫采樣下，通過(guò)??1,…,????生成的數(shù)據(jù)可以實(shí)現(xiàn)超越。

只要測(cè)試分布不是只關(guān)注一個(gè)專家擅長(zhǎng)的子集，而是涵蓋了多個(gè)子集，那么通過(guò)低溫采樣，就可以實(shí)現(xiàn)超越。這是因?yàn)榈蜏夭蓸佑兄诩懈怕寿|(zhì)量在更可能的預(yù)測(cè)上，從而提高整體性能。

實(shí)驗(yàn)結(jié)果

研究的核心問(wèn)題是探討「低溫采樣是否能夠在實(shí)踐中真正引發(fā)超越現(xiàn)象」。

為了回答這個(gè)問(wèn)題，研究人員測(cè)試了定理2，通過(guò)評(píng)估不同溫度值下的多個(gè)ChessFormer模型，測(cè)試溫度值的范圍變化從0.001（接近確定性）到1.0（原始分布），再到1.5（高熵）。

在圖1中，作者明確證實(shí)了超越現(xiàn)象的存在。ChessFormer 1000和ChessFormer 1300模型在溫度τ等于0.001時(shí)能夠?qū)崿F(xiàn)大約1500的等級(jí)評(píng)分，展現(xiàn)出了超越現(xiàn)象。

通過(guò)調(diào)整采樣溫度，模型能夠在某些情況下超越它們?cè)谟?xùn)練期間所見(jiàn)過(guò)的最高等級(jí)。

研究人員還提出了兩個(gè)問(wèn)題來(lái)深入理解超越現(xiàn)象：獎(jiǎng)勵(lì)函數(shù)如何隨低溫采樣而變化，以及超越是否依賴于數(shù)據(jù)集的多樣性。

在棋類游戲中，技術(shù)水平較低的玩家可能在關(guān)鍵時(shí)刻犯下重大錯(cuò)誤。如果這些錯(cuò)誤具有個(gè)體差異，通過(guò)多個(gè)專家的預(yù)測(cè)平均化可以產(chǎn)生去噪效果，從而提高最佳走法的概率。

低溫采樣可以將概率質(zhì)量轉(zhuǎn)移到特定游戲情境中的更好走法上，從而提高預(yù)期獎(jiǎng)勵(lì)。

總之，實(shí)驗(yàn)和可視化結(jié)果強(qiáng)調(diào)了通過(guò)低溫采樣實(shí)現(xiàn)超越現(xiàn)象的潛力，并提出了研究問(wèn)題來(lái)探索這一現(xiàn)象背后的機(jī)制。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="yb6km"></style>

<style id="yb6km"></style>