自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌DeepMind力證:GPT-4終局是人類智慧總和!Transformer模型無(wú)法超越訓(xùn)練數(shù)據(jù)進(jìn)行泛化

人工智能 新聞
Transformer模型是否能夠泛化出新的認(rèn)知和能力?最近,谷歌的研究人員進(jìn)行了有關(guān)實(shí)驗(yàn),對(duì)于這一問(wèn)題給出了自己的答案。

Transformer模型是否能夠超越預(yù)訓(xùn)練數(shù)據(jù)范圍,泛化出新的認(rèn)知和能力,一直是學(xué)界爭(zhēng)議已久的問(wèn)題。

最近谷歌DeepMind的3位研究研究人員認(rèn)為,要求模型在超出預(yù)訓(xùn)練數(shù)據(jù)范圍之外泛化出解決新問(wèn)題的能力,幾乎是不可能的。

LLM的終局就是人類智慧總和?

論文地址:https://arxiv.org/abs/2311.00871

Jim Fan轉(zhuǎn)發(fā)論文后評(píng)論說(shuō),這明確說(shuō)明了訓(xùn)練數(shù)據(jù)對(duì)于模型性能的重要性,所以數(shù)據(jù)質(zhì)量對(duì)于LLM來(lái)說(shuō)實(shí)在是太重要了。

研究人員在論文中專注于研究預(yù)訓(xùn)練過(guò)程的一個(gè)特定方面——預(yù)訓(xùn)練中使用的數(shù)據(jù)——并研究它如何影響最終Transformer模型的少樣本學(xué)習(xí)能力。

研究人員使用一組圖片來(lái)作為輸入和標(biāo)簽,  來(lái)對(duì)新輸入的圖片的標(biāo)簽圖片進(jìn)行預(yù)測(cè)。要訓(xùn)練模型做出這樣的預(yù)測(cè),需要在圖片形式的許多序列上擬合模型。

研究人員使用包含多種不同函數(shù)類別的混合對(duì)Transformer模型進(jìn)行預(yù)訓(xùn)練,以便在上下文中學(xué)習(xí),并展示了所表現(xiàn)出的模型選擇行為(Model Selection Phenomena)。

他們還研究了預(yù)訓(xùn)練Transformer模型在與預(yù)訓(xùn)練數(shù)據(jù)中的函數(shù)類別 「不一致 (out-of-distribution)」的函數(shù)上的情境學(xué)習(xí)行為。

通過(guò)這種方式,研究人員研究了預(yù)訓(xùn)練數(shù)據(jù)組成與Transformer模型對(duì)相關(guān)任務(wù)進(jìn)行少量學(xué)習(xí)的能力之間的相互作用和影響后發(fā)現(xiàn):

1. 在所研究的機(jī)制中,有明確的證據(jù)表明,模型在上下文學(xué)習(xí)過(guò)程中可以在預(yù)訓(xùn)練的函數(shù)類別中進(jìn)行模型選擇,而且?guī)缀醪恍枰~外的統(tǒng)計(jì)成本。

預(yù)訓(xùn)練數(shù)據(jù)中各個(gè)稀疏程度的線性函數(shù)都被很好地覆蓋的情況下,Transformer可以進(jìn)行近似最優(yōu)的預(yù)測(cè)。

2. 但幾乎沒(méi)有證據(jù)表明,模型的上下文學(xué)習(xí)行為能夠超出其預(yù)訓(xùn)練數(shù)據(jù)的范圍。

當(dāng)組合函數(shù)主要來(lái)自一個(gè)函數(shù)類時(shí),預(yù)測(cè)合理。當(dāng)兩個(gè)類同時(shí)顯著貢獻(xiàn)時(shí),預(yù)測(cè)失效。

對(duì)于預(yù)訓(xùn)練數(shù)據(jù)中極為罕見(jiàn)的高低頻正弦函數(shù),模型的泛化會(huì)失敗。

研究過(guò)程細(xì)節(jié)

首先,為了避免產(chǎn)生誤解,這里先聲明本實(shí)驗(yàn)所采用的模型:類似于GPT-2,包含12層,256維嵌入空間。

之前提到了文章使用不同函數(shù)混合的方法進(jìn)行研究,

那么我們不禁要問(wèn):「當(dāng)提供支持預(yù)訓(xùn)練混合的上下文示例時(shí),模型如何在不同的函數(shù)類之間進(jìn)行選擇?」

之前的研究表明,在線性函數(shù)上預(yù)訓(xùn)練的Transformer在對(duì)新的線性函數(shù)進(jìn)行上下文學(xué)習(xí)時(shí)表現(xiàn)幾乎最優(yōu)。

于是研究人員采用兩個(gè)線性模型來(lái)進(jìn)行研究:一個(gè)在密集線性函數(shù)上訓(xùn)練(其中線性模型的所有系數(shù)都是非零的),另一個(gè)在稀疏線性函數(shù)上訓(xùn)練(假設(shè)20個(gè)系數(shù)中只有2個(gè)是非零的)。

每個(gè)模型分別對(duì)新的密集線性函數(shù)和稀疏線性函數(shù)執(zhí)行相應(yīng)的線性回歸和套索回歸(Lasso)。此外,還將這兩個(gè)模型與在稀疏線性函數(shù)和密集線性函數(shù)的混合上預(yù)訓(xùn)練的模型進(jìn)行了比較。

上圖顯示,在以D(F) = 0.5*D(F1)+0.5*D(F2)的比例混合兩個(gè)函數(shù)的情況下,新的函數(shù)在上下文學(xué)習(xí)中的表現(xiàn)與僅在一個(gè)函數(shù)類上預(yù)訓(xùn)練的模型相似。

而在新的混合函數(shù)上預(yù)訓(xùn)練的模型與前人研究中所展示的模型(理論上最優(yōu))相似,因此可以推斷該模型也幾乎是最優(yōu)的。

上圖中的ICL學(xué)習(xí)曲線向我們表明,這種上下文模型選擇能力相對(duì)于提供的上下文示例數(shù)量相對(duì)一致。

我們還可以看到,與純粹基于該函數(shù)類預(yù)訓(xùn)練模型相比,對(duì)于給定函數(shù)類,這種使用權(quán)重來(lái)進(jìn)行預(yù)訓(xùn)練數(shù)據(jù)混合的ICL學(xué)習(xí)曲線幾乎與最佳基線樣本復(fù)雜度相匹配。

上圖還表明,Transformer模型ICL泛化存在分布不均。盡管密集線性類和稀疏線性類都是線性函數(shù),但我們可以看到上圖(a)中的紅色曲線性能較差,而相應(yīng)的,圖(b)中的藍(lán)色曲線性能較差。

這表明該模型能夠執(zhí)行模型選擇,以選擇是否僅使用預(yù)訓(xùn)練組合中一個(gè)基函數(shù)類或另一個(gè)基函數(shù)類的知識(shí)進(jìn)行預(yù)測(cè)。

事實(shí)上,當(dāng)上下文中提供的示例來(lái)自非常稀疏或非常密集的函數(shù)時(shí),預(yù)測(cè)幾乎與分別在僅稀疏或僅密集數(shù)據(jù)上預(yù)訓(xùn)練的模型所做的預(yù)測(cè)相同。

模型的局限性 

之前的實(shí)驗(yàn)展示了混合預(yù)訓(xùn)練數(shù)據(jù)的情況,下面我們來(lái)探索一些明確脫離所有預(yù)訓(xùn)練數(shù)據(jù)的函數(shù)。

作者在這里研究了模型沿兩個(gè)軸的ICL泛化能力:從未見(jiàn)過(guò)的函數(shù),以及函數(shù)的極端版本(頻率比預(yù)訓(xùn)練中通常看到的頻率高得多或低得多的正弦曲線)上的性能。

在這兩種情況下,研究人員幾乎沒(méi)有發(fā)現(xiàn)分布外泛化的證據(jù)。

上圖顯示,Transformer在中等稀疏度水平(nnz=3到7)下的預(yù)測(cè)與預(yù)訓(xùn)練時(shí)提供的任何函數(shù)類的任何預(yù)測(cè)都不相似,而是介于兩者之間。

因此,可以假設(shè)該模型具有一些歸納偏差,可以組合預(yù)訓(xùn)練的函數(shù)類。

但是,人們可能會(huì)懷疑該模型可以從預(yù)訓(xùn)練期間看到的函數(shù)組合中產(chǎn)生預(yù)測(cè)。

所以作者在具有明顯不相交的函數(shù)類的背景下檢驗(yàn)這一假設(shè),研究了對(duì)線性函數(shù)、正弦函數(shù)和兩者的凸組合執(zhí)行 ICL 的能力。

上圖顯示,雖然模型在線性函數(shù)和正弦曲線的混合上進(jìn)行預(yù)訓(xùn)練(即D(F) = 0.5*D(F1)+0.5*D(F2))能夠分別對(duì)這兩個(gè)函數(shù)中的任何一個(gè)做出良好的預(yù)測(cè),但它無(wú)法擬合兩者的凸組合的函數(shù)。

然而,我們?nèi)匀豢梢约僭O(shè):當(dāng)上下文中的示例接近在預(yù)訓(xùn)練中學(xué)習(xí)的函數(shù)類時(shí),模型能夠選擇用于預(yù)測(cè)的最佳函數(shù)類。

在圖 5 中,研究人員掃描了凸組合中線性函數(shù)和正弦波的相對(duì)權(quán)重。在這里,研究人員觀察到,當(dāng)組合函數(shù)主要來(lái)自一個(gè)函數(shù)類或另一個(gè)函數(shù)類時(shí)——即通過(guò)預(yù)訓(xùn)練期間學(xué)習(xí)的函數(shù)類很好地近似——上下文預(yù)測(cè)是合理的。

但是,當(dāng)這兩個(gè)函數(shù)對(duì)凸組合有顯著貢獻(xiàn)時(shí),模型會(huì)做出不穩(wěn)定的預(yù)測(cè),而上下文示例并不能很好地證明其合理性。這表明模型的模型選擇能力受到與預(yù)訓(xùn)練數(shù)據(jù)的接近程度的限制,并表明功能空間的廣泛覆蓋對(duì)于廣義的上下文學(xué)習(xí)能力至關(guān)重要。

前面的凸組合是專門構(gòu)造的,因此模型在預(yù)訓(xùn)練中從未見(jiàn)過(guò)類似的函數(shù)。

網(wǎng)友熱議

面對(duì)文章的結(jié)論,Jim Fan給出了略帶嘲諷的評(píng)價(jià):

「本文相當(dāng)于:嘗試只在狗和貓的數(shù)據(jù)集上訓(xùn)練ViT。使用100B狗/貓圖像和1T 參數(shù)!現(xiàn)在看看它是否能識(shí)別飛機(jī)——令人驚訝的是,它不能!」

但是有好事的網(wǎng)友把這個(gè)事請(qǐng)拿去問(wèn)了下ChatGPT,它自己卻回答說(shuō),自己可以超越訓(xùn)練數(shù)據(jù)輸出新的內(nèi)容。

而網(wǎng)友對(duì)于Transformer的這個(gè)局限還是很寬容的,畢竟,人類也不行。

AIGC的火熱引起人們對(duì)于模型能力的廣泛研究,對(duì)于我們無(wú)法完全了解的、卻廣泛應(yīng)用于社會(huì)和生活中的「 人工智能 」,知道它的邊界在哪里也很重要。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-11-08 17:29:00

AI模型

2023-06-28 08:36:44

大語(yǔ)言模型人工智能

2023-09-03 12:56:43

2024-05-20 08:40:00

2024-03-08 13:18:44

模型訓(xùn)練

2023-06-27 13:37:17

谷歌AI

2023-05-30 13:29:25

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2023-09-07 13:06:18

人工智能模型

2024-01-22 08:50:00

AI訓(xùn)練

2023-09-11 15:57:16

人工智能模型GPT-4

2024-01-30 21:18:57

模型智能CMMLU

2024-03-27 13:32:00

AI數(shù)據(jù)

2023-10-14 17:24:49

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2023-09-06 16:44:03

2023-03-30 11:08:49

AI模型訓(xùn)練

2023-06-19 08:19:50

2023-12-26 08:17:23

微軟GPT-4

2023-07-11 15:30:08

GPT-4架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)