谷歌大模型研究陷重大爭議:訓(xùn)練數(shù)據(jù)之外完全無法泛化?網(wǎng)友:AGI奇點(diǎn)推遲了
針對Transformer,谷歌DeepMind一項(xiàng)新的發(fā)現(xiàn)引起了不小爭議:
它的泛化能力,無法擴(kuò)展到訓(xùn)練數(shù)據(jù)以外的內(nèi)容。
目前這一結(jié)論還沒有進(jìn)一步得到驗(yàn)證,但已經(jīng)驚動(dòng)了一眾大佬,比如Keras之父Francois Chollet表示,如果消息為真,將成為大模型界的一件大事。
谷歌Transformer是今天大模型背后的基礎(chǔ)架構(gòu),我們所熟悉的GPT里的“T”指的就是它。
一系列大模型表現(xiàn)出強(qiáng)大的上下文學(xué)習(xí)能力,可以快速學(xué)習(xí)示例并完成新的任務(wù)。
但現(xiàn)在,同樣來自Google的研究人員似乎指出了它的致命缺陷——超出訓(xùn)練數(shù)據(jù)也就是人類已有知識之外,全都無能為力。
一時(shí)間,不少從業(yè)者認(rèn)為AGI再次變得遙不可及。
然而,也有網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗(yàn),訓(xùn)練數(shù)據(jù)也不是語言等。
隨著時(shí)間的推移,更多認(rèn)真研究了這篇論文的網(wǎng)友則指出,研究結(jié)論本身沒什么問題,但人們卻基于此做出過度的解讀。
而論文引發(fā)網(wǎng)友熱議之后,其中一名作者也出來做了兩點(diǎn)澄清:
首先實(shí)驗(yàn)中使用的是簡單Transformer,既不“大”也不是語言模型;
其次,模型是可以學(xué)習(xí)新任務(wù)的,只是無法泛化到新類型的任務(wù)
此后,又有網(wǎng)友在Colab中重復(fù)了這一實(shí)驗(yàn),卻得到了完全不同的結(jié)果。
那么,我們就先來看看這篇論文,還有提出不同結(jié)果的Samuel,到底都說了什么。
新函數(shù)幾乎無法預(yù)測
實(shí)驗(yàn)中,作者在基于Jax的機(jī)器學(xué)習(xí)框架上訓(xùn)練了規(guī)模接近GPT-2、只包含解碼器的Transformer。
其中包括了12層,8個(gè)注意力頭,嵌入空間維度為256,參數(shù)量約為950萬。
為了測試它的泛化能力,作者使用了函數(shù)作為測試對象——將線性函數(shù)和正弦函數(shù)一起作為訓(xùn)練數(shù)據(jù)喂模型。
這兩種函數(shù)對于此時(shí)的模型來說是已知,預(yù)測的結(jié)果自然也很好,但當(dāng)研究者把線性函數(shù)和正弦函數(shù)進(jìn)行了凸性組合時(shí),問題就出現(xiàn)了。
凸性組合并沒有那么神秘,作者構(gòu)建出了形如f(x)=a·kx+(1-a)sin(x)的函數(shù),在我們看來不過是兩個(gè)函數(shù)按比例簡單相加。
但我們之所以會這么認(rèn)為,正是因?yàn)槲覀兊拇竽X擁有這方面的泛化能力,而大模型就不一樣了。
別看就是簡單相加,對于只見過線性和正弦函數(shù)的模型來說,這就是一種全新的函數(shù)。
對于這種新函數(shù),Transformer給出的預(yù)測可以說是毫無準(zhǔn)確性可言(圖4c)——于是作者就認(rèn)為模型在函數(shù)上沒有泛化能力。
為了進(jìn)一步驗(yàn)證自己的結(jié)論,作者調(diào)整了線性或正弦函數(shù)的權(quán)重,但即使這樣Transformer的預(yù)測表現(xiàn)也沒有顯著的變化。
只有一點(diǎn)例外——當(dāng)其中一項(xiàng)的權(quán)重接近1時(shí),模型的預(yù)測結(jié)果和實(shí)際就比較吻合了。
但權(quán)重為1意味著,陌生的新函數(shù)直接變成了訓(xùn)練時(shí)見過的函數(shù),這樣的數(shù)據(jù)對于泛化能力來說顯然沒有什么意義。
進(jìn)一步實(shí)驗(yàn)還顯示,Transformer不僅對于函數(shù)的種類十分敏感,甚至同種函數(shù)也可能變成陌生條件。
研究人員發(fā)現(xiàn),哪怕是單純的正弦函數(shù),只是改變其中的頻率,模型的預(yù)測結(jié)果也會發(fā)生線束變化。
只有當(dāng)頻率接近訓(xùn)練數(shù)據(jù)中的函數(shù)時(shí),模型才能給出比較準(zhǔn)確的預(yù)測,當(dāng)頻率過高或過低時(shí),預(yù)測結(jié)果出現(xiàn)了嚴(yán)重的偏差……
據(jù)此,作者認(rèn)為,條件只要稍微有點(diǎn)不一樣,大模型就不知道怎么做了,這不就是說明泛化能力差嗎?
作者在文中也自述了研究中存在的一些局限性,如何將函數(shù)數(shù)據(jù)上的觀察應(yīng)用到token化的自然語言問題上。
團(tuán)隊(duì)也在語言模型上嘗試了相似的試驗(yàn)但遇到一些障礙,如何適當(dāng)定義任務(wù)族(相當(dāng)于這里的函數(shù)種類)、凸組合等還有待解決。
而Samuel這邊的模型規(guī)模更小,僅有4層,在Colab上訓(xùn)練5分鐘后就可以泛化到線性與正弦函數(shù)的組合。
不能泛化又如何
綜合全文來看,Quora CEO這篇文章的結(jié)論非常窄,只在很多假設(shè)下才能成立。
斯隆獎(jiǎng)得主、UCLA教授顧全全說,這篇論文本身的結(jié)論不存在爭議,但不應(yīng)該被過度解讀。
結(jié)合先前的研究,Transformer只是無法泛化到與預(yù)訓(xùn)練數(shù)據(jù)“明顯不同”的內(nèi)容,而實(shí)際上,大模型的泛化能力通常用任務(wù)多樣性和任務(wù)復(fù)雜性來衡量。
如果仔細(xì)追究Transformer的泛化能力,恐怕要讓子彈再飛一會兒了。
但是,就算真的缺乏泛化能力,又能怎么樣呢?
英偉達(dá)AI科學(xué)家Jim Fan就說,這種現(xiàn)象其實(shí)沒啥奇怪的,因?yàn)門ransformer本來就不是萬金油,大模型表現(xiàn)得好,是因?yàn)?strong>訓(xùn)練數(shù)據(jù)剛好是我們關(guān)心的內(nèi)容。
Jim進(jìn)一步補(bǔ)充道,這就好像是在說,用一千億張貓狗的照片訓(xùn)練視覺模型,接著讓模型去識別飛機(jī),然后發(fā)現(xiàn),哇,居然真的不認(rèn)識誒。
不只是大模型,人類在遇到一些未知任務(wù)時(shí)也不一定能有解決方案,這是否也說明人類缺乏泛化能力呢?
所以,在目標(biāo)導(dǎo)向之下,無論是大模型還是人類,最終的目的還是要回到解決問題上來,而泛化只是一種手段。
借用這個(gè)表情包的說法,既然泛化能力欠缺,那就把它訓(xùn)練到?jīng)]有訓(xùn)練之外的數(shù)據(jù)為止。
那么,對于這項(xiàng)研究,你有什么看法呢?