谷歌研究院最新發(fā)現(xiàn):訓練結(jié)果不準確,超大數(shù)據(jù)規(guī)模要背鍋!
目前AI領(lǐng)域 的一大趨勢是什么?沒錯,就是擴大數(shù)據(jù)集規(guī)模。然而最近Geogle reserach 的一篇論文,卻認為對超大規(guī)模數(shù)據(jù)集進行整理的趨勢,反而會阻礙有效開發(fā)人工智能系統(tǒng)。
數(shù)據(jù)規(guī)模真的越大越好?
算力和數(shù)據(jù)是人工智能兩大主要驅(qū)動力。無論是計算機視覺,還是自然語言處理等AI系統(tǒng)似乎都離不開數(shù)據(jù)集。
在超大規(guī)模數(shù)據(jù)時代,數(shù)據(jù)和學習結(jié)果是這樣的關(guān)系:
數(shù)據(jù)規(guī)模越大,AI模型越精準、高效。在大部分人眼里,這似乎是個不爭的事實。
數(shù)據(jù)規(guī)模和模型精確度難道真的是呈現(xiàn)正相關(guān)關(guān)系嗎?
最近,Geogle Research 上發(fā)布的一篇論文,對這一普遍持有的觀點,提出了質(zhì)疑的呼聲。
規(guī)模一大, “飽和”就無處不在!
這篇名為Expolring the limits of pre-training model 挑戰(zhàn)了機器學習效果和數(shù)據(jù)關(guān)系的既有假設。經(jīng)過試驗得出的結(jié)論是:無論是通過擴大數(shù)據(jù)規(guī)模還是超參數(shù)來改進上游性能,下游可能會出現(xiàn)“飽和”現(xiàn)象。
所謂飽和就是.....你懂的哈,就是沒有梯度信號傳入神經(jīng)元,也無法到權(quán)重和數(shù)據(jù),這樣網(wǎng)絡就很難以進行學習了。
為了證明飽和效應的觀點,作者對視覺變形器、ResNets和MLP-混合器進行了4800次實驗,每個實驗都有不同數(shù)量的參數(shù),從1000萬到100億,都在各自領(lǐng)域現(xiàn)有的最高容量數(shù)據(jù)集進行訓練,包括ImageNet21K和谷歌自己的JFT-300M。
文中還提到了一種極端的情況,上游和下游的性能是互相矛盾的 ,也就是說:要想獲得更好的下游性能,可能得犧牲掉上游任務的精確度。
這一假設一旦得到驗證,就意味著 "超大規(guī)模 "數(shù)據(jù)集,如最近發(fā)布的LAION-400M(包含4億個文本/圖像對),以及GPT-3神經(jīng)語言引擎背后的數(shù)據(jù)(包含1750億個參數(shù)),有可能受限于傳統(tǒng)機器學習的架構(gòu)和方法。龐大的數(shù)據(jù)量可能會使得下游任務飽和,降低了其泛化的能力。
其實呢,之前的假設也不是完全在“胡言亂語”,只是要加上一個條件即:既定數(shù)據(jù)規(guī)模的超參數(shù)要在一個較為簡單的線性函數(shù)關(guān)系中 , 且是一個固定的值。
考慮到有限的計算資源和經(jīng)濟成本等問題,先前的研究范圍較小,讓人們對數(shù)據(jù)集和有效AI系統(tǒng)間的關(guān)系產(chǎn)生了不全面的認知。原來以偏概全是通病!
事實上怎么可能有這么簡單呢?
文章又反駁道“先前關(guān)于論證數(shù)據(jù)規(guī)模有效性的研究,僅是在有限的范圍進行的。 因而不能妄下定論。“
唱反調(diào)也得有依據(jù)!文章為什么會得出這樣的結(jié)論呢?原來真相就在眼前!
上下游的關(guān)系不簡單!
先前的研究是在線性函數(shù)的假設基礎(chǔ)上,呈現(xiàn)出了對數(shù)關(guān)系。
然而經(jīng)過研究發(fā)現(xiàn),情況是這樣的
從圖中可以發(fā)現(xiàn),下游任務在某些點,會發(fā)生飽和。但這些“飽和點”并不固定。因而文章推論,上下游之間的關(guān)系是非線性的。
數(shù)據(jù)、模型規(guī)模的擴大,倒是能提高上游性能。但是由于這種非線性關(guān)系的存在,提高上游的準確度的同時,下游準確度就不能夠保證了。
預訓練模型不能讓人們”一勞永逸“!
本文討論了 "預訓練 "的做法,這種措施旨在節(jié)省計算資源,減少從零開始訓練大規(guī)模數(shù)據(jù)所需的時間。
預訓練可以明顯提高模型的魯棒性和準確性。但新的論文表明,即使在相對較短的預訓練模板中,但是考慮到特征的復雜性,預訓練模型不適合于所有情況。如果研究人員繼續(xù)依賴預訓練模型,可能影響到最終結(jié)果的準確性。
論文最后提到,”我們不能期望找到適用于所有下游任務的預訓練模型。"
規(guī)模有多大,就有多準確?
Geogle research 的研究結(jié)果對這一定論,勇敢說出了”不“,的確讓人們眼前一亮!是否會對整個AI研究領(lǐng)域,帶來突破性的進展呢?也許會由此帶動更多的相關(guān)研究,會不知不覺掀起另一波”浪潮“?咱們走著瞧!