牛津劍橋「投毒」AI失敗9次登Nature封面,引爆學(xué)術(shù)圈激辯!AI訓(xùn)AI能否打破崩潰魔咒?
AI時代,數(shù)據(jù)就是新的石油。全球人類數(shù)據(jù)逐漸枯竭的時代,合成數(shù)據(jù)是我們的未來嗎?
最近Nature封面一篇論文引起的風(fēng)波,讓我們明白:重要的并不是「合成數(shù)據(jù)」,而是「正確使用合成數(shù)據(jù)」。
本周四,牛津、劍橋、帝國理工、多倫多大學(xué)等機(jī)構(gòu)的一篇論文登上了Nature封面。
他們提出了AI的「近親繁殖」問題,即如果在訓(xùn)練中不加區(qū)別地只用AI產(chǎn)生的內(nèi)容,就會發(fā)生模型崩潰。
不過,讓人沒想到的是,論文一經(jīng)刊出便引發(fā)了AI社區(qū)的大量討論。
一些人認(rèn)為,問題的核心不在「合成數(shù)據(jù)」上,而是在「數(shù)據(jù)質(zhì)量」上。
即使全部用的是人工數(shù)據(jù),如果質(zhì)量太差,那結(jié)果一樣也是「垃圾進(jìn)垃圾出」。
甚至,有人覺得研究者故意采用了與實際操作不匹配的方法,實際上是在「嘩眾取寵」。
對此,馬毅教授表示,如今我們已經(jīng)走進(jìn)了缺少科學(xué)思想和方法的時代——
許多研究,不過都是重新發(fā)現(xiàn)一些科學(xué)常識。
如何避免模型崩潰?
那么問題來了,在使用AI合成數(shù)據(jù)時,如何才能避免發(fā)生模型崩潰呢?
混合數(shù)據(jù)才是未來
對于這篇Nature封面的文章,Scale AI的CEO Alexandr Wang深表贊同。
他表示,利用純合成數(shù)據(jù)來訓(xùn)練模型,是不會帶來信息增益的。
通常,當(dāng)評估指標(biāo)因「自蒸餾」(self-distillation)而上升時,大概率是因為一些更隱蔽的權(quán)衡:
- 合成數(shù)據(jù)可以在短期內(nèi)提升評估結(jié)果,但之后你會為模型崩潰付出代價
- 你在訓(xùn)練或微調(diào)模型過程中積累了隱形的債務(wù),而這些債務(wù)將很難償還
具體而言,在連續(xù)幾代的合成訓(xùn)練中,錯誤主要來自三個方面:
- 統(tǒng)計近似誤差(statistical approximation error)
- 功能表達(dá)誤差(functional expressivity error)
- 功能近似誤差(functional approximation error)
也就是,每次你用上一個模型生成的數(shù)據(jù)來訓(xùn)練新模型時,都會丟失一些信息和精度,導(dǎo)致模型變得越來越空洞,最終無法正常工作。
雖然這些實驗是在小規(guī)模模型(100M參數(shù))上進(jìn)行的,但觀察到的基本效應(yīng)也會隨著時間的推移在更大規(guī)模的模型上出現(xiàn)。
例如,今天的大多數(shù)模型無法生成像Slate Star Codex風(fēng)格的博客文章,這也是由于模型崩潰的原因。隨著我們連續(xù)訓(xùn)練模型,它們逐漸失去了在廣泛分布上進(jìn)行預(yù)測的能力。
在Wang看來,混合數(shù)據(jù)(Hybrid Data)才是未來的發(fā)展方向,它能夠避免所有與模型崩潰相關(guān)的棘手問題。
也就是說,在合成數(shù)據(jù)的過程中,必須通過某種新的信息來源來生成:
(1)使用真實世界數(shù)據(jù)作為種子
(2)人類專家參與
(3)形式邏輯引擎
相比之下,那些不慎使用了無信息增益的合成數(shù)據(jù)來訓(xùn)練模型的開發(fā)者,終將會發(fā)現(xiàn)他們的模型隨著時間的推移變得越來越奇怪和愚蠢。
強(qiáng)化學(xué)習(xí)is all you need
來自Meta、紐約大學(xué)和北京大學(xué)的研究人員,提出了一種通過人類或較弱模型的「排序-修剪反饋」方法,可以恢復(fù)甚至超越模型原來的性能。
對于這項研究,LeCun也進(jìn)行了轉(zhuǎn)發(fā),表示支持。
眾所周知,不管是對于人類還是機(jī)器來說,區(qū)分一個示例的好壞,要遠(yuǎn)比從頭生成一個高質(zhì)量的樣本容易得多。
基于此,作者提出了一種全新的方法——通過合成數(shù)據(jù)反饋來防止模型崩潰。
論文地址:https://arxiv.org/abs/2406.07515
為了研究這個問題,作者首先在理論環(huán)境中提供了分析結(jié)果。
在這里,作者提出了高維極限下的高斯混合模型和線性模型作為分類器,并讓一個驗證者(例如人類或oracle)來選擇或修剪生成的數(shù)據(jù)。
結(jié)果顯示,當(dāng)合成數(shù)據(jù)點的數(shù)量趨于無限時,基于選定數(shù)據(jù)訓(xùn)練的模型可以達(dá)到與原始數(shù)據(jù)訓(xùn)練相媲美的最佳結(jié)果。
在合成數(shù)據(jù)上的模擬顯示,與使用原始標(biāo)注相比,oracle監(jiān)督始終能產(chǎn)生接近最佳的結(jié)果。
此外,由于通過人類監(jiān)督來分辨高質(zhì)量數(shù)據(jù)比直接人類標(biāo)注更簡單且成本更低,這為人類參與監(jiān)督的有效性提供了有力的證據(jù)。
一個具有線性生成器和線性剪枝器的高斯混合模型:其中的剪枝器通過選擇強(qiáng)化合成數(shù)據(jù)來提高性能
接下來,作者進(jìn)行了兩個大規(guī)模的實驗:
1. 在算術(shù)任務(wù)(矩陣特征值預(yù)測)上訓(xùn)練Transformer,并使用與真實值的距離來修剪大量合成數(shù)據(jù)
2. 使用大語言模型(Llama 2)和有限的合成數(shù)據(jù)進(jìn)行新聞?wù)?/span>
結(jié)果顯示,在這兩種情況下,僅依賴生成數(shù)據(jù)會導(dǎo)致性能下降,即使數(shù)據(jù)量增加,也會出現(xiàn)模型崩潰。
并且,僅根據(jù)困惑度從生成池中選擇最佳解決方案并不會提升性能,即模型本身缺乏基于困惑度選擇最佳預(yù)測的能力。
相反,在oracle監(jiān)督下,可以獲得一個基于反饋增強(qiáng)的合成數(shù)據(jù)集,其性能隨著數(shù)據(jù)量的增加而超過了原始數(shù)據(jù)集。
通過人類和模型的強(qiáng)化,可以提升性能并防止模型崩潰;而在沒有強(qiáng)化的情況下則會出現(xiàn)性能下降
因此,在用合成數(shù)據(jù)訓(xùn)練新模型時,不僅要關(guān)注生成器的質(zhì)量,還需要一個高質(zhì)量的驗證者來選擇數(shù)據(jù)。
一句話總結(jié)就是:reinforcement is all you need!
真實數(shù)據(jù)+合成數(shù)據(jù)
對于讀者們對于這篇Nature封面論文的吐槽,斯坦福大學(xué)的博士生Rylan Schaeffer表示理解。
他指出,模型崩潰通常出現(xiàn)在研究人員故意采用與實際操作不匹配的方法時。
數(shù)據(jù)積累可以崩潰,也可以不崩潰,這完全取決于具體的操作細(xì)節(jié)。
你們故意把它弄崩潰,它當(dāng)然就會崩潰了。??
在這篇斯坦福、馬里蘭和MIT等機(jī)構(gòu)合著的論文中,Schaeffer研究了積累數(shù)據(jù)對模型崩潰有何影響。
經(jīng)過實驗后他們確認(rèn),用每一代的合成數(shù)據(jù)替換原始的真實數(shù)據(jù),確實會導(dǎo)致模型崩潰。
但是,如果將連續(xù)幾代的合成數(shù)據(jù)與原始的真實數(shù)據(jù)一起積累,可以避免模型崩潰。
論文地址:https://arxiv.org/abs/2404.01413
在實踐中,后代LLM會隨著時間推移,在不斷增加的數(shù)據(jù)中進(jìn)行訓(xùn)練,比如Llama 1需要1.4萬億個token,Llama 2需要2萬億個token,Llama 3需要15萬億個token。
從某種意義上說,這種數(shù)據(jù)積累設(shè)定是極其悲觀的——
在這個假設(shè)的未來中,合成數(shù)據(jù)被不受控制地傾倒在互聯(lián)網(wǎng)上,用于訓(xùn)練模型的下一次迭代。
如圖右側(cè)所示,積累數(shù)據(jù)可以避免模型崩潰
研究者使用了因果Transformer、擴(kuò)散模型和自變分編碼器三種不同的實驗設(shè)置,分別在真實文本、分子構(gòu)象和圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練。
他們發(fā)現(xiàn),替換數(shù)據(jù)會導(dǎo)致所有模型和所有數(shù)據(jù)集的模型崩潰,而積累數(shù)據(jù)可以避免模型崩潰。
基于Tranformer的因果語言建模
首先,他們在文本數(shù)據(jù)上訓(xùn)練了因果Transformer。
具體來說,就是在TinyS-tories上預(yù)訓(xùn)練了單個epoch的9M參數(shù)GPT-2和 12M、42M和125M參數(shù)的Llama 2語言模型。
前者是一個470M token的,GPT-3.5/4生成的幼兒園閱讀水平的短篇故事數(shù)據(jù)集。
對于每次模型擬合迭代n≥2,研究者會從上一次迭代的語言型中采樣一個與TinvStories大小相同的新數(shù)據(jù)集,然后用新生成的數(shù)據(jù)集替換或連接以前的數(shù)據(jù)集。
在每次模型擬合迭代中,他們會來自上一次迭代的替換或串聯(lián)數(shù)據(jù)集來預(yù)訓(xùn)練一個新的初始化模型。
結(jié)果顯示,對于所有架構(gòu)、參數(shù)計數(shù)和采樣溫度,隨著模型擬合迭代次數(shù)的增加,替換數(shù)據(jù)會導(dǎo)致測試交叉熵的增加(圖2左)。
同時他們還發(fā)現(xiàn),對于所有架構(gòu)、參數(shù)計數(shù)和采樣溫度,隨著模型擬合迭代次數(shù)的增加,積累的數(shù)據(jù)會導(dǎo)致測試交叉熵等于或更低(圖2右)。
圖3是重復(fù)替換數(shù)據(jù)(頂部)和積累數(shù)據(jù)(底部)時各個模型擬合迭代的學(xué)習(xí)曲線。
結(jié)果顯示,數(shù)據(jù)積累避免了語言建模中的模型崩潰。
125M的Llama2和9M的GPT-2,在替換數(shù)據(jù)(R)時都表現(xiàn)出了質(zhì)量下降,但在積累數(shù)據(jù)(A)時,卻保持了高質(zhì)量的文本生成。
分子構(gòu)象數(shù)據(jù)的擴(kuò)散模型
接下來,他們在分子構(gòu)象數(shù)據(jù)上訓(xùn)練擴(kuò)散模型序列。
具體來說,研究者在GEOMDrugs數(shù)據(jù)集上訓(xùn)練了GeoDiff,這是一種用于分子構(gòu)象生成的幾何擴(kuò)散模型。
他們將GEOM-Drugs數(shù)據(jù)集的訓(xùn)練部分下采樣到40,000個分子構(gòu)象,將其用作初始訓(xùn)練集,并為每個預(yù)測執(zhí)行50個擴(kuò)散步驟。
結(jié)果經(jīng)過8次模型擬合迭代,研究者發(fā)現(xiàn):替換數(shù)據(jù)時測試損失增加,這與我們的語言模型實驗相匹配,并且累積數(shù)據(jù)時測試損失保持相對恒定(圖4)。
與語言模型不同,他們發(fā)現(xiàn),當(dāng)替換數(shù)據(jù)時,在合成數(shù)據(jù)訓(xùn)練的第一次模型擬合迭代中,性能會顯著惡化,并且在后續(xù)迭代中不會進(jìn)一步大幅下降。
圖像數(shù)據(jù)的自變分編碼器
實驗最后,研究者在CelebA上訓(xùn)練了自變分編碼器(VAE)序列,該數(shù)據(jù)集包含了20萬張人臉圖像,分為訓(xùn)練集和測試集。
這種選擇,在具有許多樣本、彩色圖像和分辨率的現(xiàn)實數(shù)據(jù)集,和在累積數(shù)據(jù)上訓(xùn)練模型多次迭代的計算可行性之間,達(dá)到了平衡。
結(jié)果他們發(fā)現(xiàn),在每次迭代中替換數(shù)據(jù)再次表現(xiàn)出模型崩潰——
測試誤差會隨著每次額外的迭代而迅速上升,并且每次迭代產(chǎn)生的質(zhì)量較低且生成的面孔多樣性較少,直到所有模型生成都代表單一模式。
相比之下,在每次迭代中,積累數(shù)據(jù)會顯著減緩模型崩潰——
隨著每次額外的迭代,測試誤差的增加速度顯著減慢。
雖然與圖6的中圖和右圖相比,世代的多樣性確實下降了,它仍然代表數(shù)據(jù)集中變化的主要軸,例如性別,但模型似乎不再沿著數(shù)據(jù)流形的更短軸生成其他細(xì)節(jié),例如眼鏡和配件。
還有一個有趣的現(xiàn)象是,與語言建模不同,積累數(shù)據(jù)的測試誤差確實會隨著迭代次數(shù)的增加而增加(盡管比替換數(shù)據(jù)慢得多)。
為什么會存在這種差異?這個研究方向就留給未來了。