自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

牛津劍橋「投毒」AI失敗9次登Nature封面,引爆學(xué)術(shù)圈激辯!AI訓(xùn)AI能否打破崩潰魔咒?

人工智能 新聞
牛津劍橋的9次投毒導(dǎo)致模型崩潰的論文,已經(jīng)遭到了諸多吐槽:這也能上Nature?學(xué)術(shù)圈則對此進(jìn)行了進(jìn)一步討論,大家的觀點殊途同歸:合成數(shù)據(jù)被很多人視為靈丹妙藥,但天下沒有免費的午餐。

AI時代,數(shù)據(jù)就是新的石油。全球人類數(shù)據(jù)逐漸枯竭的時代,合成數(shù)據(jù)是我們的未來嗎?

最近Nature封面一篇論文引起的風(fēng)波,讓我們明白:重要的并不是「合成數(shù)據(jù)」,而是「正確使用合成數(shù)據(jù)」。

本周四,牛津、劍橋、帝國理工、多倫多大學(xué)等機(jī)構(gòu)的一篇論文登上了Nature封面。

他們提出了AI的「近親繁殖」問題,即如果在訓(xùn)練中不加區(qū)別地只用AI產(chǎn)生的內(nèi)容,就會發(fā)生模型崩潰。

圖片

不過,讓人沒想到的是,論文一經(jīng)刊出便引發(fā)了AI社區(qū)的大量討論。

圖片

圖片

一些人認(rèn)為,問題的核心不在「合成數(shù)據(jù)」上,而是在「數(shù)據(jù)質(zhì)量」上。

即使全部用的是人工數(shù)據(jù),如果質(zhì)量太差,那結(jié)果一樣也是「垃圾進(jìn)垃圾出」。

圖片

圖片

甚至,有人覺得研究者故意采用了與實際操作不匹配的方法,實際上是在「嘩眾取寵」。

圖片

對此,馬毅教授表示,如今我們已經(jīng)走進(jìn)了缺少科學(xué)思想和方法的時代——

許多研究,不過都是重新發(fā)現(xiàn)一些科學(xué)常識。

圖片

如何避免模型崩潰?

那么問題來了,在使用AI合成數(shù)據(jù)時,如何才能避免發(fā)生模型崩潰呢?

混合數(shù)據(jù)才是未來

對于這篇Nature封面的文章,Scale AI的CEO Alexandr Wang深表贊同。

他表示,利用純合成數(shù)據(jù)來訓(xùn)練模型,是不會帶來信息增益的。

通常,當(dāng)評估指標(biāo)因「自蒸餾」(self-distillation)而上升時,大概率是因為一些更隱蔽的權(quán)衡:

  • 合成數(shù)據(jù)可以在短期內(nèi)提升評估結(jié)果,但之后你會為模型崩潰付出代價
  • 你在訓(xùn)練或微調(diào)模型過程中積累了隱形的債務(wù),而這些債務(wù)將很難償還

圖片

具體而言,在連續(xù)幾代的合成訓(xùn)練中,錯誤主要來自三個方面:

  • 統(tǒng)計近似誤差(statistical approximation error)
  • 功能表達(dá)誤差(functional expressivity error)
  • 功能近似誤差(functional approximation error)

也就是,每次你用上一個模型生成的數(shù)據(jù)來訓(xùn)練新模型時,都會丟失一些信息和精度,導(dǎo)致模型變得越來越空洞,最終無法正常工作。

圖片

雖然這些實驗是在小規(guī)模模型(100M參數(shù))上進(jìn)行的,但觀察到的基本效應(yīng)也會隨著時間的推移在更大規(guī)模的模型上出現(xiàn)。

例如,今天的大多數(shù)模型無法生成像Slate Star Codex風(fēng)格的博客文章,這也是由于模型崩潰的原因。隨著我們連續(xù)訓(xùn)練模型,它們逐漸失去了在廣泛分布上進(jìn)行預(yù)測的能力。

圖片

在Wang看來,混合數(shù)據(jù)(Hybrid Data)才是未來的發(fā)展方向,它能夠避免所有與模型崩潰相關(guān)的棘手問題。

也就是說,在合成數(shù)據(jù)的過程中,必須通過某種新的信息來源來生成:

(1)使用真實世界數(shù)據(jù)作為種子

(2)人類專家參與

(3)形式邏輯引擎

相比之下,那些不慎使用了無信息增益的合成數(shù)據(jù)來訓(xùn)練模型的開發(fā)者,終將會發(fā)現(xiàn)他們的模型隨著時間的推移變得越來越奇怪和愚蠢。

強(qiáng)化學(xué)習(xí)is all you need

來自Meta、紐約大學(xué)和北京大學(xué)的研究人員,提出了一種通過人類或較弱模型的「排序-修剪反饋」方法,可以恢復(fù)甚至超越模型原來的性能。

對于這項研究,LeCun也進(jìn)行了轉(zhuǎn)發(fā),表示支持。

圖片

眾所周知,不管是對于人類還是機(jī)器來說,區(qū)分一個示例的好壞,要遠(yuǎn)比從頭生成一個高質(zhì)量的樣本容易得多。

基于此,作者提出了一種全新的方法——通過合成數(shù)據(jù)反饋來防止模型崩潰。

圖片

論文地址:https://arxiv.org/abs/2406.07515

為了研究這個問題,作者首先在理論環(huán)境中提供了分析結(jié)果。

在這里,作者提出了高維極限下的高斯混合模型和線性模型作為分類器,并讓一個驗證者(例如人類或oracle)來選擇或修剪生成的數(shù)據(jù)。

結(jié)果顯示,當(dāng)合成數(shù)據(jù)點的數(shù)量趨于無限時,基于選定數(shù)據(jù)訓(xùn)練的模型可以達(dá)到與原始數(shù)據(jù)訓(xùn)練相媲美的最佳結(jié)果。

在合成數(shù)據(jù)上的模擬顯示,與使用原始標(biāo)注相比,oracle監(jiān)督始終能產(chǎn)生接近最佳的結(jié)果。

此外,由于通過人類監(jiān)督來分辨高質(zhì)量數(shù)據(jù)比直接人類標(biāo)注更簡單且成本更低,這為人類參與監(jiān)督的有效性提供了有力的證據(jù)。

圖片

一個具有線性生成器和線性剪枝器的高斯混合模型:其中的剪枝器通過選擇強(qiáng)化合成數(shù)據(jù)來提高性能

接下來,作者進(jìn)行了兩個大規(guī)模的實驗:

1. 在算術(shù)任務(wù)(矩陣特征值預(yù)測)上訓(xùn)練Transformer,并使用與真實值的距離來修剪大量合成數(shù)據(jù)

2. 使用大語言模型(Llama 2)和有限的合成數(shù)據(jù)進(jìn)行新聞?wù)?/span>

結(jié)果顯示,在這兩種情況下,僅依賴生成數(shù)據(jù)會導(dǎo)致性能下降,即使數(shù)據(jù)量增加,也會出現(xiàn)模型崩潰。

并且,僅根據(jù)困惑度從生成池中選擇最佳解決方案并不會提升性能,即模型本身缺乏基于困惑度選擇最佳預(yù)測的能力。

相反,在oracle監(jiān)督下,可以獲得一個基于反饋增強(qiáng)的合成數(shù)據(jù)集,其性能隨著數(shù)據(jù)量的增加而超過了原始數(shù)據(jù)集。

圖片

通過人類和模型的強(qiáng)化,可以提升性能并防止模型崩潰;而在沒有強(qiáng)化的情況下則會出現(xiàn)性能下降

因此,在用合成數(shù)據(jù)訓(xùn)練新模型時,不僅要關(guān)注生成器的質(zhì)量,還需要一個高質(zhì)量的驗證者來選擇數(shù)據(jù)。

一句話總結(jié)就是:reinforcement is all you need!

真實數(shù)據(jù)+合成數(shù)據(jù)

對于讀者們對于這篇Nature封面論文的吐槽,斯坦福大學(xué)的博士生Rylan Schaeffer表示理解。

他指出,模型崩潰通常出現(xiàn)在研究人員故意采用與實際操作不匹配的方法時。

數(shù)據(jù)積累可以崩潰,也可以不崩潰,這完全取決于具體的操作細(xì)節(jié)。

你們故意把它弄崩潰,它當(dāng)然就會崩潰了。??

圖片

在這篇斯坦福、馬里蘭和MIT等機(jī)構(gòu)合著的論文中,Schaeffer研究了積累數(shù)據(jù)對模型崩潰有何影響。

經(jīng)過實驗后他們確認(rèn),用每一代的合成數(shù)據(jù)替換原始的真實數(shù)據(jù),確實會導(dǎo)致模型崩潰。

但是,如果將連續(xù)幾代的合成數(shù)據(jù)與原始的真實數(shù)據(jù)一起積累,可以避免模型崩潰。

圖片

論文地址:https://arxiv.org/abs/2404.01413

在實踐中,后代LLM會隨著時間推移,在不斷增加的數(shù)據(jù)中進(jìn)行訓(xùn)練,比如Llama 1需要1.4萬億個token,Llama 2需要2萬億個token,Llama 3需要15萬億個token。

從某種意義上說,這種數(shù)據(jù)積累設(shè)定是極其悲觀的——

在這個假設(shè)的未來中,合成數(shù)據(jù)被不受控制地傾倒在互聯(lián)網(wǎng)上,用于訓(xùn)練模型的下一次迭代。

圖片

如圖右側(cè)所示,積累數(shù)據(jù)可以避免模型崩潰

研究者使用了因果Transformer、擴(kuò)散模型和自變分編碼器三種不同的實驗設(shè)置,分別在真實文本、分子構(gòu)象和圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練。

他們發(fā)現(xiàn),替換數(shù)據(jù)會導(dǎo)致所有模型和所有數(shù)據(jù)集的模型崩潰,而積累數(shù)據(jù)可以避免模型崩潰。

基于Tranformer的因果語言建模

首先,他們在文本數(shù)據(jù)上訓(xùn)練了因果Transformer。

具體來說,就是在TinyS-tories上預(yù)訓(xùn)練了單個epoch的9M參數(shù)GPT-2和 12M、42M和125M參數(shù)的Llama 2語言模型。

前者是一個470M token的,GPT-3.5/4生成的幼兒園閱讀水平的短篇故事數(shù)據(jù)集。

對于每次模型擬合迭代n≥2,研究者會從上一次迭代的語言型中采樣一個與TinvStories大小相同的新數(shù)據(jù)集,然后用新生成的數(shù)據(jù)集替換或連接以前的數(shù)據(jù)集。

在每次模型擬合迭代中,他們會來自上一次迭代的替換或串聯(lián)數(shù)據(jù)集來預(yù)訓(xùn)練一個新的初始化模型。

圖片

結(jié)果顯示,對于所有架構(gòu)、參數(shù)計數(shù)和采樣溫度,隨著模型擬合迭代次數(shù)的增加,替換數(shù)據(jù)會導(dǎo)致測試交叉熵的增加(圖2左)。

同時他們還發(fā)現(xiàn),對于所有架構(gòu)、參數(shù)計數(shù)和采樣溫度,隨著模型擬合迭代次數(shù)的增加,積累的數(shù)據(jù)會導(dǎo)致測試交叉熵等于或更低(圖2右)。

圖3是重復(fù)替換數(shù)據(jù)(頂部)和積累數(shù)據(jù)(底部)時各個模型擬合迭代的學(xué)習(xí)曲線。

結(jié)果顯示,數(shù)據(jù)積累避免了語言建模中的模型崩潰。

圖片

125M的Llama2和9M的GPT-2,在替換數(shù)據(jù)(R)時都表現(xiàn)出了質(zhì)量下降,但在積累數(shù)據(jù)(A)時,卻保持了高質(zhì)量的文本生成。

圖片

分子構(gòu)象數(shù)據(jù)的擴(kuò)散模型

接下來,他們在分子構(gòu)象數(shù)據(jù)上訓(xùn)練擴(kuò)散模型序列。

具體來說,研究者在GEOMDrugs數(shù)據(jù)集上訓(xùn)練了GeoDiff,這是一種用于分子構(gòu)象生成的幾何擴(kuò)散模型。

他們將GEOM-Drugs數(shù)據(jù)集的訓(xùn)練部分下采樣到40,000個分子構(gòu)象,將其用作初始訓(xùn)練集,并為每個預(yù)測執(zhí)行50個擴(kuò)散步驟。

結(jié)果經(jīng)過8次模型擬合迭代,研究者發(fā)現(xiàn):替換數(shù)據(jù)時測試損失增加,這與我們的語言模型實驗相匹配,并且累積數(shù)據(jù)時測試損失保持相對恒定(圖4)。

圖片

與語言模型不同,他們發(fā)現(xiàn),當(dāng)替換數(shù)據(jù)時,在合成數(shù)據(jù)訓(xùn)練的第一次模型擬合迭代中,性能會顯著惡化,并且在后續(xù)迭代中不會進(jìn)一步大幅下降。

圖像數(shù)據(jù)的自變分編碼器

實驗最后,研究者在CelebA上訓(xùn)練了自變分編碼器(VAE)序列,該數(shù)據(jù)集包含了20萬張人臉圖像,分為訓(xùn)練集和測試集。

這種選擇,在具有許多樣本、彩色圖像和分辨率的現(xiàn)實數(shù)據(jù)集,和在累積數(shù)據(jù)上訓(xùn)練模型多次迭代的計算可行性之間,達(dá)到了平衡。

結(jié)果他們發(fā)現(xiàn),在每次迭代中替換數(shù)據(jù)再次表現(xiàn)出模型崩潰——

測試誤差會隨著每次額外的迭代而迅速上升,并且每次迭代產(chǎn)生的質(zhì)量較低且生成的面孔多樣性較少,直到所有模型生成都代表單一模式。

圖片

相比之下,在每次迭代中,積累數(shù)據(jù)會顯著減緩模型崩潰——

隨著每次額外的迭代,測試誤差的增加速度顯著減慢。

雖然與圖6的中圖和右圖相比,世代的多樣性確實下降了,它仍然代表數(shù)據(jù)集中變化的主要軸,例如性別,但模型似乎不再沿著數(shù)據(jù)流形的更短軸生成其他細(xì)節(jié),例如眼鏡和配件。

還有一個有趣的現(xiàn)象是,與語言建模不同,積累數(shù)據(jù)的測試誤差確實會隨著迭代次數(shù)的增加而增加(盡管比替換數(shù)據(jù)慢得多)。

為什么會存在這種差異?這個研究方向就留給未來了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-07-25 13:56:49

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2024-07-25 12:35:33

2023-06-16 13:02:22

GPT-5GPT-4AI

2025-04-25 10:57:39

2024-11-25 09:00:00

2024-11-08 12:18:39

SynthID谷歌AI

2022-04-14 12:37:23

AI模型系統(tǒng)

2023-12-11 19:08:03

AI模型

2022-03-10 15:04:36

AI破解文字

2023-08-22 14:07:14

AI機(jī)器

2018-06-05 11:27:12

2018-04-03 11:47:16

AI手機(jī)人工智能

2023-06-05 09:48:19

谷歌模型

2021-12-02 15:57:46

AI 數(shù)據(jù)人工智能

2019-07-08 14:40:26

AI 數(shù)據(jù)人工智能

2021-01-08 15:30:32

AI 光子計算人工智能

2023-03-11 13:15:01

AI模型系統(tǒng)

2021-07-08 15:30:21

AI 計算人工智能

2021-10-29 14:41:17

AI 模型人工智能
點贊
收藏

51CTO技術(shù)棧公眾號