自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="tcqvf"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

牛津劍橋「投毒」AI失敗9次登Nature封面，引爆學(xué)術(shù)圈激辯！AI訓(xùn)AI能否打破崩潰魔咒？

作者：新智元 2024-07-29 08:00:00

人工智能新聞

牛津劍橋的9次投毒導(dǎo)致模型崩潰的論文，已經(jīng)遭到了諸多吐槽：這也能上Nature？學(xué)術(shù)圈則對此進(jìn)行了進(jìn)一步討論，大家的觀點殊途同歸：合成數(shù)據(jù)被很多人視為靈丹妙藥，但天下沒有免費的午餐。

AI時代，數(shù)據(jù)就是新的石油。全球人類數(shù)據(jù)逐漸枯竭的時代，合成數(shù)據(jù)是我們的未來嗎？

最近Nature封面一篇論文引起的風(fēng)波，讓我們明白：重要的并不是「合成數(shù)據(jù)」，而是「正確使用合成數(shù)據(jù)」。

本周四，牛津、劍橋、帝國理工、多倫多大學(xué)等機(jī)構(gòu)的一篇論文登上了Nature封面。

他們提出了AI的「近親繁殖」問題，即如果在訓(xùn)練中不加區(qū)別地只用AI產(chǎn)生的內(nèi)容，就會發(fā)生模型崩潰。

不過，讓人沒想到的是，論文一經(jīng)刊出便引發(fā)了AI社區(qū)的大量討論。

一些人認(rèn)為，問題的核心不在「合成數(shù)據(jù)」上，而是在「數(shù)據(jù)質(zhì)量」上。

即使全部用的是人工數(shù)據(jù)，如果質(zhì)量太差，那結(jié)果一樣也是「垃圾進(jìn)垃圾出」。

甚至，有人覺得研究者故意采用了與實際操作不匹配的方法，實際上是在「嘩眾取寵」。

對此，馬毅教授表示，如今我們已經(jīng)走進(jìn)了缺少科學(xué)思想和方法的時代——

許多研究，不過都是重新發(fā)現(xiàn)一些科學(xué)常識。

如何避免模型崩潰？

那么問題來了，在使用AI合成數(shù)據(jù)時，如何才能避免發(fā)生模型崩潰呢？

混合數(shù)據(jù)才是未來

對于這篇Nature封面的文章，Scale AI的CEO Alexandr Wang深表贊同。

他表示，利用純合成數(shù)據(jù)來訓(xùn)練模型，是不會帶來信息增益的。

通常，當(dāng)評估指標(biāo)因「自蒸餾」（self-distillation）而上升時，大概率是因為一些更隱蔽的權(quán)衡：

合成數(shù)據(jù)可以在短期內(nèi)提升評估結(jié)果，但之后你會為模型崩潰付出代價
你在訓(xùn)練或微調(diào)模型過程中積累了隱形的債務(wù)，而這些債務(wù)將很難償還

具體而言，在連續(xù)幾代的合成訓(xùn)練中，錯誤主要來自三個方面：

統(tǒng)計近似誤差（statistical approximation error）
功能表達(dá)誤差（functional expressivity error）
功能近似誤差（functional approximation error）

也就是，每次你用上一個模型生成的數(shù)據(jù)來訓(xùn)練新模型時，都會丟失一些信息和精度，導(dǎo)致模型變得越來越空洞，最終無法正常工作。

雖然這些實驗是在小規(guī)模模型（100M參數(shù)）上進(jìn)行的，但觀察到的基本效應(yīng)也會隨著時間的推移在更大規(guī)模的模型上出現(xiàn)。

例如，今天的大多數(shù)模型無法生成像Slate Star Codex風(fēng)格的博客文章，這也是由于模型崩潰的原因。隨著我們連續(xù)訓(xùn)練模型，它們逐漸失去了在廣泛分布上進(jìn)行預(yù)測的能力。

在Wang看來，混合數(shù)據(jù)（Hybrid Data）才是未來的發(fā)展方向，它能夠避免所有與模型崩潰相關(guān)的棘手問題。

也就是說，在合成數(shù)據(jù)的過程中，必須通過某種新的信息來源來生成：

（1）使用真實世界數(shù)據(jù)作為種子

（2）人類專家參與

（3）形式邏輯引擎

相比之下，那些不慎使用了無信息增益的合成數(shù)據(jù)來訓(xùn)練模型的開發(fā)者，終將會發(fā)現(xiàn)他們的模型隨著時間的推移變得越來越奇怪和愚蠢。

強(qiáng)化學(xué)習(xí)is all you need

來自Meta、紐約大學(xué)和北京大學(xué)的研究人員，提出了一種通過人類或較弱模型的「排序-修剪反饋」方法，可以恢復(fù)甚至超越模型原來的性能。

對于這項研究，LeCun也進(jìn)行了轉(zhuǎn)發(fā)，表示支持。

眾所周知，不管是對于人類還是機(jī)器來說，區(qū)分一個示例的好壞，要遠(yuǎn)比從頭生成一個高質(zhì)量的樣本容易得多。

基于此，作者提出了一種全新的方法——通過合成數(shù)據(jù)反饋來防止模型崩潰。

論文地址：https://arxiv.org/abs/2406.07515

為了研究這個問題，作者首先在理論環(huán)境中提供了分析結(jié)果。

在這里，作者提出了高維極限下的高斯混合模型和線性模型作為分類器，并讓一個驗證者（例如人類或oracle）來選擇或修剪生成的數(shù)據(jù)。

結(jié)果顯示，當(dāng)合成數(shù)據(jù)點的數(shù)量趨于無限時，基于選定數(shù)據(jù)訓(xùn)練的模型可以達(dá)到與原始數(shù)據(jù)訓(xùn)練相媲美的最佳結(jié)果。

在合成數(shù)據(jù)上的模擬顯示，與使用原始標(biāo)注相比，oracle監(jiān)督始終能產(chǎn)生接近最佳的結(jié)果。

此外，由于通過人類監(jiān)督來分辨高質(zhì)量數(shù)據(jù)比直接人類標(biāo)注更簡單且成本更低，這為人類參與監(jiān)督的有效性提供了有力的證據(jù)。

一個具有線性生成器和線性剪枝器的高斯混合模型：其中的剪枝器通過選擇強(qiáng)化合成數(shù)據(jù)來提高性能

接下來，作者進(jìn)行了兩個大規(guī)模的實驗：

1. 在算術(shù)任務(wù)（矩陣特征值預(yù)測）上訓(xùn)練Transformer，并使用與真實值的距離來修剪大量合成數(shù)據(jù)

2. 使用大語言模型（Llama 2）和有限的合成數(shù)據(jù)進(jìn)行新聞?wù)?/span>

結(jié)果顯示，在這兩種情況下，僅依賴生成數(shù)據(jù)會導(dǎo)致性能下降，即使數(shù)據(jù)量增加，也會出現(xiàn)模型崩潰。

并且，僅根據(jù)困惑度從生成池中選擇最佳解決方案并不會提升性能，即模型本身缺乏基于困惑度選擇最佳預(yù)測的能力。

相反，在oracle監(jiān)督下，可以獲得一個基于反饋增強(qiáng)的合成數(shù)據(jù)集，其性能隨著數(shù)據(jù)量的增加而超過了原始數(shù)據(jù)集。

通過人類和模型的強(qiáng)化，可以提升性能并防止模型崩潰；而在沒有強(qiáng)化的情況下則會出現(xiàn)性能下降

因此，在用合成數(shù)據(jù)訓(xùn)練新模型時，不僅要關(guān)注生成器的質(zhì)量，還需要一個高質(zhì)量的驗證者來選擇數(shù)據(jù)。

一句話總結(jié)就是：reinforcement is all you need！

真實數(shù)據(jù)+合成數(shù)據(jù)

對于讀者們對于這篇Nature封面論文的吐槽，斯坦福大學(xué)的博士生Rylan Schaeffer表示理解。

他指出，模型崩潰通常出現(xiàn)在研究人員故意采用與實際操作不匹配的方法時。

數(shù)據(jù)積累可以崩潰，也可以不崩潰，這完全取決于具體的操作細(xì)節(jié)。

你們故意把它弄崩潰，它當(dāng)然就會崩潰了。??

在這篇斯坦福、馬里蘭和MIT等機(jī)構(gòu)合著的論文中，Schaeffer研究了積累數(shù)據(jù)對模型崩潰有何影響。

經(jīng)過實驗后他們確認(rèn)，用每一代的合成數(shù)據(jù)替換原始的真實數(shù)據(jù)，確實會導(dǎo)致模型崩潰。

但是，如果將連續(xù)幾代的合成數(shù)據(jù)與原始的真實數(shù)據(jù)一起積累，可以避免模型崩潰。

論文地址：https://arxiv.org/abs/2404.01413

在實踐中，后代LLM會隨著時間推移，在不斷增加的數(shù)據(jù)中進(jìn)行訓(xùn)練，比如Llama 1需要1.4萬億個token，Llama 2需要2萬億個token，Llama 3需要15萬億個token。

從某種意義上說，這種數(shù)據(jù)積累設(shè)定是極其悲觀的——

在這個假設(shè)的未來中，合成數(shù)據(jù)被不受控制地傾倒在互聯(lián)網(wǎng)上，用于訓(xùn)練模型的下一次迭代。

如圖右側(cè)所示，積累數(shù)據(jù)可以避免模型崩潰

研究者使用了因果Transformer、擴(kuò)散模型和自變分編碼器三種不同的實驗設(shè)置，分別在真實文本、分子構(gòu)象和圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練。

他們發(fā)現(xiàn)，替換數(shù)據(jù)會導(dǎo)致所有模型和所有數(shù)據(jù)集的模型崩潰，而積累數(shù)據(jù)可以避免模型崩潰。

基于Tranformer的因果語言建模

首先，他們在文本數(shù)據(jù)上訓(xùn)練了因果Transformer。

具體來說，就是在TinyS-tories上預(yù)訓(xùn)練了單個epoch的9M參數(shù)GPT-2和 12M、42M和125M參數(shù)的Llama 2語言模型。

前者是一個470M token的，GPT-3.5/4生成的幼兒園閱讀水平的短篇故事數(shù)據(jù)集。

對于每次模型擬合迭代n≥2，研究者會從上一次迭代的語言型中采樣一個與TinvStories大小相同的新數(shù)據(jù)集，然后用新生成的數(shù)據(jù)集替換或連接以前的數(shù)據(jù)集。

在每次模型擬合迭代中，他們會來自上一次迭代的替換或串聯(lián)數(shù)據(jù)集來預(yù)訓(xùn)練一個新的初始化模型。

結(jié)果顯示，對于所有架構(gòu)、參數(shù)計數(shù)和采樣溫度，隨著模型擬合迭代次數(shù)的增加，替換數(shù)據(jù)會導(dǎo)致測試交叉熵的增加（圖2左）。

同時他們還發(fā)現(xiàn)，對于所有架構(gòu)、參數(shù)計數(shù)和采樣溫度，隨著模型擬合迭代次數(shù)的增加，積累的數(shù)據(jù)會導(dǎo)致測試交叉熵等于或更低（圖2右）。

圖3是重復(fù)替換數(shù)據(jù)（頂部）和積累數(shù)據(jù)（底部）時各個模型擬合迭代的學(xué)習(xí)曲線。

結(jié)果顯示，數(shù)據(jù)積累避免了語言建模中的模型崩潰。

125M的Llama2和9M的GPT-2，在替換數(shù)據(jù)（R）時都表現(xiàn)出了質(zhì)量下降，但在積累數(shù)據(jù)（A）時，卻保持了高質(zhì)量的文本生成。

分子構(gòu)象數(shù)據(jù)的擴(kuò)散模型

接下來，他們在分子構(gòu)象數(shù)據(jù)上訓(xùn)練擴(kuò)散模型序列。

具體來說，研究者在GEOMDrugs數(shù)據(jù)集上訓(xùn)練了GeoDiff，這是一種用于分子構(gòu)象生成的幾何擴(kuò)散模型。

他們將GEOM-Drugs數(shù)據(jù)集的訓(xùn)練部分下采樣到40,000個分子構(gòu)象，將其用作初始訓(xùn)練集，并為每個預(yù)測執(zhí)行50個擴(kuò)散步驟。

結(jié)果經(jīng)過8次模型擬合迭代，研究者發(fā)現(xiàn)：替換數(shù)據(jù)時測試損失增加，這與我們的語言模型實驗相匹配，并且累積數(shù)據(jù)時測試損失保持相對恒定（圖4）。

與語言模型不同，他們發(fā)現(xiàn)，當(dāng)替換數(shù)據(jù)時，在合成數(shù)據(jù)訓(xùn)練的第一次模型擬合迭代中，性能會顯著惡化，并且在后續(xù)迭代中不會進(jìn)一步大幅下降。

圖像數(shù)據(jù)的自變分編碼器

實驗最后，研究者在CelebA上訓(xùn)練了自變分編碼器（VAE）序列，該數(shù)據(jù)集包含了20萬張人臉圖像，分為訓(xùn)練集和測試集。

這種選擇，在具有許多樣本、彩色圖像和分辨率的現(xiàn)實數(shù)據(jù)集，和在累積數(shù)據(jù)上訓(xùn)練模型多次迭代的計算可行性之間，達(dá)到了平衡。

結(jié)果他們發(fā)現(xiàn)，在每次迭代中替換數(shù)據(jù)再次表現(xiàn)出模型崩潰——

測試誤差會隨著每次額外的迭代而迅速上升，并且每次迭代產(chǎn)生的質(zhì)量較低且生成的面孔多樣性較少，直到所有模型生成都代表單一模式。

相比之下，在每次迭代中，積累數(shù)據(jù)會顯著減緩模型崩潰——

隨著每次額外的迭代，測試誤差的增加速度顯著減慢。

雖然與圖6的中圖和右圖相比，世代的多樣性確實下降了，它仍然代表數(shù)據(jù)集中變化的主要軸，例如性別，但模型似乎不再沿著數(shù)據(jù)流形的更短軸生成其他細(xì)節(jié)，例如眼鏡和配件。

還有一個有趣的現(xiàn)象是，與語言建模不同，積累數(shù)據(jù)的測試誤差確實會隨著迭代次數(shù)的增加而增加（盡管比替換數(shù)據(jù)慢得多）。

為什么會存在這種差異？這個研究方向就留給未來了。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營