自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-5將死于GPT-4背刺?牛津劍橋研究警告:AI訓(xùn)AI成「劇毒」,會讓模型崩潰!

人工智能
最差的人類語料,也要勝過AI生成的文本。

隨著GPT-4、Stable Diffusion和Midjourney的爆火,越來越多的人開始在工作和生活中引入生成式AI技術(shù)。

甚至,有人已經(jīng)開始嘗試用AI生成的數(shù)據(jù)來訓(xùn)練AI了。難道,這就是傳說中的「數(shù)據(jù)永動機」?

然而,來自牛津、劍橋、帝國理工等機構(gòu)研究人員發(fā)現(xiàn),如果在訓(xùn)練時大量使用AI內(nèi)容,會引發(fā)模型崩潰(model collapse),造成不可逆的缺陷。

圖片


也就是,隨著時間推移,模型就會忘記真實基礎(chǔ)數(shù)據(jù)部分。即使在幾乎理想的長期學(xué)習(xí)狀態(tài)下,這個情況也無法避免。

因此研究人員呼吁,如果想要繼續(xù)保持大規(guī)模數(shù)據(jù)帶來的模型優(yōu)越性,就必須認真對待人類自己寫出來的文本。

圖片

論文地址:https://arxiv.org/abs/2305.17493v2

但現(xiàn)在的問題在于——你以為的「人類數(shù)據(jù)」,可能并不是「人類」寫的。

洛桑聯(lián)邦理工學(xué)院(EPFL)的最新研究稱,預(yù)估33%-46%的人類數(shù)據(jù)都是由AI生成的。

圖片

訓(xùn)練數(shù)據(jù),都是「垃圾」

毫無疑問,現(xiàn)在的大語言模型已經(jīng)進化出了相當強大的能力,比如GPT-4可以在某些場景下生成與人類別無二致的文本。

但這背后的一個重要原因是,它們的訓(xùn)練數(shù)據(jù)大部分來源于過去幾十年人類在互聯(lián)網(wǎng)上的交流。

如果未來的語言模型仍然依賴于從網(wǎng)絡(luò)上爬取數(shù)據(jù)的話,就不可避免地要在訓(xùn)練集中引入自己生成的文本。

對此,研究人員預(yù)測,等GPT發(fā)展到第n代的時候,模型將會出現(xiàn)嚴重的崩潰問題。

圖片

那么,在這種不可避免會抓取到LLM生成內(nèi)容的情況下,為模型的訓(xùn)練準備由人類生產(chǎn)的真實數(shù)據(jù),就變得尤為重要了。

大名鼎鼎的亞馬遜數(shù)據(jù)眾包平臺Mechanical Turk(MTurk)從2005年啟動時就已經(jīng)成為許多人的副業(yè)選擇。

科研人員可以發(fā)布各種瑣碎的人類智能任務(wù),比如給圖像標注、調(diào)查等,應(yīng)有盡有。

而這些任務(wù)通常是計算機和算法無法處理的,甚至,MTurk成為一些預(yù)算不夠的科研人員和公司的「最佳選擇」。

就連貝佐斯還將MTurk的眾包工人戲稱為「人工人工智能」。

圖片

除了MTurk,包括Prolific在內(nèi)的眾包平臺已經(jīng)成為研究人員和行業(yè)實踐者的核心,能夠提供創(chuàng)建、標注和總結(jié)各種數(shù)據(jù)的方法,以便進行調(diào)查和實驗。

然而,來自EPFL的研究發(fā)現(xiàn),在這個人類數(shù)據(jù)的關(guān)鍵來源上,有近乎一半的數(shù)據(jù)都是標注員用AI創(chuàng)建的。

圖片

論文地址:https://arxiv.org/abs/2306.07899v1

模型崩潰

而最開始提到的「模型崩潰」,就是在給模型投喂了太多來自AI的數(shù)據(jù)之后,帶來的能夠影響多代的退化。

也就是,新一代模型的訓(xùn)練數(shù)據(jù)會被上一代模型的生成數(shù)據(jù)所污染,從而對現(xiàn)實世界的感知產(chǎn)生錯誤的理解。

圖片

更進一步,這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題,尤其是如果生成AI隨著時間的推移學(xué)會在其響應(yīng)中只生成某個種族,而「忘記」其他種族的存在。

而且,除了大語言模型,模型崩潰還會出現(xiàn)在變分自編碼器(VAE)、高斯混合模型上。

需要注意的是,模型崩潰的過程與災(zāi)難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學(xué)過的數(shù)據(jù),而是開始把模型的錯誤想法曲解為現(xiàn)實,并且還會強化自己對錯誤想法的信念。

圖片

舉個例子,比如模型在一個包含100張貓圖片的數(shù)據(jù)集上進行訓(xùn)練,其中有10張藍毛貓,90張黃毛貓。

模型學(xué)到的結(jié)論是,黃毛貓更普遍,同時會傾向于把藍毛貓想象的比實際更偏黃,所以在被要求生成新數(shù)據(jù)時可能會返回一些類似綠毛貓的結(jié)果。

而隨著時間的推移,藍毛的原始特征在多個訓(xùn)練epoch中逐漸被侵蝕,直接從藍色變成了綠色,最終再演變?yōu)辄S色,這種漸進的扭曲和丟失少數(shù)特征的現(xiàn)象就是模型崩潰。

圖片

具體來說,模型崩潰可以分為兩種情況:

1. 早期模型崩潰(early model collapse),模型開始丟失有關(guān)分布尾部的信息;

2. 后期模型崩潰(late model collapse),模型與原始分布的不同模式糾纏在一起,并收斂到一個與原始分布幾乎沒有相似之處的分布,往往方差也會非常小。

與此同時,研究人員也總結(jié)出了造成模型崩潰的兩個主要原因:

其中,在更多的時候,我們會得到一種級聯(lián)效應(yīng),即單個不準確的組合會導(dǎo)致整體誤差的增加。

1. 統(tǒng)計近似誤差(Statistical approximation error)

在重采樣的每一步中,信息中非零概率都可能會丟失,導(dǎo)致出現(xiàn)統(tǒng)計近似誤差,當樣本數(shù)量趨于無限會逐漸消失,該誤差是導(dǎo)致模型崩潰的主要原因。

圖片

2. 函數(shù)近似誤差(Functional approximation error)

該誤差主要源于模型中的函數(shù)近似器表達能力不足,或者有時在原始分布支持之外的表達能力太強。

眾所周知,神經(jīng)網(wǎng)絡(luò)在極限情況下是通用的函數(shù)近似器,但實際上這種假設(shè)并不總是成立的,特別是神經(jīng)網(wǎng)絡(luò)可以在原始分布的支持范圍之外引入非零似然。

舉個簡單例子,如果我們試圖用一個高斯分布來擬合兩個高斯的混合分布,即使模型具有關(guān)于數(shù)據(jù)分布的完美信息,模型誤差也是不可避免的。

需要注意的是,在沒有統(tǒng)計誤差的情況下,函數(shù)近似誤差只會發(fā)生在第一代,一旦新的分布能被函數(shù)近似器描述出來,就會在各代模型中保持完全相同的分布。

圖片

可以說,模型強大的近似能力是一把雙刃劍:其表達能力可能會抵消統(tǒng)計噪聲,從而更好地擬合真實分布,但同樣也會使噪聲復(fù)雜化。

對此,論文共同一作Ilia Shumailov表示:「生成數(shù)據(jù)中的錯誤會累積,最終迫使從生成數(shù)據(jù)中學(xué)習(xí)的模型進一步錯誤地理解現(xiàn)實。而且模型崩潰發(fā)生得非???,模型會迅速忘記最初學(xué)習(xí)的大部分原始數(shù)據(jù)?!?/span>

圖片

解決方法

好在,研究人員發(fā)現(xiàn),我們還是有辦法來避免模型崩潰的。

第一種方法是保留原始的、完全或名義上由人類生成的數(shù)據(jù)集的高質(zhì)量副本,并避免與AI生成的數(shù)據(jù)混合,然后定期使用這些數(shù)據(jù)對模型進行重新訓(xùn)練,或者完全從頭訓(xùn)練一遍模型。

第二種避免回復(fù)質(zhì)量下降并減少AI模型中的錯誤或重復(fù)的方法是將全新的、干凈的、由人類生成的數(shù)據(jù)集重新引入訓(xùn)練中。

為了防止模型崩潰,開發(fā)者需要確保原始數(shù)據(jù)中的少數(shù)派在后續(xù)數(shù)據(jù)集中得到公正的表征。

數(shù)據(jù)需要仔細備份,并覆蓋所有可能的邊界情況;在評估模型的性能時,需要考慮到模型將要處理的數(shù)據(jù),甚至是最不可信的數(shù)據(jù)。

隨后,當重新訓(xùn)練模型時,還需要確保同時包括舊數(shù)據(jù)和新數(shù)據(jù),雖然會增加訓(xùn)練的成本,但至少在某種程度上有助于緩解模型崩潰。

不過,這些方法必須要內(nèi)容制作者或AI公司采取某種大規(guī)模的標記機制,來區(qū)分AI生成的內(nèi)容和人類生成的內(nèi)容。

目前,有一些開箱即用的解決方案,比如GPTZero,OpenAI Detector,或Writer在簡單的文本上工作得很好。

圖片

然而,在一些特殊的文本中,這些方法并不能有效執(zhí)行。比如,在EPFL研究中有ChatGPT合成的10個總結(jié),而GPTZero只檢測到6個是合成的。

對此,研究人員通過微調(diào)自己的模型來檢測AI的使用,發(fā)現(xiàn)ChatGPT在編寫本文時是最常用的LLM。

對于構(gòu)建的檢測AI數(shù)據(jù)的方法,研究人員利用原始研究中的答案和用ChatGPT合成的數(shù)據(jù),訓(xùn)練了一個定制的「合成-真實分類器」。

然后用這個分類器來估計重新進行的任務(wù)中合成答案的普遍性。

圖片

具體來講,研究人員首先使用真正由人類撰寫的MTurk回應(yīng),和合成LLM生成的回應(yīng),來訓(xùn)練特定任務(wù)的「合成-真實分類器」。

其次,將這個分類器用于MTurk的真實回應(yīng)(其中眾包人可能使用,也可能沒有依賴LLM),以估計LLM使用的普遍性。

最后,研究者確認了結(jié)果的有效性,在事后比較分析擊鍵數(shù)據(jù)與MTurk的回應(yīng)。

實驗結(jié)果顯示,這個模型在正確識別人工智能文本方面高達99%的準確率。

此外,研究人員用擊鍵數(shù)據(jù)驗證了結(jié)果,發(fā)現(xiàn):

- 完全在MTurk文本框中寫的總結(jié)(不太可能是合成的)都被歸類為真實的;

- 在粘貼的總結(jié)中,提取式總結(jié)和LLM的使用有明顯區(qū)別。

圖片

具體來講,人工智能生成的文本通常與原始總結(jié)幾乎沒有相似之處。這表明AI模型正在生成新文本,而不是復(fù)制和粘貼原始內(nèi)容的一部分。

「人類數(shù)據(jù)」很重要

現(xiàn)在,人們普遍擔心LLM將塑造人類的「信息生態(tài)系統(tǒng)」,也就是說,在線可獲得的大部分信息都是由LLM生成的。

使用綜合生成數(shù)據(jù)訓(xùn)練的LLM的性能明顯降低,就像Ilia Shumailov所稱會讓模型患上「癡呆癥」。

圖片

而這個問題將會變得更加嚴重,因為隨著LLM的普及,眾包工作者們已經(jīng)廣泛使用ChatGPT等各種LLM。

但對于人類內(nèi)容創(chuàng)作者來說,這是一個好消息,提高工作效率的同時,還賺到了錢。

但是,若想挽救LLM不陷于崩潰的邊緣,還是需要真實的「人類數(shù)據(jù)」。

1. 人類數(shù)據(jù)在科學(xué)中仍然是至關(guān)重要的

2. 在合成數(shù)據(jù)上訓(xùn)練模型可能會帶來偏見和意識形態(tài)永久化

3. 隨著模型變得流行和更好/多模態(tài),采用率只會增加

圖片

總的來說,由人類生成的原始數(shù)據(jù)可以更好地表示世界,雖然也可能包含某些劣質(zhì)、概率較低的數(shù)據(jù);而生成式模型往往只會過度擬合流行數(shù)據(jù),并對概率更低的數(shù)據(jù)產(chǎn)生誤解。

那么,在充斥著生成式AI工具和相關(guān)內(nèi)容的未來,人類制作的內(nèi)容或許會比今天更有價值,尤其是作為AI原始訓(xùn)練數(shù)據(jù)的來源。

參考資料:

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-07-21 14:47:24

AI訓(xùn)練

2023-11-27 13:06:41

2023-08-02 10:45:43

2024-04-01 00:50:00

吳恩達智能體

2023-08-15 15:03:00

AI工具

2024-12-25 20:01:13

2024-07-25 13:56:49

2023-09-03 12:56:43

2024-07-29 08:00:00

模型論文

2023-08-02 15:20:45

2023-03-30 11:08:49

AI模型訓(xùn)練

2024-05-14 07:30:52

OpenAIGPT-4模型

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2024-01-09 12:53:16

模型訓(xùn)練

2023-06-19 08:19:50

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-06-17 18:04:38

2025-04-16 09:35:03

2024-04-02 11:17:18

2024-05-13 07:14:03

GPT-4生成式AIAI模型
點贊
收藏

51CTO技術(shù)棧公眾號