模型崩潰!泛濫的AI會反噬自身!牛津大學(xué)研究發(fā)現(xiàn):用AI生成數(shù)據(jù)來二次訓(xùn)練大模型會產(chǎn)生無意義的內(nèi)容!網(wǎng)友:問題不在于算法
原創(chuàng) 精選編輯 | 星璇
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
研究人員發(fā)現(xiàn),網(wǎng)絡(luò)上AI生成內(nèi)容的積累將導(dǎo)致機(jī)器學(xué)習(xí)模型“崩潰”,除非該行業(yè)能夠緩解這一風(fēng)險。
牛津大學(xué)的研究團(tuán)隊發(fā)現(xiàn),使用AI生成的數(shù)據(jù)集來訓(xùn)練未來的模型可能會產(chǎn)生無意義的內(nèi)容,這一現(xiàn)象被稱為模型崩潰。在一個例子中,一個模型起初是關(guān)于中世紀(jì)歐洲建筑的文本,但到了第九代時,卻開始胡言亂語地談?wù)撘巴谩?/p>
在昨日發(fā)表于《自然》雜志的一篇論文中,由谷歌DeepMind和牛津大學(xué)博士后研究員Ilia Shumailov領(lǐng)導(dǎo)的研究表明,AI可能無法在訓(xùn)練數(shù)據(jù)集中捕捉到不太常見的文本行,這意味著基于這些輸出訓(xùn)練的后續(xù)模型無法繼承這些細(xì)微差別。以這種方式訓(xùn)練新模型會導(dǎo)致遞歸循環(huán)。
“對語言模型的長期中毒攻擊并非新鮮事物,”論文指出?!袄纾覀兛吹搅它c擊、內(nèi)容和欺詐工廠的創(chuàng)建,這是一種人類‘語言模型’,其工作是誤導(dǎo)社交網(wǎng)絡(luò)和搜索算法。這些中毒攻擊對搜索結(jié)果產(chǎn)生的負(fù)面影響導(dǎo)致了搜索算法的變化。例如,谷歌降低了來自這些工廠的文章的排名,更加重視來自教育等可信來源的內(nèi)容,而DuckDuckGo則完全移除了這些內(nèi)容。與LLMs(大型語言模型)的出現(xiàn)不同的是,一旦自動化,這種中毒可以發(fā)生的規(guī)模?!?/p>
1.舉例:什么是模型崩潰
在另一篇配套文章中,杜克大學(xué)電氣與計算機(jī)工程助理教授Emily Wenger用一個生成狗圖像的系統(tǒng)為例來說明模型崩潰。
“AI模型會傾向于在其訓(xùn)練數(shù)據(jù)中重新創(chuàng)建最常見的犬種,因此可能會過度代表金毛尋回犬,而相對于更罕見的比熊格里芬凡丁犬,”她說。
“如果后續(xù)模型是在過度代表金毛尋回犬的AI生成數(shù)據(jù)集上進(jìn)行訓(xùn)練的,那么問題就會加劇。經(jīng)過足夠多的循環(huán),模型將忘記比熊格里芬凡丁犬等稀有犬種的存在,并只生成金毛尋回犬的圖片。最終,模型將崩潰,無法生成有意義的內(nèi)容?!?/p>
雖然她承認(rèn)過度代表金毛尋回犬可能并非壞事,但崩潰的過程對于包含不太常見想法和寫作方式的有意義代表性輸出來說是一個嚴(yán)重問題。“這是模型崩潰的核心問題,”她說。
緩解這一問題的一個現(xiàn)有方法是給AI生成的內(nèi)容添加水印。然而,這些水印可以很容易地從AI生成的圖像中移除。共享水印信息還需要AI公司之間進(jìn)行大量協(xié)調(diào),“這在實踐中可能不可行或商業(yè)上不可行,”Wenger說。
Shumailov及其同事表示,使用AI生成的數(shù)據(jù)來訓(xùn)練模型并非不可能,但行業(yè)需要建立一種有效的數(shù)據(jù)過濾手段。
“需要將LLMs生成的數(shù)據(jù)與其他數(shù)據(jù)區(qū)分開,這引發(fā)了關(guān)于從互聯(lián)網(wǎng)上抓取的內(nèi)容的原始性的問題:目前尚不清楚如何在大規(guī)模上追蹤由LLMs生成的內(nèi)容,”論文指出。
“一個選擇是社區(qū)范圍內(nèi)的協(xié)調(diào),以確保參與LLM創(chuàng)建和部署的不同方面能夠共享解決原始性問題所需的信息。否則,如果沒有在LLM技術(shù)大規(guī)模應(yīng)用之前從互聯(lián)網(wǎng)上抓取的數(shù)據(jù)或大規(guī)模直接訪問由人類生成的數(shù)據(jù)的權(quán)限,訓(xùn)練LLM的新版本可能會變得越來越困難?!?/p>
2.萬能的網(wǎng)友:這是數(shù)據(jù)的第二定律
網(wǎng)友們對此紛紛吐槽:
- LionelB:認(rèn)為這一現(xiàn)象早在ML圈中就已知,并將其比作數(shù)據(jù)的“第二定律”。
- DJO:指出“垃圾進(jìn),垃圾出”的說法已經(jīng)存在了幾十年。
- LionelB(再次):認(rèn)為即便原始輸入并非垃圾,輸出也可能因迭代應(yīng)用損失性算法而變得無意義。
- m4r35n357:認(rèn)為問題不在于輸入或算法實現(xiàn),而在于整個問題域本身是荒謬的偽數(shù)學(xué)廢話。
- LionelB(回應(yīng)m4r35n357):認(rèn)為LLMs的目的是生成與查詢相關(guān)的人類般合理的文本響應(yīng),并非偽數(shù)學(xué),但認(rèn)為其應(yīng)用價值仍存爭議。同時批評營銷人群過度夸大LLMs的能力。