人類沒有足夠的高質(zhì)量語料給AI學了,2026年就用盡,網(wǎng)友:大型人類文本生成項目啟動!
AI胃口太大,人類的語料數(shù)據(jù)已經(jīng)不夠吃了。
來自Epoch團隊的一篇新論文表明,AI不出5年就會把所有高質(zhì)量語料用光。
要知道,這可是把人類語言數(shù)據(jù)增長率考慮在內(nèi)預測出的結(jié)果,換而言之,這幾年人類新寫的論文、新編的代碼,哪怕全都喂給AI也不夠。
照這么發(fā)展下去,依賴高質(zhì)量數(shù)據(jù)提升水平的語言大模型,很快就要迎來瓶頸。
已經(jīng)有網(wǎng)友坐不住了:
這太荒謬了。人類無需閱讀互聯(lián)網(wǎng)所有內(nèi)容,就能高效訓練自己。
我們需要更好的模型,而不是更多的數(shù)據(jù)。
還有網(wǎng)友調(diào)侃,都這樣了不如讓AI吃自己吐的東西:
可以把AI自己生成的文本當成低質(zhì)量數(shù)據(jù)喂給AI。
讓我們來看看,人類剩余的數(shù)據(jù)還有多少?
文本和圖像數(shù)據(jù)“存貨”如何?
論文主要針對文本和圖像兩類數(shù)據(jù)進行了預測。
首先是文本數(shù)據(jù)。
數(shù)據(jù)的質(zhì)量通常有好有壞,作者們根據(jù)現(xiàn)有大模型采用的數(shù)據(jù)類型、以及其他數(shù)據(jù),將可用文本數(shù)據(jù)分成了低質(zhì)量和高質(zhì)量兩部分。
高質(zhì)量語料,參考了Pile、PaLM和MassiveText等大型語言模型所用的訓練數(shù)據(jù)集,包括維基百科、新聞、GitHub上的代碼、出版書籍等。
低質(zhì)量語料,則來源于Reddit等社交媒體上的推文、以及非官方創(chuàng)作的同人小說(fanfic)等。
根據(jù)統(tǒng)計,高質(zhì)量語言數(shù)據(jù)存量只剩下約4.6×10^12~1.7×10^13個單詞,相比當前最大的文本數(shù)據(jù)集大了不到一個數(shù)量級。
結(jié)合增長率,論文預測高質(zhì)量文本數(shù)據(jù)會在2023~2027年間被AI耗盡,預估節(jié)點在2026年左右。
看起來實在有點快……
當然,可以再加上低質(zhì)量文本數(shù)據(jù)來救急。根據(jù)統(tǒng)計,目前文本數(shù)據(jù)整體存量還剩下7×10^13~7×10^16個單詞,比最大的數(shù)據(jù)集大1.5~4.5個數(shù)量級。
如果對數(shù)據(jù)質(zhì)量要求不高,那么AI會在2030年~2050年之間才用完所有文本數(shù)據(jù)。
再看看圖像數(shù)據(jù),這里論文沒有區(qū)分圖像質(zhì)量。
目前最大的圖像數(shù)據(jù)集擁有3×10^9張圖片。
據(jù)統(tǒng)計,目前圖片總量約有8.11×10^12~2.3×10^13張,比最大的圖像數(shù)據(jù)集大出3~4個數(shù)量級。
論文預測AI會在2030~2070年間用完這些圖片。
顯然,大語言模型比圖像模型面臨著更緊張的“缺數(shù)據(jù)”情況。
那么這一結(jié)論是如何得出的呢?
計算網(wǎng)民日均發(fā)文量得出
論文從兩個角度,分別對文本圖像數(shù)據(jù)生成效率、以及訓練數(shù)據(jù)集增長情況進行了分析。
值得注意的是,論文統(tǒng)計的不都是標注數(shù)據(jù),考慮到無監(jiān)督學習比較火熱,把未標注數(shù)據(jù)也算進去了。
以文本數(shù)據(jù)為例,大部分數(shù)據(jù)會從社交平臺、博客和論壇生成。
為了估計文本數(shù)據(jù)生成速度,有三個因素需要考慮,即總?cè)丝?、互?lián)網(wǎng)普及率和互聯(lián)網(wǎng)用戶平均生成數(shù)據(jù)量。
例如,這是根據(jù)歷史人口數(shù)據(jù)和互聯(lián)網(wǎng)用戶數(shù)量,估計得到的未來人口和互聯(lián)網(wǎng)用戶增長趨勢:
再結(jié)合用戶生成的平均數(shù)據(jù)量,就能計算出生成數(shù)據(jù)的速率。(由于地理和時間變化復雜,論文簡化了用戶平均生成數(shù)據(jù)量計算方法)
根據(jù)這一方法,計算得出語言數(shù)據(jù)增長率在7%左右,然而這一增長率會隨著時間延長逐漸下降。
預計到2100年,我們的語言數(shù)據(jù)增長率會降低到1%。
同樣類似的方法分析圖像數(shù)據(jù),當前增長率在8%左右,然而到2100年圖像數(shù)據(jù)增長率同樣會放緩至1%左右。
論文認為,如果數(shù)據(jù)增長率沒有大幅提高、或是出現(xiàn)新的數(shù)據(jù)來源,無論是靠高質(zhì)量數(shù)據(jù)訓練的圖像還是文本大模型,都可能在某個階段迎來瓶頸期。
對此有網(wǎng)友調(diào)侃,未來或許會有像科幻故事情節(jié)一樣的事情發(fā)生:
人類為了訓練AI,啟動大型文本生成項目,大家為了AI拼命寫東西。
他稱之為一種“對AI的教育”:
我們每年給AI送14萬到260萬單詞量的文本數(shù)據(jù),聽起來似乎比人類當電池要更酷?
你覺得呢?
論文地址:https://arxiv.org/abs/2211.04325
參考鏈接:https://twitter.com/emollick/status/1605756428941246466