GPT-4耗盡全宇宙數(shù)據(jù)!OpenAI接連吃官司,竟因數(shù)據(jù)太缺了,UC伯克利教授發(fā)出警告
窮盡「全網(wǎng)」,生成式AI很快無數(shù)據(jù)可用。
近日,著名UC伯克利計(jì)算機(jī)科學(xué)家Stuart Russell稱,ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」。
換句話說,訓(xùn)練像ChatGPT這樣的AI,將因數(shù)據(jù)量不夠而受阻。
圖片
這可能會(huì)影響生成式AI開發(fā)人員,在未來幾年收集數(shù)據(jù),以及訓(xùn)練人工智能的方式。
同時(shí),Russell認(rèn)為人工智能將在「語言輸入,語言輸出」的工作中取代人類。
數(shù)據(jù)不夠,拿什么湊?
Russell近來的預(yù)測引起了大家重點(diǎn)關(guān)注。
OpenAI和其他生成式AI開發(fā)人員,為訓(xùn)練大型語言模型,開始進(jìn)行數(shù)據(jù)收集。
然而,ChatGPT和其他聊天機(jī)器人不可或缺的數(shù)據(jù)收集實(shí)踐,正面臨著越來越多的審查。
圖片
其中就包括,未經(jīng)個(gè)人同意情況下創(chuàng)意被使用,以及平臺(tái)數(shù)據(jù)被自由使用感到不滿的一些高管。
但Russell的洞察力指向了另一個(gè)潛在的弱點(diǎn):訓(xùn)練這些數(shù)據(jù)集的文本短缺。
去年11月,MIT等研究人員進(jìn)行的一項(xiàng)研究估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。
圖片
論文地址:https://arxiv.org/pdf/2211.04325.pdf
根據(jù)這項(xiàng)研究,「高質(zhì)量」集中的語言數(shù)據(jù)來自:書籍、新聞文章、科學(xué)論文、維基百科和過濾后的網(wǎng)絡(luò)內(nèi)容等。
而加持當(dāng)紅炸子雞ChatGPT背后的模型GPT-4同樣接受了大量優(yōu)質(zhì)文本的訓(xùn)練。
這些數(shù)據(jù)來自公共在線的資源(包括數(shù)字新聞來源和社交媒體網(wǎng)站)
從社交媒體網(wǎng)站「數(shù)據(jù)抓取」,才導(dǎo)致馬斯克出手限制用戶每天可以查看的推文數(shù)量。
圖片
Russell表示,盡管許多報(bào)道未經(jīng)證實(shí),但都詳細(xì)說明了OpenAI從私人來源購買了文本數(shù)據(jù)集。雖然這種購買行為可能存在解釋,但自然而然的推斷是,沒有足夠的高質(zhì)量公共數(shù)據(jù)了。
一直以來,OpenAI尚未公開GPT-4背后訓(xùn)練的數(shù)據(jù)。
而現(xiàn)在,OpenAI需要用「私人數(shù)據(jù)」來補(bǔ)充其公共語言數(shù)據(jù),以創(chuàng)建該公司迄今最強(qiáng)大、最先進(jìn)的人工智能模型 GPT-4。
足見,高質(zhì)量數(shù)據(jù)確實(shí)不夠用。
OpenAI在發(fā)布前沒有立即回復(fù)置評(píng)請求。
OpenAI深陷數(shù)據(jù)風(fēng)波
近來,OpenAI遇上了大麻煩,原因都和數(shù)據(jù)有關(guān)。
先是16人匿名起訴OpenAI及微軟,并提交了長達(dá)157頁的訴訟,聲稱他們使用了私人談話和醫(yī)療記錄等敏感數(shù)據(jù)。
圖片
他們的索賠金額高達(dá)30億美元,訴訟中指出,
盡管制定了購買和使用個(gè)人信息的協(xié)議,但是OpenAI和微軟系統(tǒng)性地從互聯(lián)網(wǎng)中竊取了3000億個(gè)單詞,包括數(shù)百萬未經(jīng)同意獲取的個(gè)人信息。
這其中包含賬戶信息、姓名、聯(lián)系方式、電子郵件、支付信息、交易記錄、瀏覽器數(shù)據(jù)、社交媒體、聊天數(shù)據(jù)、cookie等等。
這些信息被嵌入到ChatGPT中,但這些恰恰反映出個(gè)人愛好、觀點(diǎn)、工作履歷甚至家庭照片等。
而負(fù)責(zé)這次起訴的律師事務(wù)所Clarkson,此前曾負(fù)責(zé)過數(shù)據(jù)泄露和虛假廣告等問題的大規(guī)模集體訴訟。
圖片
緊接著,這周又有幾位全職作者提出,OpenAI未經(jīng)允許使用了自己的小說訓(xùn)練ChatGPT,構(gòu)成侵權(quán)。
那么是如何確定使用自己小說訓(xùn)練的呢?
證據(jù)就是,ChatGPT能夠針對他們的書生成準(zhǔn)確的摘要,這就足以說明這些書被當(dāng)作數(shù)據(jù)來訓(xùn)練ChatGPT。
作者Paul Tremblay和Mona Awad表示,「ChatGPT未經(jīng)許可就從數(shù)千本書中拷貝數(shù)據(jù),這侵犯了作者們的版權(quán)」。
圖片
起訴書中預(yù)估,OpenAI的訓(xùn)練數(shù)據(jù)中至少包含30萬本書,其中很多來自侵權(quán)網(wǎng)站。
比如,GPT-3訓(xùn)練數(shù)據(jù)情況披露時(shí),其中就包含2個(gè)互聯(lián)網(wǎng)圖書語料庫,大概占比為15%。
2位起訴的作者認(rèn)為,這些數(shù)據(jù)就是來自一些免費(fèi)的網(wǎng)址,比如Z-Library、Sci-Hub等。
另外2018年,OpenAI曾透露訓(xùn)練GPT-1中的數(shù)據(jù)就包括了7000+本小說。起訴的人認(rèn)為這些書沒有獲得作者認(rèn)可就直接使用。
另謀他法?
不得不說,OpenAI使用數(shù)據(jù)來源一事確實(shí)存在諸多爭議。
今年2月,《華爾街日報(bào)》記者Francesco Marconi曾表示,新聞媒體的數(shù)據(jù)也被用來訓(xùn)練ChatGPT。
Marconi讓ChatGPT列了一個(gè)清單,竟有20家媒體。
圖片
早在今年5月,Altman在接受采訪時(shí)曾表示,OpenAI已經(jīng)有一段時(shí)間沒有使用付費(fèi)客戶數(shù)據(jù)來訓(xùn)練大語言模型了。
客戶顯然不希望我們訓(xùn)練他們的數(shù)據(jù),所以我們改變了計(jì)劃,不再這么做。
圖片
其實(shí),OpenAI在3月初,曾悄然更新了服務(wù)條款。
Altman提到,現(xiàn)在公司正在開發(fā)的新技術(shù),可以使用更少的數(shù)據(jù)來訓(xùn)練模型。
或許從OpenAI身上受到了啟發(fā),谷歌選擇先行堵上這一漏洞。
7月1日,谷歌更新了其隱私政策,現(xiàn)在的政策中明確谷歌有權(quán)收集任何公開可用的數(shù)據(jù),并將其用于其人工智能模型的訓(xùn)練。
圖片
谷歌向所有用戶表明,只要是自己能夠行公開渠道獲得的內(nèi)容,都可以拿來訓(xùn)練Bard以及未來的AI。
參考資料:
https://www.businessinsider.com/ai-could-run-out-text-train-chatbots-chatgpt-llm-2023-7