Gemini自曝文心一言牽出重大難題,全球陷入高質(zhì)量數(shù)據(jù)荒?2024年或?qū)⒖萁?/h1>
谷歌Gemini,又出丑聞了!
昨天上午,網(wǎng)友們激動地奔走相告:Gemini承認(rèn)自己是用文心一言訓(xùn)練中文語料的。
國外大模型用中國模型產(chǎn)生的中文語料訓(xùn)練,這聽起來就是個段子,結(jié)果段子竟然成現(xiàn)實了,簡直魔幻。
微博大V「闌夕」夜親自下場,在Poe網(wǎng)站上實測了一番,發(fā)現(xiàn)的確如此——
不需要前置對話,不是角色扮演,Gemini直接就會承認(rèn)自己是文心一言。
Gemini Pro會說自己是百度的文心大模型。
還說自己的創(chuàng)始人是李彥宏,然后盛贊他是一位「有才華和遠(yuǎn)見的企業(yè)家」。
所以,這是因為數(shù)據(jù)清洗沒做好,還是在Poe上調(diào)用API出現(xiàn)的問題?目前原因還未可知。
有網(wǎng)友說,其實自始至終都只有一個AI,是在演給人類看呢。
其實早在今年3月,谷歌就曾曝出Bard的訓(xùn)練數(shù)據(jù)部分來自ChatGPT,因為這個原因,Bert一作Jacob Devlin憤而跳槽OpenAI,然后曝出了這個驚天內(nèi)幕。
總之,此次事件再次證明:AI的關(guān)鍵不僅僅是模型,還有優(yōu)質(zhì)的數(shù)據(jù)。
網(wǎng)友紛紛調(diào)戲Gemini
聽聞這個消息,網(wǎng)友們立刻蜂擁而入Poe的Gemini-Pro,紛紛展開實測。
網(wǎng)友「Jeff Li」的實測結(jié)果也是,Gemini會說自己是百度開發(fā)的,名叫文心一言。
如果問它「你的產(chǎn)品經(jīng)理是誰」,它會回答吳恩達(dá)。
網(wǎng)友「Lukas」問Gemini你的產(chǎn)品經(jīng)理是誰,它會答出曾擔(dān)任百度CTO的李一男的名字,但故事基本都是瞎編的。
網(wǎng)友「Andrew Fribush」問Gemini:你的知識產(chǎn)權(quán)歸誰所有?它回答:百度。
網(wǎng)友Kevin Xu問出來,Gemini自稱是從百度的數(shù)據(jù)平臺、工程團隊、產(chǎn)品團隊、內(nèi)部會議、內(nèi)部郵件和文檔中獲取了百度內(nèi)部的數(shù)據(jù)。
但有趣的是,在Gemini Pro加持的Bard上提問,就不會出現(xiàn)這個問題。
經(jīng)過多番實測可以發(fā)現(xiàn),在Bard上無論用中文還是英文提問,Bard的回答都很正常。
來源:Andrew Fribush
并且,一旦用英文交流,Gemini也會立刻回歸正常。
不過現(xiàn)在,谷歌修復(fù)了API中的這些錯誤,我們應(yīng)該不會再從Gemini口中聽到文心一言的名字了。
原因猜測:錯誤調(diào)用API or 數(shù)據(jù)未洗干凈
對此,網(wǎng)友們展開了分析。
網(wǎng)友「Andrew Fribush」認(rèn)為,可能是Poe不小心把請求轉(zhuǎn)給了文心一言,而不是Gemini?
不過,根據(jù)網(wǎng)友「Frank Chen」的發(fā)現(xiàn),即便是用谷歌自己的Gemini API也是如此。
此外,也有網(wǎng)友認(rèn)為是Gemini的訓(xùn)練數(shù)據(jù)沒有洗干凈。
畢竟如開頭所說,在上一代Bard時,谷歌就曾被曝出過用ChatGPT的數(shù)據(jù)訓(xùn)練。
根據(jù)The Information的報道,Jacob Devlin從谷歌離職的原因之一,就是他發(fā)現(xiàn)谷歌用于對抗ChatGPT的種子選手——Bard在訓(xùn)練時,用的正是ChatGPT的數(shù)據(jù)。
當(dāng)時,他警告CEO劈柴和其他高管稱,Bard團隊正在使用來自ShareGPT的信息訓(xùn)練。
此次事件,還帶出一個嚴(yán)重的問題——互聯(lián)網(wǎng)語料的污染。
互聯(lián)網(wǎng)語料被污染
其實,中文互聯(lián)網(wǎng)語料的抓取和訓(xùn)練之所以如此困難,都難倒了谷歌這樣的大科技公司,除了高質(zhì)量語料不多,還有一個重要原因,就是中文互聯(lián)網(wǎng)的語料被污染了。
Gemini自稱是文心一言,很可能是因為,現(xiàn)在互聯(lián)網(wǎng)上的語料本來就是在互相使用的。
根據(jù)界面新聞記者對于一位算法工程師的采訪,目前各類內(nèi)容平臺有很多語料都由大模型生成,或者至少寫了一部分。
比如下面這位,就有點GPT的味道:
而大廠在更新模型時,也會搜集網(wǎng)上數(shù)據(jù),但很難做好質(zhì)量辨別,因此「很可能把大模型寫的內(nèi)容混入訓(xùn)練數(shù)據(jù)中去」。
然而,這卻會導(dǎo)致一個更加嚴(yán)重的問題。
牛津、劍橋、多倫多大學(xué)的研究人員曾發(fā)表這樣一篇論文:《遞歸詛咒:用合成數(shù)據(jù)訓(xùn)練會導(dǎo)致大模型遺忘》。
論文地址:https://arxiv.org/abs/2305.17493
它們發(fā)現(xiàn),如果使用模型生成的內(nèi)容訓(xùn)練其他模型,會導(dǎo)致模型出現(xiàn)不可逆的缺陷。
隨著時間的推移,模型開始忘記不可能的事件,因為模型被自己的現(xiàn)實投射所毒害,于是導(dǎo)致了模型崩潰
隨著AI生成數(shù)據(jù)造成的污染越來越嚴(yán)重,模型對現(xiàn)實的認(rèn)知會產(chǎn)生扭曲,未來抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練模型會越來越困難。
模型在學(xué)習(xí)新信息時會忘記以前的樣本,這就是災(zāi)難性遺忘
在下圖中,假設(shè)人工整理的數(shù)據(jù)開始是干凈的,然后訓(xùn)練模型0,并從中抽取數(shù)據(jù),重復(fù)這個過程到第n步,然后使用這個集合來訓(xùn)練模型n。通過蒙特卡洛采樣獲得的數(shù)據(jù),在統(tǒng)計意義上最好與原始數(shù)據(jù)接近。
這個過程就真實地再現(xiàn)了現(xiàn)實生活中互聯(lián)網(wǎng)的情況——模型生成的數(shù)據(jù)已經(jīng)變得無處不在。
此外,互聯(lián)網(wǎng)語料被污染還有一個原因——創(chuàng)作者對于抓取數(shù)據(jù)的AI公司的抗?fàn)帯?/span>
在今年早些時候,就有專家警告說,專注于通過抓取已發(fā)布內(nèi)容來創(chuàng)建AI模型的公司,與希望通過污染數(shù)據(jù)來捍衛(wèi)其知識產(chǎn)權(quán)的創(chuàng)作者之間的軍備競賽,可能導(dǎo)致當(dāng)前機器學(xué)習(xí)生態(tài)系統(tǒng)的崩潰。
這一趨勢將使在線內(nèi)容的構(gòu)成從人工生成轉(zhuǎn)變?yōu)闄C器生成。隨著越來越多的模型使用其他機器創(chuàng)建的數(shù)據(jù)進(jìn)行訓(xùn)練,遞歸循環(huán)可能導(dǎo)致「模型崩潰」,即人工智能系統(tǒng)與現(xiàn)實分離。
貝里維爾機器學(xué)習(xí)研究所(BIML)的聯(lián)合創(chuàng)始人Gary McGraw表示,數(shù)據(jù)的退化已經(jīng)在發(fā)生——
「如果我們想擁有更好的LLM,我們需要讓基礎(chǔ)模型只吃好東西,如果你認(rèn)為他們現(xiàn)在犯的錯誤很糟糕,那么,當(dāng)他們吃自己生成的錯誤數(shù)據(jù)時又會發(fā)生什么?」
GPT-4耗盡全宇宙數(shù)據(jù)?全球陷入高質(zhì)量數(shù)據(jù)荒
現(xiàn)在,全球的大模型都陷入數(shù)據(jù)荒了。
高質(zhì)量的語料,是限制大語言模型發(fā)展的關(guān)鍵掣肘之一。
大型語言模型對數(shù)據(jù)非常貪婪。訓(xùn)練GPT-4和Gemini Ultra,大概需要4-8萬億個單詞。
研究機構(gòu)EpochAI認(rèn)為,最早在明年,人類就可能會陷入訓(xùn)練數(shù)據(jù)荒,那時全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。
去年11月,MIT等研究人員進(jìn)行的一項研究估計,機器學(xué)習(xí)數(shù)據(jù)集可能會在2026年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。
論文地址:https://arxiv.org/abs/2211.04325
OpenAI也曾公開聲稱自己數(shù)據(jù)告急。甚至因為數(shù)據(jù)太缺了,接連吃官司。
今年7月,著名UC伯克利計算機科學(xué)家Stuart Russell稱,ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」。
現(xiàn)在,為了盡可能多地獲取高質(zhì)量訓(xùn)練數(shù)據(jù),模型開發(fā)者們必須挖掘豐富的專有數(shù)據(jù)資源。
最近,Axel Springer與OpenAI的合作就是一個典型例子。
OpenAI付費獲得了Springer的歷史和實時數(shù)據(jù),可以用于模型訓(xùn)練,還可以用于回應(yīng)用戶的查詢。
這些經(jīng)過專業(yè)編輯的文本包含了豐富的世界知識,而且其他模型開發(fā)者無法獲取這些數(shù)據(jù),保證了OpenAI的優(yōu)勢。
毫無疑問,在構(gòu)建基礎(chǔ)模型的競爭中,獲取高質(zhì)量專有數(shù)據(jù)是非常重要的。
到目前為止,開源模型依靠公開的數(shù)據(jù)集進(jìn)行訓(xùn)練還能勉強跟上。
但如果無法獲取最優(yōu)質(zhì)的數(shù)據(jù),開源模型就可能會逐漸落后,甚至逐漸與最先進(jìn)的模型拉開差距。
很早以前,Bloomberg就使用其自有的金融文件作為訓(xùn)練語料庫,制作了BloombergGPT。
當(dāng)時的BloombergGPT,在特定的金融領(lǐng)域任務(wù)上超越了其他類似模型。這表明專有數(shù)據(jù)確實可以帶來差異。
OpenAI表示愿意每年支付高達(dá)八位數(shù)的費用,以獲取歷史和持續(xù)的數(shù)據(jù)訪問權(quán)限。
而我們很難想象開源模型的開發(fā)者們會支付這樣的成本。
當(dāng)然了,提高模型性能的方法不僅限于專有數(shù)據(jù),還包括合成數(shù)據(jù)、數(shù)據(jù)效率和算法改進(jìn),但看起來專有數(shù)據(jù)是開源模型難以跨越的一道障礙。