有人預(yù)測GPT-4長這樣:比GPT-3略大、純文本、更注重最優(yōu)計算與對齊
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
不久前,谷歌發(fā)布基于他們最新一代人工智能架構(gòu)Pathways研發(fā)的 5400 億參數(shù)大模型——PaLM,具備標記因果關(guān)系、上下文理解、推理、代碼生成等等多項功能,其中常識推理能力更是較以往的語言模型有較大提升。
但同時,大家也一如既往地注意到 PaLM 的計算成本:用了6144塊TPU。如果租顯卡訓(xùn)練,最高花費可能達到1700萬美元(人民幣超過1個億,“一個小目標”)。
顯然,這很燒錢,不符合“經(jīng)濟可用”的原則。難怪業(yè)內(nèi)人士常常吐槽:苦大模型久矣。
如果模型往大走,一個勁地砸錢,何時是個盡頭?有學者也向AI科技評論表示:類似PaLM這樣的大模型在結(jié)果上確實取得了不錯的突破,但訓(xùn)練與計算的成本非常高,沒必要將許多任務(wù)拼在一起。
對于大模型的未來發(fā)展,GPT系列或許能提供一些新的見解。
近日,Cambrian AI的分析師Alberto Romero便發(fā)表了一篇文章,基于OpenAI首席執(zhí)行官Sam Altman在數(shù)月前的說法,推測GPT-4即將在今年7月到8月發(fā)布,并基于Altman在去年的一場問答,對GPT-4的特征進行了預(yù)測。
可以肯定的是,Altman稱,GPT-4的參數(shù)不會達到100T。
Alberto Romero也猜測,或許GPT-4的規(guī)模會比GPT-3略大,但“大”不會像GPT-3一樣成為GPT-4的“賣點”。相反,OpenAI更致力于如何讓規(guī)模較小的模型發(fā)揮更大的性能。
1 預(yù)測1:GPT-4不會太大
首先,Alberto判斷,GPT-4不會是最大的語言模型。Altman也稱它不會比GPT-3大很多。與前幾代的神經(jīng)網(wǎng)絡(luò)相比,GPT-4肯定會很大,但大小不會是它的顯著特征。GPT-4可能介于GPT-3和Gopher (175B-280B)之間。
接著,Alberto給出了他預(yù)測的理由:
去年由英偉達和微軟開發(fā)的Megatron-Turing NLG有530B參數(shù),一直是最大的密集神經(jīng)網(wǎng)絡(luò)——其大小已是GPT-3的3倍——直到最近出現(xiàn)了谷歌的PaLM,其大小為540B。但值得注意的是,MT-NLG之后的一些較小的模型達到了更高的性能水平。
也就是說,更大 ≠ 更好。小型模型的存在有兩個意義。
其一是,企業(yè)已經(jīng)意識到,要改善性能,擴大模型的規(guī)模不是唯一的方法,也不是最好的方法。2020年,OpenAI的Jared Kaplan和同事得出結(jié)論,當增加的計算預(yù)算主要分配到增加參數(shù)的數(shù)量上時,性能的提高是最顯著的,并且遵循冪律關(guān)系。谷歌、英偉達、微軟、OpenAI、DeepMind和其他開發(fā)語言模型的公司從表面上看接受了這一指導(dǎo)原則。
論文地址:https://arxiv.org/pdf/2001.08361.pdf
MT-NLG雖然規(guī)模很大,但在性能方面并不是最好的。事實上,它在任何單一類別基準上都不是最好的存在。像Gopher (280B)或Chinchilla (70B)這種更小的模型——哪怕僅僅是其一小部分——在任務(wù)上的表現(xiàn)都比MT-NLG好得多。
第二個意義是,公司開始拒絕“越大越好”的教條。雖然增加參數(shù)很簡單,但是擁有更多參數(shù)只是眾多可以提高性能的因素之一,而附帶損害(如碳足跡、計算成本或進入死路)反而使其成為最糟糕的因素之一。如果企業(yè)能夠從一個較小的模型中獲得類似或更好的結(jié)果時,在構(gòu)建一個龐大的模型之前就會三思而后行。
Altman說,他們不再專注于制造非常大的模型,而是致力于讓較小的模型發(fā)揮最大的作用。OpenAI的研究人員是縮放假設(shè)(scaling hypothesis)早期的倡導(dǎo)人,但現(xiàn)在他們可能已經(jīng)意識到其他還沒走過的路可以改進模型。
相比將GPT-4做大,Alberto更傾向于認為,OpenAI會將把重點轉(zhuǎn)移到其他方面——比如數(shù)據(jù)、算法、參數(shù)化或?qū)R——這些因素可以更顯著地改進模型。
2 預(yù)測2:GPT-4試圖尋找“最優(yōu)”
當涉及到優(yōu)化時,語言模型會遇到一個關(guān)鍵的問題。訓(xùn)練如此昂貴,以至于企業(yè)不得不在準確性和成本之間做出權(quán)衡。而這種抉擇常常會導(dǎo)致模型明顯未優(yōu)化。
GPT-3只被訓(xùn)練了一次,仍有一些錯誤,這些錯誤在某些情況下可能會導(dǎo)致重新訓(xùn)練。由于成本太高、負擔不起,OpenAI決定不進行優(yōu)化,而這使得研究人員無法找到模型的最佳超參數(shù)集(例如學習速率、批尺寸、序列長度等)。
訓(xùn)練成本很高導(dǎo)致的另一個后果是模型行為的分析受到限制。當Kaplan的團隊總結(jié)出模型大小是提高性能最相關(guān)的變量時,他們沒有考慮到訓(xùn)練令牌的數(shù)量——也就是輸入模型的數(shù)據(jù)量。這樣做將需要大量的計算資源。
科技公司遵循Kaplan的結(jié)論,因為這已是他們所知最好的想法。諷刺的是,正是受到經(jīng)濟限制的影響,谷歌、微軟、Facebook和其他公司在越來越大的模型上“浪費”了數(shù)百萬美元,并且在這個過程中產(chǎn)生了大量的污染。
現(xiàn)在,以DeepMind和OpenAI為首的公司正在探索其他方法。他們試圖找到最優(yōu)模型,而不僅僅是更大的模型。
最佳參數(shù)化
上個月,微軟和OpenAI證明,如果使用最優(yōu)超參數(shù)訓(xùn)練模型,GPT-3可以得到進一步的改進。他們發(fā)現(xiàn),6.7B版GPT-3的性能提高了很多,可以與最初的13B版GPT-3媲美。超參數(shù)調(diào)優(yōu)(對于較大的模型來說不可行)賦予的性能提升相當于參數(shù)數(shù)量增加了一倍。
他們發(fā)現(xiàn)了一種新的參數(shù)化(μP),在這種參數(shù)化中,小型模型的最佳超參數(shù)也同樣適用于同類大型模型。μP使他們能夠優(yōu)化任意大小的模型,而且只需花費很小一部分的培訓(xùn)成本。然后這些超參數(shù)可以幾乎不花錢地轉(zhuǎn)移到更大的模型中。
最優(yōu)計算模型
幾周前,DeepMind重新審視了Kaplan的發(fā)現(xiàn),并意識到訓(xùn)練令牌的數(shù)量與模型大小一樣影響性能,而這與人們的看法相反。他們的結(jié)論是,隨著更多的計算預(yù)算可用,應(yīng)該將其平均分配給可縮放參數(shù)和數(shù)據(jù)。他們通過訓(xùn)練Chinchilla來證明自己的假設(shè),Chinchilla是一個70B模型(是曾經(jīng)的SOTA,比Gopher小4倍),它使用的數(shù)據(jù)是GPT-3 (1.4T令牌-來自典型的300B)以來所有大型語言模型的4倍。
結(jié)果是明確的。在許多語言基準測試中,Chinchilla“一致且顯著地”優(yōu)于Gopher、GPT-3、MT-NLG和所有其他語言模型,而目前的模型有過大的問題,且訓(xùn)練不足。
考慮到GPT-4將略大于GPT-3,根據(jù)DeepMind的發(fā)現(xiàn),GPT-4需要達到計算優(yōu)化的訓(xùn)練令牌數(shù)量將約為5萬億,比當前的數(shù)據(jù)集高出一個數(shù)量級。他們需要訓(xùn)練模型以達到最小訓(xùn)練損失的失敗次數(shù),將比他們使用GPT-3(使用Gopher的計算預(yù)算作為代替)時多10 - 20倍。
Altman在問答中說GPT-4將比GPT-3使用更多的計算時,可能就是在指這一點。
OpenAI肯定會對GPT-4進行優(yōu)化相關(guān)的調(diào)查——盡管具體到什么程度還無法預(yù)測,因為他們的預(yù)算是未知的??梢钥隙ǖ氖牵琌penAI將專注于優(yōu)化除模型大小之外的其他變量。找到超參數(shù)的最佳集合,最優(yōu)計算模型大小和參數(shù)的數(shù)量可以在所有基準測試中帶來難以置信的改進。如果將這些方法合并到一個模型中,那這個模型將會達到一個所有預(yù)測都難以想象的高度。
Altman還說,如果不把模型做大,人們就不會相信模型能有多好。他可能是指擴大模型尺寸的工作目前已經(jīng)結(jié)束。
3 預(yù)測3:GPT-4將是一個純文本模型
深度學習的未來是多模態(tài)模型。人類的大腦有多種感覺,這是因為我們生活在一個多模態(tài)的世界。每次只以一種模式感知世界,極大地限制了人工智能處理或理解世界的能力。
然而,良好的多模態(tài)模型比良好的僅用語言或僅用視覺的模型要難得多。將視覺信息和文本信息組合成單一的表示形式是一項艱巨的任務(wù)。我們對大腦是如何做到這一點的了解非常有限(并不是說深度學習社區(qū)考慮了認知科學對大腦結(jié)構(gòu)和功能的見解),所以我們不知道如何在神經(jīng)網(wǎng)絡(luò)中實施。
Altman在問答中說GPT-4不會是多模態(tài)的(像DALL·E或LaMDA那樣),而是一個純文本模型。因此,Alberto的猜測是,在跳到下一代多模態(tài)人工智能之前,他們試圖通過對模型和數(shù)據(jù)集大小等因素進行調(diào)整來達到語言模型的極限。
4 預(yù)測4:GPT-4將是一個密集模型
稀疏模型利用條件計算,使用模型的不同部分處理不同類型的輸入。稀疏模型最近取得了巨大的成功,其可以很容易地擴展到超過1T參數(shù)標記,而不會產(chǎn)生高額的計算成本,能夠在模型大小和計算預(yù)算之間創(chuàng)建一個看似正交的關(guān)系。然而,MoE方法的好處在非常大的模型上就沒那么多了。
考慮到OpenAI關(guān)注密集語言模型的歷史,Alberto認為,GPT-4大概率也將是一個密集模型。又因為Altman說GPT-4不會比GPT-3大很多,我們可以得出結(jié)論,稀疏性不是OpenAI的選擇——至少目前是這樣。
鑒于人工智能的靈感來源,即人類大腦,嚴重依賴于稀疏處理。與多模態(tài)一樣,稀疏性很可能會主導(dǎo)未來幾代的神經(jīng)網(wǎng)絡(luò)。
5 預(yù)測5:GPT-4會比GPT-3更對齊
OpenAI在解決AI對齊問題上投入了大量的精力:如何讓語言模型遵循我們的意圖并堅持我們的價值觀——不管這到底意味著什么。這不僅是一個數(shù)學難題(例如,我們?nèi)绾巫屓斯ぶ悄軠蚀_理解我們想要的東西?),而且也是一個哲學難題(比如沒有一種通用的方法可以讓人工智能與人類保持一致,因為人類價值觀在不同群體之間的差異是巨大的,而且常?;ハ鄾_突)。
他們使用InstructGPT進行了第一次嘗試,這是一種通過人類的反饋來學習遵守指令的新GPT-3(不管這些指令是出于好意還是惡意,都沒有被納入模型中)。
InstructGPT的主要突破在于,不管其在語言基準上的結(jié)果如何,其都被人類評審認為是一個更好的模型(這些評審是一個由OpenAI員工和英語人士構(gòu)成的同質(zhì)的群體,所以我們應(yīng)該對得出的結(jié)論保持謹慎的態(tài)度)。這顯著表明,我們有必要克服把基準作為評估人工智能能力的唯一指標。人類如何感知這些模型可能同樣重要,如果不是更重要的話。
考慮到Altman和OpenAI要遵守作為一個有益AGI的承諾,我相信GPT-4將實現(xiàn)并構(gòu)建他們從InstructGPT中獲得的發(fā)現(xiàn)。
我認為他們將改進對齊模式的方式,因為目前為這個模型制作標簽的僅限于OpenAI員工和英語人士。而真正的對齊應(yīng)該包括各種性別、種族、國籍、宗教等方面群體。這是一個巨大的挑戰(zhàn),朝著這個目標邁進的任何一步都將受到大眾的歡迎。
6 總結(jié)
模型大小:GPT-4將比GPT-3大,但與目前最大的模型(MT-NLG 530B和PaLM 540B)相比不是很大。模型規(guī)模不會是一個顯著的特征。
最優(yōu)性:GPT-4將比GPT-3使用更多的計算。GPT-4 將實現(xiàn)對參數(shù)化(最優(yōu)超參數(shù))和比例法則(訓(xùn)練令牌的數(shù)量與模型大小同樣重要)的新優(yōu)化見解。
多模態(tài):GPT-4將是一個純文本模型,而不是多模態(tài)模型。OpenAI希望在完全跳到像DALL·E這樣的多模態(tài)模型之前先充分利用好語言模型。
稀疏性:按照GPT-2和GPT-3的趨勢,GPT-4將是一個密集模型(所有參數(shù)將用于處理任何給定的輸入)。在未來,稀缺性將變得更加重要。
對齊:GPT-4將比GPT-3更對齊,其將從InstructGPT進行學習,而InstructGPT是根據(jù)人類的反饋進行訓(xùn)練的。不過,人工智能的對齊還有很長的路要走,我們應(yīng)該仔細評估所做出的工作,而不應(yīng)該對此進行炒作。
你怎么看?