新Scaling Law浮出水面!OpenAI內(nèi)部員工爆料下一代模型Orion性能堪憂 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
Scaling Law 最近被業(yè)內(nèi)不少人士唱衰,一方面以O(shè)penAI為代表大模型廠商們,基本上還是圍繞著GPT-4在探索周邊,雖說不是原地打轉(zhuǎn),但單就性能提升而言,就連OpenAI自家的員工都爆料說非常有限。
1.OpenAI內(nèi)部人士:Orion性能提升遇到瓶頸
昨天,外媒媒體曝出消息稱,奧特曼一直吊胃口的下一代模型“Orion”,也被自家的兩位知情人士,坦承:GPT-4與Orion之間的質(zhì)量差距明顯小于GPT-3與GPT-4之間的差距,并透露截止到夏末,Orion在回答未經(jīng)訓(xùn)練的編碼問題時(shí)表現(xiàn)不佳,僅在語言處理能力方面顯示出提升。
這可影響大了,業(yè)界都在向著OpenAI學(xué)習(xí)、追趕,OpenAI的放緩自然也就意味著大模型進(jìn)展在放緩。
其實(shí),不止這些頭部的模型廠商面臨著規(guī)模定律的擴(kuò)大困境,就連算力有限,只能量化做小模型(例如只有1bit參數(shù)的BitNet,再有業(yè)內(nèi)很多基于Llama做量化的小模型)的那些機(jī)構(gòu)同樣也面臨著困境。
那接下來大模型的大小廠商們還能怎么走?除了o1的“慢思考推理”、強(qiáng)化學(xué)習(xí)外,規(guī)模定律短期還有別的出路嗎?
2.新規(guī)模定律來了
答案終于來了!
最近,哈佛、斯坦福大學(xué)發(fā)表了一篇研究論文《Scaling Laws of Precision》掀起了AI圈不小的波瀾,得到了許多研究人士的瘋狂轉(zhuǎn)發(fā)與討論。
圖片
論文中,研究人員進(jìn)行了一項(xiàng)新研究,指出精度(即模型中用于表示數(shù)字的比特?cái)?shù))在模型擴(kuò)展規(guī)律中比之前認(rèn)為的更為重要,可以顯著影響語言模型的性能。
研究人員指出,在以往描述模型性能隨參數(shù)量和訓(xùn)練數(shù)據(jù)量變化的擴(kuò)展規(guī)律基本忽略了精度這一因素。
3.大模型已經(jīng)被過度訓(xùn)練,Llama3越來越難以量化
論文作者之一Kumar指出了兩點(diǎn),一點(diǎn)是基于Llama3的量化越來越難,第二點(diǎn)則是發(fā)現(xiàn)提高數(shù)據(jù)精度可以提高量化的性能。
“由于模型在大量數(shù)據(jù)上過度訓(xùn)練,因此訓(xùn)練后量化變得更加困難,因此,如果在訓(xùn)練后量化,最終原來更多的預(yù)訓(xùn)練數(shù)據(jù)可能會造成危害!在預(yù)訓(xùn)練期間以不同的精度放置權(quán)重、激活或注意力的效果是一致且可預(yù)測的,并且擬合縮放定律表明,高精度(BF16)和下一代精度(FP4)的預(yù)訓(xùn)練可能都是次優(yōu)的設(shè)計(jì)選擇!”
圖片
具體實(shí)驗(yàn)上,研究團(tuán)隊(duì)進(jìn)行了超過465次訓(xùn)練,測試不同精度(3到16位)對模型的影響。實(shí)驗(yàn)使用的語言模型規(guī)模達(dá)到17億參數(shù),訓(xùn)練數(shù)據(jù)量達(dá)260億個(gè)tokens。研究發(fā)現(xiàn),過度訓(xùn)練的模型在訓(xùn)練后對量化處理更為敏感。模型如果在訓(xùn)練數(shù)據(jù)量遠(yuǎn)超“Chinchilla最優(yōu)”值20倍時(shí),即被視為過度訓(xùn)練,這次實(shí)驗(yàn)測試的比率達(dá)到了1000倍。
研究人員首先對訓(xùn)練后量化模型權(quán)重的常用技術(shù)進(jìn)行了研究,發(fā)現(xiàn)訓(xùn)練時(shí)間越長/預(yù)訓(xùn)練期間用到的數(shù)據(jù)越多,模型對推理時(shí)的量化就越敏感,這解釋了為什么 Llama-3 可能更難量化。
“事實(shí)上,這種損失下降大致是預(yù)訓(xùn)練期間的token/參數(shù)比率的冪律,因此你可以提前預(yù)測臨界數(shù)據(jù)大小,如果你正在為量化模型提供服務(wù),則超過該臨界數(shù)據(jù)大小,對更多數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練將會產(chǎn)生積極影響?!?/p>
“直覺可能是,隨著你在更多數(shù)據(jù)上進(jìn)行訓(xùn)練,越來越多的知識被壓縮為權(quán)重,給定的擾動將對性能造成更大的損害。 ”
下面是一個(gè)固定語言模型,該模型對各種數(shù)據(jù)預(yù)算進(jìn)行了過度訓(xùn)練,最高可達(dá) 300 億個(gè) token,之后進(jìn)行訓(xùn)練后量化。這表明,更多的預(yù)訓(xùn)練 FLOP 并不一定能帶來更好的生產(chǎn)模型。具體的實(shí)驗(yàn)數(shù)字和圖示如下:
圖片
(左)以固定的模型大小,針對不同的數(shù)據(jù)量在BF16精度下進(jìn)行訓(xùn)練,并在最后對權(quán)重進(jìn)行量化。研究發(fā)現(xiàn),由于訓(xùn)練后量化所導(dǎo)致的性能下降會隨著預(yù)訓(xùn)練期間觀察到的標(biāo)記(token)數(shù)量的增加而增加,因此,最終額外的預(yù)訓(xùn)練數(shù)據(jù)可能會產(chǎn)生負(fù)面影響。
(右)我們的擴(kuò)展研究表明,根據(jù)論文中的成本模型,以較低的精度訓(xùn)練更大的模型可能是計(jì)算上最優(yōu)的選擇。權(quán)重、激活值、注意力機(jī)制均進(jìn)行了量化,所有模型均在同一數(shù)據(jù)量下進(jìn)行訓(xùn)練,具體細(xì)節(jié)見附錄H。
然后該研究將注意力轉(zhuǎn)向低精度訓(xùn)練,主要研究量化感知訓(xùn)練(僅權(quán)重)和低精度訓(xùn)練。該研究將模型分解為權(quán)重、激活和 KV 緩存,找到其中任何一個(gè)量化到任意精度時(shí)損失的 Scaling Law,并開發(fā)一種組合且可解釋的函數(shù)形式來預(yù)測在預(yù)訓(xùn)練期間,量化這三者的任意組合對損失的影響。
4.新Scaling Law:精度擴(kuò)展定律
作者介紹道,新發(fā)現(xiàn)的精度擴(kuò)展定律依賴于“有效參數(shù)數(shù)量”的概念,“我們假設(shè)它是在固定數(shù)量的真實(shí)參數(shù)下降低精度時(shí)減少的數(shù)量,因此在 FP4 中訓(xùn)練的 10 億參數(shù)模型具有與 BF16 中的 2.5億參數(shù)模型相當(dāng)?shù)摹行?shù)’數(shù)量?!?/p>
雖然權(quán)重可以在低精度下訓(xùn)練而不會出現(xiàn)問題,但激活和 KV 緩存卻很敏感。下面是標(biāo)準(zhǔn)化的“有效參數(shù)計(jì)數(shù)”,作為每個(gè)(權(quán)重、激活、KV 緩存)的精度函數(shù),以及當(dāng)它們都保持相同精度(綁定)時(shí),基于我們的擬合。
圖片
實(shí)驗(yàn)還揭示了基于新擴(kuò)展規(guī)律的計(jì)算最優(yōu)精度。研究表明,當(dāng)模型參數(shù)、數(shù)據(jù)和精度聯(lián)合優(yōu)化時(shí),這一最優(yōu)精度通常獨(dú)立于計(jì)算預(yù)算。劃重點(diǎn):下面的結(jié)論很重要——
首先,通過實(shí)驗(yàn),研究人員制定了新的精度縮放定律。另一項(xiàng)重要發(fā)現(xiàn)則提出了預(yù)訓(xùn)練期間計(jì)算的最優(yōu)精度。根據(jù)該研究,當(dāng)同時(shí)優(yōu)化參數(shù)數(shù)量、數(shù)據(jù)和精度時(shí),這一精度通常與計(jì)算預(yù)算無關(guān)。
其次,普遍采用的16位模型訓(xùn)練法并非最優(yōu),因?yàn)楹芏辔皇嵌嘤嗟?。然而,使?位進(jìn)行訓(xùn)練則需要不成比例地增加模型大小,以維持損失縮放。研究人員的計(jì)算表明,對于較大的模型而言,7-8位是計(jì)算最優(yōu)的。
但是,當(dāng)模型大小從一開始就固定時(shí),情況就會發(fā)生變化:更大且訓(xùn)練更好的模型應(yīng)以更高的精度進(jìn)行訓(xùn)練——例如,使用16位的Llama 3.1 8B模型。
然而,實(shí)際的計(jì)算節(jié)省還取決于硬件對更低精度的支持。此外,這里研究的模型(參數(shù)最多達(dá)17億個(gè))尚未在最大的實(shí)際規(guī)模上進(jìn)行測試。不過,這些一般趨勢仍然適用于更大的模型。
5.寫在最后OpenAI或轉(zhuǎn)向?qū)S心P突驊?yīng)用
正如文章開頭提到的,OpenAI難產(chǎn)的下一代大模型,如果按照此前的設(shè)想,將會面臨短期難以克服的困難:模型的參數(shù)規(guī)模沒有更大的算力儲備,即便儲備充足,這一新模型也會在數(shù)據(jù)中心的運(yùn)行成本只會更加昂貴,再者還有一個(gè)硬傷:
這也是OpenAI內(nèi)部研究人員指出的,高質(zhì)量訓(xùn)練數(shù)據(jù)的缺乏是性能提升放緩的原因之一,因?yàn)榇蟛糠止_的文本和數(shù)據(jù)已被使用。為此,OpenAI創(chuàng)建了一個(gè)由Nick Ryder領(lǐng)導(dǎo)的“基礎(chǔ)團(tuán)隊(duì)”(Foundations Team),以應(yīng)對數(shù)據(jù)資源短缺問題。
這些都需要大量的時(shí)間等待去補(bǔ)足。
而哈佛、斯坦福的這篇研究也被很多AI圈人士看好,比如知名AI研究員Tim Dettmers,認(rèn)為這些結(jié)果揭示了量化的局限性。他預(yù)計(jì),隨著低精度帶來的效率提升達(dá)到極限,將出現(xiàn)從純規(guī)模擴(kuò)張向?qū)S媚P秃腿吮緫?yīng)用的轉(zhuǎn)變。
簡單理解,就是純規(guī)模擴(kuò)張的量化模型已迎來瓶頸,專用模型勢必在接下來一年大放異彩。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征
