賈揚(yáng)清:大模型尺寸正在重走CNN的老路;馬斯克:在特斯拉也是這樣
Transformer大模型尺寸變化,正在重走CNN的老路!
看到大家都被LLaMA 3.1吸引了注意力,賈揚(yáng)清發(fā)出如此感慨。
拿大模型尺寸的發(fā)展,和CNN的發(fā)展作對比,就能發(fā)現(xiàn)一個明顯的趨勢和現(xiàn)象:
在ImageNet時代,研究人員和技術(shù)從業(yè)者見證了參數(shù)規(guī)模的快速增長,然后又開始轉(zhuǎn)向更小、更高效的模型。
聽起來,是不是和GPT哐哐往上卷模型參數(shù),業(yè)界普遍認(rèn)同Scaling Law,然后出現(xiàn)GPT-4o mini、蘋果DCLM-7B、谷歌Gemma 2B如出一轍?
賈揚(yáng)清笑稱,“這是前大模型時代的事兒,很多人可能都不咋記得了:)”。
圖片
而且,賈揚(yáng)清不是唯一一個感知到這一點(diǎn)的人,AI大神卡帕西也這么覺得:
大模型尺寸的競爭正在加劇……但是卷的方向反著來了!
模型必須先追求“更大”,然后才能追求“更小”,因?yàn)槲覀冃枰@個過程,幫咱把訓(xùn)練數(shù)據(jù)重構(gòu)成理想的、合成的格式。
他甚至拍著胸脯打賭,表示我們一定能看到又好、又能可靠地思考的模型。
而且是參數(shù)規(guī)模很小很小的那種。
圖片
連馬斯克都在卡帕西的評論區(qū)連連稱是:
圖片
以上,大概可以稱之為“大佬所見略同”。
展開說說
賈揚(yáng)清的感慨,要從只在最強(qiáng)王座上短暫待了一天的LLaMA 3.1說起。
那是首次實(shí)現(xiàn)“最強(qiáng)開源模型=最強(qiáng)模型”,不出意外,萬眾矚目。
However,賈揚(yáng)清在這個時候提出了一個觀點(diǎn):
“但我認(rèn)為,行業(yè)會因小型垂直模型而真正蓬勃發(fā)展?!?/p>
至于啥是小型垂直模型,賈揚(yáng)清也說得很清楚,比如以Patrouns AI的Iynx(該公司的幻覺檢測模型,在幻覺任務(wù)上超過GPT-4o)為代表的那些很棒的中小模型。
圖片
賈揚(yáng)清表示,就個人喜好而言,他本人是非常喜歡千億參數(shù)模型的。
但現(xiàn)實(shí)情況里,他觀察留意到,7B-70B參數(shù)規(guī)模之間的大模型,大家用起來更順手:
- 它們更容易托管,不需要巨大的流量即可盈利;
- 只要提出明確的問題,就能得到質(zhì)量還不錯的輸出——與和之前的一些看法相反。
與此同時,他聽說OpenAI最新的、速度很快的模型也開始變得比“最先進(jìn)的”大模型尺寸更小。
“如果我的理解是正確的,那么這絕對表明了行業(yè)趨勢?!辟Z揚(yáng)清直接表明了自己的觀點(diǎn),“即在現(xiàn)實(shí)世界中,使用適用的、具有成本效益、且仍然強(qiáng)大的模型?!?/p>
于是乎,賈揚(yáng)清簡單梳理了CNN的發(fā)展歷程。
首先,是CNN的崛起時代。
以AlexNet(2012)為起點(diǎn),開啟了大約三年的模型規(guī)模增長時期。
2014年出現(xiàn)的VGGNet就是一個性能和規(guī)模都非常強(qiáng)大的模型。
其次,是縮小規(guī)模時期。
2015年,GoogleNet把模型大小從“GB”縮小到了“MB”級別,即縮小了100倍;但模型性能并沒有因此驟減,反而保持了不錯的性能。
遵循類似趨勢的還有2015年面世的SqueezeNet模型等。
然后的一段時間,發(fā)展重點(diǎn)在追求平衡。
后續(xù)研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一個適中的模型規(guī)模。
值得注意的是,模型規(guī)模的控制并沒有帶來計算量的減少——其實(shí),大伙兒都愿意投入更多的計算資源,尋求一種“同等參數(shù)但更高效”的狀態(tài)。
緊接著就是CNN在端側(cè)起舞的一段時期。
舉個例子,MobileNet是谷歌在2017年推出的一項(xiàng)有趣的工作。
有趣就有趣在它占用的資源超級少,但是性能卻非常優(yōu)異。
就在上周,還有人跟賈揚(yáng)清提到:“Wow~我們現(xiàn)在還在用MobileNet,因?yàn)樗梢栽谠O(shè)備上運(yùn)行,而且在出色的特征嵌入泛化(Feature Embedding Generality)?!?/p>
最后,賈揚(yáng)清借用了來源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一張圖:
圖片
并再一次發(fā)出自己的疑問:
大模型尺寸,會遵循與CNN時代相同的趨勢來發(fā)展嗎?
網(wǎng)友怎么看?
其實(shí)GPT-4o mini這樣走在大模型發(fā)展道路上“不大反小”的例子不在少數(shù)。
當(dāng)上述幾位表達(dá)出這樣的觀點(diǎn)后,立馬有人點(diǎn)頭如搗蒜,還拿出了一些別的類似例子,證明他們看到了相同的趨勢。
有人立馬跟上:
我這兒有個新的正面例子!Gemma-2就是把27B參數(shù)大小的模型知識蒸餾成更小的版本。
圖片
還有網(wǎng)友表示,開發(fā)更大的模型,意味著能給后續(xù)幾代更小、更垂直的模型的訓(xùn)練“上強(qiáng)度”。
這個迭代過程最終會產(chǎn)生所謂的“完美訓(xùn)練集”。
這樣一來,較小的大模型在特定領(lǐng)域,能與現(xiàn)在參數(shù)巨大的大模型一樣聰明,甚至更聰明。
一言以蔽之,模型必須先變大,然后才能變小。
圖片
大多數(shù)討論此觀點(diǎn)的人,還是對這個趨勢比較認(rèn)同,有人直言“這是一件好事,比‘我的模型比你的模型大’參數(shù)競賽更實(shí)用和有用?!?/p>
但是,當(dāng)然了!
翻遍網(wǎng)絡(luò)評論區(qū),也有人發(fā)出不同的聲音。
比如下面這位朋友就在賈揚(yáng)清推文底下留言:
Mistral Large(背后公司Mistral AI)、LLaMA 3.1(背后公司Meta)和OpenAI,持有最強(qiáng)競爭力模型的公司,目前可能都正在訓(xùn)練更大的模型。
我沒發(fā)現(xiàn)有“更小型號模型搞定技術(shù)突破”的趨勢喲。
圖片
面對這個問題,賈揚(yáng)清倒也及時回復(fù)了。
他是這么說的:“沒錯!我說大模型尺寸可能在走CNN的老路,絕對不意味著號召大家停止訓(xùn)練更大的模型?!?/p>
他進(jìn)一步解釋道,這么說的本意是,隨著技術(shù)(包括CNN和大模型)落地實(shí)踐越來越廣,大家已經(jīng)開始越來越關(guān)注性價比更高的模型了?!?/p>
所以,或許更高效的小·大模型,能夠重新定義AI的“智能”,挑戰(zhàn)“越大越好”的假設(shè)。
你贊同這個觀點(diǎn)不?
參考鏈接:
[1]https://x.com/jiayq/status/1818703217263624385