量化成為時(shí)代標(biāo)準(zhǔn)!AI大神賈揚(yáng)清銳評(píng)Llama3.1:很難盈利、成本巨高、速度卻馬馬虎虎 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
不管開源還是閉源模型,最近量化小模型的風(fēng)頭正在蓋過大模型!
就在Llama3.1昨天正式發(fā)布以后,市面上一片興奮:開源模型可以比肩GPT-4o,國(guó)內(nèi)幾乎所有供應(yīng)商紛紛宣布接入Llama3.1的同時(shí),我們也看到了圈內(nèi)人士另一種聲音:
“405B模型太大了”、“難以盈利、成本很高、速度一般?!?/p>
緊接著,素以小模型著稱的Mistral AI也再一次用實(shí)力證明:Llama3.1真沒必要那么“參數(shù)浪費(fèi)”!
其今天剛剛發(fā)布的最新模型Mistral Large 2,參數(shù)只有123B,用不到三分之一的參數(shù)量性能就可以媲美Llama 3.1 405B,也不遜于GPT-4o、Claude 3 Opus等閉源模型。
這讓“大模型頂流er”們哪里說理去!
圖片
1.AI大神、博主:模型太大不會(huì)被采用!量化才是正解!
事實(shí)真相就是這樣。
AI大神賈揚(yáng)清今天發(fā)推文表示:Llama 3.1 405B 確實(shí)是一款難以盈利的機(jī)型。
如果你用一臺(tái)或半臺(tái)機(jī)器去運(yùn)行Llama3.1 405B,就會(huì)發(fā)現(xiàn)成本significant(巨高),速度卻so-so(馬馬虎虎)。
那好,既然自己運(yùn)行太高,我調(diào)用云廠商的接口還不行嗎?
圖片
賈揚(yáng)清又幫各位大模型愛好者們算了一筆賬,目前大多數(shù)供應(yīng)商調(diào)用405B的定價(jià)保持在30個(gè)tokens/s左右,才能覆蓋住商業(yè)價(jià)值。對(duì)比來看,70B模型則更實(shí)惠多了,能達(dá)到150tokens/s以上。
圖片
不過賈揚(yáng)清,表示即便405B的性價(jià)比不高,“但依然可以收支平衡,這取決于良好的優(yōu)化和良好的工作量飽和度”,并同時(shí)提醒VC朋友們:“對(duì)于這個(gè)價(jià)格的純API服務(wù),不要期望像傳統(tǒng)SaaS那樣獲得80%的利潤(rùn)率?!?/p>
這還沒完,大神賈揚(yáng)清最后下結(jié)論了:量化(模型)將成為標(biāo)準(zhǔn)! 忘掉FP16吧,Int8/FP8才是出路!PS:Int8/FP8是指更小的神經(jīng)張量的數(shù)值類型,代表著大模型所需的空間資源和算力資源。
并給出了一定的量化建議:量化需要謹(jǐn)慎。一個(gè)尺度足以處理整個(gè)張量的時(shí)代一去不復(fù)返了,而是需要進(jìn)行channel/group的量化,以保證質(zhì)量不會(huì)下降。
同時(shí),賈揚(yáng)清還預(yù)測(cè)405B會(huì)因?yàn)樗俣群蛢r(jià)格的原因,采用和接受度會(huì)受到持續(xù)的影響。當(dāng)然也Cue到了Mistral Large 2(123B),非常期待業(yè)內(nèi)的測(cè)試效果。
NLP博主“劉聰NLP”也表示對(duì)于Llama3.1的成本有一種無力感:對(duì)于絕大多數(shù)開發(fā)者,Llama3.1的8B和70B版本的能力的提高才更有意義。
圖片
劉聰指出:405B即使效果很棒,但是有多少企業(yè)有資格玩一把呢?個(gè)人玩家就更不用說了,光模型大小就820G,別說有沒有顯卡,也許都沒有820G磁盤空間下載都沒資格,太難了!
2.OpenAI也發(fā)現(xiàn)了這一點(diǎn)奧特曼不禁夸贊GPT-4o mini登頂
奧特曼也開始注意到mini模型更受開發(fā)者歡迎!
24日,就在Llama3.1讓市場(chǎng)興奮的同時(shí),奧特曼一條推特讓mini掰回了一局。
“我們盡量不對(duì)任何一次評(píng)估感到太過興奮,但很高興看到GPT-4o mini 在 lmsys 上的性能如此接近GPT-4o,而價(jià)格僅為其二十分之一。”
圖片
開放研究組織lmsys,昨天放出了一個(gè)Chatbot競(jìng)技場(chǎng)榜單更新,結(jié)果顯示:GPT-4o mini一躍排行榜榜首,與GPT-4o并列第一,但價(jià)格更便宜,只有后者的1/20!而且各項(xiàng)性能都要由于早期版本。
這個(gè)榜單通過4000+用戶的投票得到的,其中值得注意的是,在Hard Prompts和Coding Arena項(xiàng)中,GPT-4o mini依舊強(qiáng)悍。在數(shù)學(xué)任務(wù)上,GPT-4o mini也也跟turbo持平。
OpenAI創(chuàng)始成員 Karpathy在7月19日就曾發(fā)出一條推文表示:未來大模型的競(jìng)爭(zhēng)態(tài)勢(shì)是:先變小之后才能變大!
圖片
總結(jié)一下,量化模型的時(shí)代已經(jīng)來了!至于原因,小編認(rèn)為有兩點(diǎn):一、大模型側(cè)訓(xùn)練所需的數(shù)據(jù)和算力已經(jīng)出現(xiàn)了增長(zhǎng)瓶頸,二、在盈利之前,絕大多數(shù)開發(fā)者難以負(fù)擔(dān)大參數(shù)規(guī)模的成本。
最后,為各位奉上更小參數(shù)的Mistral Large 2下載鏈接,諸位不妨體驗(yàn)一把:
??https://huggingface.co/mistralai/Mistral-Large-Instruct-2407??
本文轉(zhuǎn)載自??51CTO技術(shù)棧???,作者:言征????
