運(yùn)行LIama2得8400萬元!最快AI推理芯片成本推算引熱議
想實(shí)現(xiàn)史上最快大模型推理,得要1171萬美元(8410萬元)???
同等項(xiàng)目下,使用英偉達(dá)GPU成本只需30萬美元……
關(guān)于最強(qiáng)AI芯片易主Groq,可能得讓子彈再飛一會(huì)兒了。
這兩天,Groq驚艷亮相。它以號(hào)稱“性價(jià)比高英偉達(dá)100倍”的芯片,實(shí)現(xiàn)每秒500tokens大模型生成,感受不到任何延遲。外加谷歌TPU團(tuán)隊(duì)這樣一個(gè)高精尖人才Buff,讓不少人直呼:英偉達(dá)要被碾壓了……
喧囂過后開始出現(xiàn)一些理智討論,其中主要還是針對(duì)Groq的效益成本問題。
網(wǎng)友粗略一算,現(xiàn)在演示Demo就需要568塊芯片,花費(fèi)1171萬美元。
于是乎,業(yè)內(nèi)業(yè)外各界人士不約而同地展開了一場(chǎng)算術(shù)大法。
甚至出現(xiàn)了位分析師,拿著表格現(xiàn)身說法……
并感嘆了句:OK,everybody is doing public math this week.
不過Groq也第一時(shí)間在社交網(wǎng)絡(luò)上進(jìn)行了回應(yīng)。
“每個(gè)人都在做數(shù)學(xué)”
參與到Groq成本問題討論的,有計(jì)算機(jī)學(xué)生,也有同提供推理服務(wù)的云廠商,甚至還有Groq前員工大戰(zhàn)現(xiàn)員工……好不熱鬧。
摘取幾個(gè)有代表性的,我們來看看大家都是如何看待的。
首先一個(gè)粗略估計(jì),一張卡的價(jià)格約為2萬美元,內(nèi)存又僅為0.23GB。
那么為單個(gè)LLama 70B模型服務(wù),就需要購(gòu)買大約320張卡(實(shí)際上更多),包括服務(wù)器在內(nèi)大約花費(fèi)1千萬美元……
而要是跟英偉達(dá)的H100對(duì)比,情況又是如何?
Lepton的賈揚(yáng)清也參與進(jìn)來,算了一筆賬。除了基本價(jià)格,他還從能源功耗、性能、運(yùn)營(yíng)成本等角度進(jìn)行了分析。
最終總結(jié)出這幾個(gè)核心觀點(diǎn):
- 對(duì)于LLaMA 70b模型,使用572張卡來計(jì)算,每年電費(fèi)將花費(fèi)25.4萬美元;
- 使用4張H100卡可以實(shí)現(xiàn)Groq一半的性能,如今8卡H100盒子的價(jià)格約為30萬美元。
- 如果運(yùn)營(yíng)三年,Groq 的硬件采購(gòu)成本為1144萬美元,運(yùn)營(yíng)成本為76.2萬美元。相比起來H100采購(gòu)和運(yùn)營(yíng)成本更低。
值得一提的是,在Groq給出的基準(zhǔn)測(cè)試中,也包括了Lepton在內(nèi),推理速度大概是Lepton的三倍。
賈揚(yáng)清還透露,他跟Groq創(chuàng)始人是舊相識(shí)了:
在谷歌時(shí)就相互知道。
不過在這些討論中,也有其他算法。
比如有網(wǎng)友反應(yīng),按照單個(gè)Token價(jià)格這個(gè)維度來計(jì)算,情況又是如何呢?
沒關(guān)系,還有更專業(yè)的分析師會(huì)出手。
不過根據(jù)他的計(jì)算,每100萬Tokens的花費(fèi),Groq性價(jià)比是要高一些。
除此之外,還有一些其他的討論,像是否支持加速任何Transformer?
Groq在線答疑
由于大家過于關(guān)注,Groq忍不住親自下場(chǎng)解答。
是時(shí)候再發(fā)一個(gè)常見問題帖子來澄清了。
主要有以下幾點(diǎn):
- 采用開源模型,適應(yīng)我們的編譯器,然后運(yùn)行它,僅此而已。
- 我們token價(jià)格很實(shí)惠很高效,因?yàn)閺男酒较到y(tǒng)都自己搞,沒有中間商;
- 不會(huì)出售芯片,但第三方供應(yīng)商除外;公布的銷售數(shù)據(jù)有偏差。
- 我們的目標(biāo)客戶不是單卡用戶。
另外還在持續(xù)地在線答疑中……
所以Groq是否能真的撼動(dòng)住英偉達(dá)的地位,估計(jì)還得再等一等。
不過昨天英偉達(dá)股價(jià)倒是異動(dòng)了一波……