英偉達股價暴跌!或與 Llama 3 發(fā)布有關? 原創(chuàng)
Llama 3在Groq平臺運行速度超快
美國時間4月18日中午,Meta發(fā)布了Llama 3 大模型。該版本的模型經(jīng)過預訓練和指令微調(diào),參數(shù)分別為 8B 和 70B,可支持廣泛的用例。Llama 3在行業(yè)基準測試中展示了最先進的性能,包括改進的推理能力。Meta在發(fā)布的文章中聲稱Llama 3是目前同類產(chǎn)品中最好的開源模型。
4月19日凌晨,也就是Llama 3 發(fā)布12小時后,AI芯片公司Groq 發(fā)布在其 LPU? 推理引擎上運行的 Llama 3 8B (8k) 和 70B (4k, 8k),并通過 groq.com 和 GroqCloud? 控制臺提供給開發(fā)者社區(qū)。
“我比較了 Llama 3和 GPT-4,讓它們用 Python 編寫一個蛇形游戲,看看速度有何不同!” 計算機教授Alvaro Cintas用Groq運行Llama 3,并直觀地對比了Llama3和GPT-4的生成速度。
據(jù)OthersideAI創(chuàng)始人 Matt Shumer在X.com的發(fā)帖及其他幾位知名用戶的描述,Groq系統(tǒng)在運行LLaMA 3模型時的推理速度極快,超過800 token/秒(T/s)。
你也可以通過Groq官網(wǎng)免費親自測試一下:
隨后,根據(jù)Artificial Analysis的獨立基準測試,Groq在Llama 3 8B和Llama 3 70B上的吞吐量分別達到877 token/秒和284 token/秒,是所有供應商中最高的2倍多。Groq 的產(chǎn)品還具有成本競爭力,兩款機型的價格均低于其他供應商。結(jié)合 Llama 3 大模型的高質(zhì)量,Groq 的產(chǎn)品非常有吸引力。
Groq的創(chuàng)新型AI芯片架構(gòu)
Groq,這家位于硅谷、資金雄厚的初創(chuàng)企業(yè),正在開發(fā)一種全新的處理器架構(gòu),專為深度學習中的矩陣乘法操作進行優(yōu)化。公司推出的Tensor Streaming Processor放棄了傳統(tǒng)CPU和GPU的緩存及復雜控制邏輯,轉(zhuǎn)而采用一種針對AI工作負載定制的簡化模式。
Groq的處理器架構(gòu)與Nvidia及其他主流芯片生產(chǎn)商的設計截然不同。Groq沒有選擇通用處理器適配AI的常規(guī)路徑,而是從零開始,專門開發(fā)了Tensor Streaming Processor以提升深度學習特有的計算模式。
這種從零構(gòu)建的策略使Groq能夠剔除不必要的電路,并針對AI推理中常見的高度可并行和重復性工作負載優(yōu)化數(shù)據(jù)流。Groq聲稱,這樣做不僅大幅降低了運行大型神經(jīng)網(wǎng)絡的延遲和能耗,也減少了成本,與市場上的主流產(chǎn)品相比有了顯著改進。
AI推理的能效正受到越來越多的關注。由于數(shù)據(jù)中心已成為電力的大戶,大規(guī)模AI的計算需求可能會顯著增加電力消耗。在保持推理性能的同時最小化能源消耗的硬件開發(fā),是實現(xiàn)大規(guī)模AI可持續(xù)發(fā)展的關鍵。Groq的Tensor Streaming Processor便是為此目的設計的。該處理器承諾能夠顯著降低運行大型神經(jīng)網(wǎng)絡的電力成本,相比傳統(tǒng)通用處理器顯示出顯著的優(yōu)勢。
Nvidia的霸主地位遭遇挑戰(zhàn)
4月19日,英偉達(Nvidia)股價暴跌10%,市值蒸發(fā)2117億美元,為美股史上第二大單日損失,幾乎跌掉一個AMD。
Nvidia目前在AI處理器市場中占據(jù)領先地位,其A100和H100 GPU成為大多數(shù)云AI服務的核心動力。然而,Groq、Cerebras、SambaNova和Graphcore這些資金充裕的初創(chuàng)企業(yè)正通過專為AI設計的新型架構(gòu)挑戰(zhàn)Nvidia的主導地位。
在這些競爭者中,Groq表現(xiàn)尤為活躍,不僅關注于訓練領域,更在推理技術方面積極推廣。Meta最近發(fā)布的Llama 3,作為目前最先進的開源語言模型之一,為Groq提供了展示其硬件推斷性能的良機。Meta宣稱這一模型能夠與市場上最優(yōu)的閉源模型匹敵,預計將廣泛應用于基準測試和多種AI場景。
如果Groq的硬件在運行LLaMA 3時能顯著超越現(xiàn)有主流產(chǎn)品的速度和效率,不僅能驗證其技術優(yōu)勢,還可能加速其技術的廣泛應用。結(jié)合Llama等強大的開源模型和Groq這類高效推理硬件,可能會讓AI技術更具成本效益,從而更易于被更多企業(yè)和開發(fā)者采用。盡管如此,Nvidia并不會輕易放棄市場領先地位,其他競爭者也在緊追不舍。
當前競爭的焦點在于構(gòu)建能與AI模型的快速發(fā)展相匹配的基礎設施,并拓展技術以滿足日益增長的應用需求。近乎實時的AI推理和低成本實現(xiàn),可能在電商、教育、金融、醫(yī)療等領域開啟革命性的新局面。
如X.com一位用戶所評價的基于Groq的Llama 3性能基準:“速度+低成本+高質(zhì)量=當前沒有理由選擇其他產(chǎn)品。”在新一代架構(gòu)挑戰(zhàn)傳統(tǒng)的浪潮中,AI的硬件基礎仍在不斷演進。
本文轉(zhuǎn)載自公眾號AIGC開發(fā)者,作者:阿橙AIGC
