圖靈獎得主LeCun加盟AI芯片黑馬Groq,估值28億挑戰(zhàn)英偉達(dá)!
英偉達(dá)又雙叒迎來強(qiáng)勁挑戰(zhàn)者了。
成立于2016年的初創(chuàng)公司Groq在最新一輪融資中籌集了 6.4 億美元,由 BlackRock Inc. 基金領(lǐng)投,并得到了思科和三星投資部門的支持。
目前,Groq的估值已經(jīng)達(dá)到28億美元。
公司創(chuàng)始人Jonathan Ross曾在谷歌從事TPU芯片的開發(fā),而Groq目前的頂梁柱LPU也是專門用于加速AI基礎(chǔ)模型,尤其是LLM。
Ross表示,一旦人們看到在Groq的快速引擎上使用大語言模型有多么方便,LLM的使用量將會進(jìn)一步增加。
以更低的價格和能耗,達(dá)到與英偉達(dá)芯片相同的速度,甚至更快,讓Groq有底氣叫板英偉達(dá)。
值得一提的是,Groq還宣布,圖靈獎得主LeCun即將擔(dān)任技術(shù)顧問。
LeCun的正式加入,成為Groq在競爭激烈的芯片領(lǐng)域一個強(qiáng)大的盟友。
每秒1256.54個token,快如閃電
天下武功,唯快不破。
而能打敗每秒響應(yīng)800個token的Groq只有下一代的Groq。
從500 token到800 token再到1256.54 token/s,Groq如此之快的速度可謂是讓一眾GPU望塵莫及。
隨著7月初新功能的低調(diào)發(fā)布,Groq現(xiàn)在的結(jié)果要比之前演示的要快得多,也智能得多,不僅支持文本查詢,還能輸入語音命令進(jìn)行查詢。
默認(rèn)情況下,Groq 的網(wǎng)站引擎使用Meta的開源Llama3-8b-8192大語言模型。
用戶還可以選擇更大的Llama3-70b,以及來自Google的Gemma和Mistral模型,并且很快也將支持其他模型。
這種快速且靈活的體驗對于開發(fā)者來說非常重要。在傳統(tǒng)AGI處理數(shù)據(jù)時,等待是稀松平常的事情,要看著字符一個一個吐出來再進(jìn)行下一步的操作。
而在最新版本的Groq中,以上任務(wù)幾乎全部瞬間回答,快如閃電。
舉個栗子。比如,在Groq上讓它評論VB Transform活動議程有哪些地方可以加以改進(jìn)。
1225.15token/s的速度——幾乎就在一瞬間回答就彈了出來。
而且內(nèi)容也十分詳細(xì)清楚,包括建議更清晰的分類、更詳細(xì)的會議描述和更好的演講者簡介等等,共十點修改意見。
當(dāng)語音輸入要求推薦一些優(yōu)秀的演講者以使陣容更加多樣化時,它立即生成了一份名單,姓名、所屬組織和可供選擇的演講主題給你安排的明明白白的,并且以清晰表格格式呈現(xiàn)。
要求它追加一列聯(lián)系方式,也瞬間補(bǔ)充好郵箱地址和推特賬號,不在話下。
再舉個栗子。視頻中巴拉巴拉說了一分多鐘,要求Groq為下周的演講課程創(chuàng)建一個日程表格。
Groq不僅耐心地聽懂了,創(chuàng)建了要求的表格,還允許快速輕松地進(jìn)行修改,包括拼寫更正。
還可以改變主意,要求它為我忘記要求的內(nèi)容創(chuàng)建額外的欄目,耐心高效細(xì)致,甲方眼里的完美乙方不過如此。
還可以翻譯成不同的語言。有時會出現(xiàn)發(fā)出了幾次請求才做出更正的情況,但這種錯誤一般是在LLM層面,而不是處理層面。
可以說,從500 token/s到800 token/s再到如今直接拉到每秒四位數(shù)的生成速度,把GPT-4和英偉達(dá)秒的更徹底了。
當(dāng)然,除了「快」之外,此次更新的另一亮點是除了引擎內(nèi)直接輸入查詢,還允許用戶通過語音命令進(jìn)行查詢。
Groq使用了OpenAI的最新開源的自動語音識別和翻譯模型Whisper Large v3,將語音轉(zhuǎn)換為文本,然后作為LLM的提示。
提速增效再加多模態(tài)輸入,不卡頓還能不打字,這種創(chuàng)新的使用方式為用戶提供了極大的便利。
Groq + Llama 3強(qiáng)強(qiáng)聯(lián)合
7月17日,Groq的研究科學(xué)家Rick Lamers又在推特上官宣了一個「秘密項目」——微調(diào)出的Llama3 Groq Synth Tool Use模型8B和70B型號 ,旨在提升AI的工具使用和函數(shù)調(diào)用能力。
團(tuán)隊結(jié)合了全量微調(diào)和直接偏好優(yōu)化(DPO),并且完全使用符合道德規(guī)范的生成數(shù)據(jù),沒有涉及任何用戶數(shù)據(jù)。
伯克利函數(shù)調(diào)用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的數(shù)據(jù)全部來源于真實世界,專門用于評估LLM調(diào)用工具或函數(shù)的的能力。
Groq本次發(fā)布的微調(diào)Llama3 8B和70B的版本都在BFCL上取得了相當(dāng)驚艷的成績,總體準(zhǔn)確率分別為90.76%和89.06%。
其中,70B版本的分?jǐn)?shù)超過了Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o和Gemini 1.5 Pro等專有模型,達(dá)到了BFCL榜單第一的位置。
兩個版本的模型都已開源,用戶可從HuggingFace上下載權(quán)重或通過GroqCloud訪問。
HugggingFace地址:https://huggingface.co/Groq
此外,Groq還在Llama 3的基礎(chǔ)上進(jìn)一步發(fā)揮自己「唯快不破」的秘籍,推出了一款名為Groqbook的應(yīng)用程序,可以在1分鐘內(nèi)內(nèi)生成出一整本書。
GitHub地址:https://github.com/Bklieger/groqbook
根據(jù)GitHub主頁的介紹,Groqbook混合使用了Llama3-8B和70B兩個模型,用較大模型生成結(jié)構(gòu),再讓較小模型創(chuàng)作具體內(nèi)容。
目前,這個程序只適用于非虛構(gòu)類書籍,并需要用戶輸入每一章節(jié)的標(biāo)題作為上下文。
Groq表示,未來將讓Groqbook生成整本書內(nèi)容,并擴(kuò)展到虛構(gòu)類書籍,創(chuàng)作出高質(zhì)量的小說。
開發(fā)者4個月突破28萬
解決了用戶使用的核心痛點,Groq自然備受使用者歡迎。
上線4個月后,Groq已經(jīng)開始免費提供服務(wù)來處理LLM工作負(fù)載,吸引了超過28.2萬名開發(fā)者使用。
Groq提供了一個平臺供開發(fā)者構(gòu)建他們的應(yīng)用程序,類似于其他推理服務(wù)提供商。
然而,Groq的特別之處在于,它允許在OpenAI上構(gòu)建應(yīng)用程序的開發(fā)者通過簡單的步驟在幾秒鐘內(nèi)將他們的應(yīng)用程序遷移到Groq。
Ross表示他將很快專注于需求量極大的企業(yè)市場。大公司正在廣泛推進(jìn)AI應(yīng)用的部署,因此需要更高效的處理能力來應(yīng)對他們的工作負(fù)載。
Groq表示,其技術(shù)在最壞情況下使用的功率約為GPU的三分之一,而大多數(shù)工作負(fù)載僅使用十分之一的功率。
在LLM工作負(fù)載不斷擴(kuò)展、能源需求持續(xù)增長的背景下,Groq的高效性能對GPU主導(dǎo)的計算領(lǐng)域構(gòu)成了挑戰(zhàn)。
Nvidia雖然擅長AI訓(xùn)練但在推理方面存在局限,Groq的芯片在推理速度和成本上都有數(shù)倍優(yōu)勢,未來推理市場的份額將從現(xiàn)在的5%提升到90%-95%。
Ross自信聲稱,到明年底將部署150萬個LPU,占據(jù)全球推理需求半壁江山。
LPU:快,真的快
目前來說,模型訓(xùn)練雖然首選GPU,但是部署AI應(yīng)用程序時,更高的效率和更低的延遲也極為重要。
正如Groq第一次闖入大眾視野是因為一個字,「快」,Groq此次提速繼續(xù)在速度的賽道狂飆。
Groq承諾可以比競爭對手更快更經(jīng)濟(jì)地完成任務(wù),在一定程度上得益于其語言處理單元(LPU)。
相比GPU,LPU減少了管理多個線程的開銷,并避免了核心利用率不足。此外,Groq 的芯片設(shè)計還允許連接多個專用核心,而不會出現(xiàn) GPU 集群中出現(xiàn)的傳統(tǒng)瓶頸。
LPU的工作原理和 GPU存在顯著差異,具體來說,LPU采用的是時序指令集計算機(jī)(Temporal Instruction Set Computer)架構(gòu),這一架構(gòu)的特性就是無需像依賴高帶寬存儲器(HBM)的GPU那樣,頻繁地從內(nèi)存中加載數(shù)據(jù)。
LPU不依賴外部內(nèi)存,其權(quán)重、鍵值緩存(KV Cache)和激活函數(shù)等數(shù)據(jù)在處理期間全部存儲在芯片內(nèi),不僅能夠巧妙規(guī)避HBM短缺所帶來的困擾,還能切實有效地削減成本。
與Nvidia GPU對高速數(shù)據(jù)傳輸?shù)囊蕾囉兴煌?,Groq的LPU在其系統(tǒng)架構(gòu)中并未采用HBM,而是選用了SRAM。
由于每塊芯片只配備了230MB的SRAM,沒有任何復(fù)雜的模型能夠僅通過單個芯片運行。值得一提的是,SRAM的速度相較GPU所使用的存儲器約快20倍。
鑒于AI的推理計算所需的數(shù)據(jù)量相較于模型訓(xùn)練大幅減少,Groq的LPU展現(xiàn)出更為出色的節(jié)能優(yōu)勢。
在執(zhí)行推理任務(wù)時,其從外部內(nèi)存讀取的數(shù)據(jù)量顯著降低,所消耗的電量也明顯低于GPU。
遺憾的是,英偉達(dá)的GPU可以同時用于訓(xùn)練和推理,但LPU僅為模型推理設(shè)計。