10倍英偉達(dá)GPU:大模型專(zhuān)用芯片一夜成名,來(lái)自谷歌TPU創(chuàng)業(yè)團(tuán)隊(duì)
我們知道,大模型到 GPT-3.5 這種千億體量以后,訓(xùn)練和推理的算力就不是普通創(chuàng)業(yè)公司所能承擔(dān)的了,人們用起來(lái)速度也會(huì)很慢。
但自本周起,這種觀念已成為歷史。
有名為 Groq 的初創(chuàng)公司開(kāi)發(fā)出一種機(jī)器學(xué)習(xí)處理器,據(jù)稱(chēng)在大語(yǔ)言模型任務(wù)上徹底擊敗了 GPU—— 比英偉達(dá)的 GPU 快 10 倍,而成本僅為 GPU 的 10%,只需要十分之一的電力。
這是在 Groq 上運(yùn)行 Llama 2 的速度:
來(lái)源:https://twitter.com/emollick/status/1759633391098732967
這是 Groq(Llama 2)和 ChatGPT 面對(duì)同一個(gè) prompt 的表現(xiàn):
圖源:https://x.com/JayScambler/status/1759372542530261154?s=20
盡管看起來(lái)不可思議,但事實(shí)就是如此,感興趣的朋友不妨一試。
目前,Groq 的官網(wǎng)提供了試用體驗(yàn),有這些模型可選:
官網(wǎng)地址:https://groq.com/
Groq 的處理器名為 LPU(語(yǔ)言處理單元),是一種新型的端到端處理單元系統(tǒng),可以為具備序列組件的計(jì)算密集型應(yīng)用(比如 LLM)提供極快的推理速度。
它帶動(dòng)的大模型速度能達(dá)到前所未有的 500 Token/s,并且實(shí)現(xiàn)了極低的延遲。
用硬件加速軟件,總能給人一種力大磚飛的感覺(jué)。Groq 還在 LPU 上運(yùn)行了最新銳的開(kāi)源模型 Mixtral,模型在不到一秒的時(shí)間內(nèi)回復(fù)了包含數(shù)百個(gè)單詞的事實(shí)性的、引用的答案(其中四分之三的時(shí)間是用來(lái)搜索):
Groq 放出的 Demo 視頻下,有人評(píng)論道:這也太快了,不該這么快。
有網(wǎng)友因此提出建議:因?yàn)榇竽P蜕蓛?nèi)容的速度太快,所以從用戶體驗(yàn)的角度來(lái)看不應(yīng)該再自動(dòng)翻頁(yè)了,因?yàn)槿搜劭床贿^(guò)來(lái)。
或許在 LPU 的加持下,生成式 AI 真的要如同 Gartner 最近預(yù)測(cè)所言:在兩年內(nèi)對(duì)搜索引擎構(gòu)成巨大威脅了。仔細(xì)一想也確實(shí)合理,畢竟當(dāng)年神經(jīng)網(wǎng)絡(luò)就是被 GPU 算力的發(fā)展帶飛的。
至于為什么這么快?
有人分析,GPU 專(zhuān)為具有數(shù)百個(gè)核心的并行處理而設(shè)計(jì),主要用于圖形渲染,而 LPU 的架構(gòu)旨在為 AI 計(jì)算提供確定性的性能。
LPU 的架構(gòu)不同于 GPU 使用的 SIMD(單指令、多數(shù)據(jù))模型,而是采用更精簡(jiǎn)的方法,消除了對(duì)復(fù)雜調(diào)度硬件的需求。這種設(shè)計(jì)允許有效利用每個(gè)時(shí)鐘周期,確保一致的延遲和吞吐量。
能源效率是 LPU 相對(duì)于 GPU 的另一個(gè)值得注意的優(yōu)勢(shì)。通過(guò)減少與管理多個(gè)線程相關(guān)的開(kāi)銷(xiāo)并避免核心利用率不足,LPU 可以提供更多的每瓦計(jì)算量,將其定位為更環(huán)保的替代方案。
Groq 的芯片設(shè)計(jì)允許將多個(gè) TSP 連接在一起,不會(huì)出現(xiàn) GPU 集群中的傳統(tǒng)瓶頸,使其具有極高的可擴(kuò)展性。隨著更多 LPU 的添加,這可以實(shí)現(xiàn)性能的線性擴(kuò)展,從而簡(jiǎn)化大規(guī)模 AI 模型的硬件要求,并使開(kāi)發(fā)人員更輕松地?cái)U(kuò)展其應(yīng)用程序,而無(wú)需重新架構(gòu)其系統(tǒng)。
在 A100 和 H100 相對(duì)緊缺的時(shí)代,LPU 或許會(huì)成為大模型開(kāi)發(fā)商的新選擇。
Groq 成立于 2016 年,這家公司的創(chuàng)始團(tuán)隊(duì)出自谷歌,曾經(jīng)設(shè)計(jì)了谷歌自研 AI 芯片張量處理單元 TPU 系列。據(jù)官網(wǎng)介紹,Groq 公司創(chuàng)始人、首席執(zhí)行官 Jonathan Ross 曾經(jīng)承擔(dān)了 TPU 的 20% 工作。
Jonathan Ross。
在去年的高性能計(jì)算會(huì)議 SC23 上,Groq 就展示過(guò)在 LPU 上運(yùn)行 LLM 的全球最佳低延遲性能。當(dāng)時(shí),Groq 能夠以每秒超過(guò) 280 個(gè) Token 的速度生成回復(fù),刷新了 Llama-2 70B 推理的性能記錄。
今年 1 月,Groq 首次參與公開(kāi)基準(zhǔn)測(cè)試,就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成績(jī),遠(yuǎn)超其他基于云的推理提供商。
圖源:https://github.com/ray-project/llmperf-leaderboard?tab=readme-ov-file
人工智能已經(jīng)在科技界掀起了一場(chǎng)風(fēng)暴。2023 年可能是世界意識(shí)到人工智能將成為現(xiàn)實(shí)的一年,而 2024 年則是人工智能真正成為現(xiàn)實(shí)而不僅僅是假設(shè)的一年。這是 Jonathan Ross 曾經(jīng)表達(dá)的一個(gè)觀點(diǎn)。
當(dāng)我們擁有 100 萬(wàn) Token 上下文的 Gemini Pro 1.5、每秒 500 Token 推理速度的 Groq、推理能力更進(jìn)一步的 GPT-5,夢(mèng)想還會(huì)遠(yuǎn)嗎?