向英偉達發(fā)起挑戰(zhàn)的Groq是什么來頭?簡單科普新型AI芯片LPU
在如今的人工智能領域,「GPU is All You Need」已經逐漸成為共識。沒有充足的 GPU,連 OpenAI 都不能輕易升級 ChatGPT。
不過最近,GPU 的地位也在經受挑戰(zhàn):一家名為 Groq 的初創(chuàng)公司開發(fā)出了一種新的 AI 處理器 ——LPU(Language Processing Unit),其推理速度相較于英偉達 GPU 提高了 10 倍,成本卻降低到十分之一。
在一項展示中,LPU 以每秒超過 100 個詞組的驚人速度執(zhí)行了開源的大型語言模型 —— 擁有 700 億個參數(shù)的 Llama-2。下圖展示了它的速度,可以看到,人眼的閱讀速度根本跟不上 LPU 上模型的生成速度:
此外,它還在 Mixtral 中展示了自己的實力,實現(xiàn)了每個用戶每秒近 500 個 token。
這一突破凸顯了計算模式的潛在轉變,即在處理基于語言的任務時,LPU 可以提供一種專業(yè)化、更高效的替代方案,挑戰(zhàn)傳統(tǒng)上占主導地位的 GPU。
不過,原阿里技術副總裁、Lepton AI 創(chuàng)始人賈揚清發(fā)文分析稱,Groq 的實際部署成本可能遠高于預期。因為 Groq 的內存容量較小,運行同一模型(LLaMA 70B)最少需要 305 張 Groq 卡(實際需要 572 張),而使用英偉達的 H100 只需 8 張卡。從目前的價格來看,Groq 的硬件成本是 H100 的 40 倍,能耗成本是 10 倍。如果運行三年的話,Groq 的硬件采購成本是 1144 萬美元,運營成本是 76.2 萬美元或更高。8 卡 H100 的硬件采購成本是 30 萬美元,運營成本是 7.2 萬美元或略低。因此,雖然 Groq 的性能出色,但成本和能耗方面仍有待改進。
此外,Groq 的 LPU 不夠通用也是一大弱點,這使得它短期內很難撼動英偉達 GPU 的地位。
下文將介紹與 LPU 有關的一系列知識。
LPU 是什么?
究竟什么是 LPU?它的運作機制是怎樣的?Groq 這家公司是什么來頭?
根據(jù) Groq 官網(wǎng)介紹,LPU 是「language processing units(語言處理單元)」的縮寫。它是「一種新型端到端處理單元系統(tǒng),可為人工智能語言應用等具有序列成分的計算密集型應用提供最快的推理」。
還記得 2016 年 AlphaGo 擊敗世界冠軍李世石的那場歷史性圍棋比賽嗎?有趣的是,在他們對決的一個月前,AlphaGo 輸?shù)袅艘粓鼍毩曎?。在此之后,DeepMind 團隊將 AlphaGo 轉移到 TPU 上,大大提高了它的性能,從而以較大優(yōu)勢取得了勝利。
這一刻顯示了處理能力在充分釋放復雜計算潛能方面的關鍵作用。這激勵了最初在谷歌領導 TPU 項目的 Jonathan Ross,他于 2016 年成立了 Groq 公司,并由此開發(fā)出了 LPU。LPU 經過獨特設計,可迅速處理基于語言的操作。與同時處理多項任務(并行處理)的傳統(tǒng)芯片不同,LPU 是按順序處理任務(序列處理),因此在語言理解和生成方面非常有效。
打個比方,在接力賽中,每個參賽者(芯片)都將接力棒(數(shù)據(jù))交給下一個人,從而大大加快了比賽進程。LPU 的具體目標是解決大型語言模型 (LLM) 在計算密度和內存帶寬方面的雙重挑戰(zhàn)。
Groq 從一開始就采取了創(chuàng)新戰(zhàn)略,將軟件和編譯器的創(chuàng)新放在硬件開發(fā)之前。這種方法確保了編程能夠引導芯片間的通信,促進它們協(xié)調高效地運行,就像生產線上運轉良好的機器一樣。
因此,LPU 在快速高效地管理語言任務方面表現(xiàn)出色,非常適合需要文本解釋或生成的應用。這一突破使系統(tǒng)不僅在速度上超越了傳統(tǒng)配置,而且在成本效益和降低能耗方面也更勝一籌。這種進步對金融、政府和技術等行業(yè)具有重要意義,因為在這些行業(yè)中,快速和精確的數(shù)據(jù)處理至關重要。
LPU 溯源
如果想要深入了解 LPU 的架構,可以去讀 Groq 發(fā)表的兩篇論文。
第一篇是 2020 年的《Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》。在這篇論文中,Groq 介紹了一種名為 TSP 的架構,這是一種功能分片微架構,其內存單元與向量和矩陣深度學習功能單元交錯排列,以利用深度學習運算的數(shù)據(jù)流局部性。
論文鏈接:https://wow.groq.com/wp-content/uploads/2020/06/ISCA-TSP.pdf
第二篇是 2022 年的《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》。在這篇論文中,Groq 介紹了用于 TSP 元件大規(guī)?;ミB網(wǎng)絡的新型商用軟件定義方法。系統(tǒng)架構包括 TSP 互連網(wǎng)絡的打包、路由和流量控制。
論文鏈接:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf
在 Groq 的詞典中,「LPU」似乎是一個較新的術語,因為在這兩篇論文中都沒有出現(xiàn)。
不過,現(xiàn)在還不是拋棄 GPU 的時候。因為盡管 LPU 擅長推理任務,能毫不費力地將訓練好的模型應用到新數(shù)據(jù)中,但 GPU 在模型訓練階段仍占據(jù)主導地位。LPU 和 GPU 之間的協(xié)同作用可在人工智能硬件領域形成強大的合作伙伴關系,二者都能在其特定領域發(fā)揮專長和領先地位。
LPU vs GPU
讓我們比較一下 LPU 和 GPU,以便更清楚地了解它們各自的優(yōu)勢和局限性。
用途廣泛的 GPU
圖形處理單元(GPU)已經超越了其最初用于渲染視頻游戲圖形的設計目的,成為人工智能和機器學習工作的關鍵要素。它們的架構是并行處理能力的燈塔,可同時執(zhí)行數(shù)千個任務。
這一特性對那些需要并行化的算法尤為有利,可有效加速從復雜模擬到深度學習模型訓練的各種任務。
GPU 的多功能性是另一個值得稱道的特點;它能熟練處理各種任務,不僅限于人工智能,還包括游戲和視頻渲染。它的并行處理能力大大加快了 ML 模型的訓練和推理階段,顯示出顯著的速度優(yōu)勢。
然而,GPU 并非沒有局限性。它的高性能是以大量能耗為代價的,這給能效帶來了挑戰(zhàn)。此外,GPU 的通用設計雖然靈活,但并不總能為特定的人工智能任務提供最高效率,這也暗示了其在專業(yè)應用中潛在的低效問題。
擅長語言處理的 LPU
語言處理單元(LPU)代表了 AI 處理器技術的最前沿,其設計理念深深植根于自然語言處理(NLP)任務。與 GPU 不同,LPU 針對序列處理進行了優(yōu)化,這是準確理解和生成人類語言的必要條件。這種專業(yè)化賦予了 LPU 在 NLP 應用中的卓越性能,使其在翻譯和內容生成等任務中超越了通用處理器。LPU 處理語言模型的效率非常突出,有可能減少 NLP 任務的時間和能源消耗。
然而,LPU 的專業(yè)化是一把雙刃劍。雖然它們在語言處理方面表現(xiàn)出色,但其應用范圍較窄。這限制了它們在更廣泛的 AI 任務范圍內的通用性。此外,作為新興技術,LPU 還沒有得到社區(qū)的廣泛支持,可用性也面臨挑戰(zhàn)。不過,隨著時間的推移和該技術逐步被采用,這些差距可能在未來得到彌補。
Groq LPU 會改變人工智能推理的未來嗎?
圍繞 LPU 與 GPU 的爭論越來越多。去年年底,Groq 公司的公關團隊稱其為人工智能發(fā)展的關鍵參與者,這引起了人們的興趣。
今年,人們重新燃起了興趣,希望了解這家公司是否代表了人工智能炒作周期中的又一個轉瞬即逝的時刻 —— 宣傳似乎推動了認知度的提高,但它的 LPU 是否真正標志著人工智能推理邁出了革命性的一步?人們還對該公司相對較小的團隊的經驗提出了疑問,尤其是在科技硬件領域獲得巨大認可之后。
一個關鍵時刻到來了,社交媒體上的一篇帖子大大提高了人們對該公司的興趣,在短短一天內就有數(shù)千人詢問如何使用其技術。公司創(chuàng)始人在一次視頻通話中分享了這些細節(jié),強調了熱烈的反響以及他們目前由于沒有計費系統(tǒng)而免費提供技術的做法。
公司創(chuàng)始人對硅谷的創(chuàng)業(yè)生態(tài)系統(tǒng)并不陌生。自 2016 年公司成立以來,他一直是公司技術潛力的倡導者。此前,他曾在另一家大型科技公司參與開發(fā)一項關鍵的計算技術,這為他創(chuàng)辦這家新企業(yè)奠定了基礎。這段經歷對公司形成獨特的硬件開發(fā)方法至關重要,公司從一開始就注重用戶體驗,在進入芯片的物理設計之前,公司最初主要致力于軟件工具的開發(fā)。
隨著業(yè)界繼續(xù)評估此類創(chuàng)新的影響,LPU 重新定義人工智能應用中的計算方法的潛力仍然是一個引人注目的討論點,預示著人工智能技術將迎來變革性的未來。