自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型步入「推理Scaling」時代,SambaNova如何挑戰(zhàn)英偉達(dá)的霸主地位?

人工智能 新聞
在深度學(xué)習(xí)引發(fā)的第三次人工智能浪潮中,算力對人工智能發(fā)展的決定作用已成共識。一系列極具影響力的 AI 研究,如 AlexNet、ResNet 和 Transformer 都是在 GPU 上實(shí)現(xiàn)和評估的,這也讓英偉達(dá)十年來始終處于 AI 硬件市場的主導(dǎo)地位。

OpenAI o1 的發(fā)布,再次給 AI 領(lǐng)域帶來了一場地震。

o1 能像人類一樣「思考」復(fù)雜問題,擁有優(yōu)秀的通用推理能力。在未經(jīng)專門訓(xùn)練的情況下,o1 能夠直接拿下數(shù)學(xué)奧賽金牌,甚至能在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家。

在性能躍升之外,更重要的是,它揭示了大模型進(jìn)化范式的轉(zhuǎn)變:通過更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時計(jì)算)和更多的推理(Test-Time 計(jì)算),模型可以獲得更強(qiáng)大的性能。

這又一次讓我們想起 Richard Sutton 在《The Bitter Lesson》中所說的,利用計(jì)算能力的一般方法最終是最有效的方法。這類方法會隨著算力的增加而繼續(xù)擴(kuò)展,搜索和學(xué)習(xí)似乎正是兩種以此方式隨意擴(kuò)展的方法。連山姆?奧特曼也坦言,在未來的一段時間里,新范式進(jìn)化的曲線會非常陡峭。

從「訓(xùn)練 Scaling」到「推理 Scaling」的范式轉(zhuǎn)變,也引發(fā)了關(guān)于計(jì)算資源分配和硬件選擇的重新思考。

圖片

領(lǐng)域內(nèi)的研究者和從業(yè)者認(rèn)識到,一方面,更多的計(jì)算資源應(yīng)該投入到推理階段,另一方面,優(yōu)化硬件配置以提升大模型推理的效率將是下一階段的攻關(guān)重點(diǎn)。而大模型要進(jìn)行推理 Scaling,實(shí)際上比訓(xùn)練 Scaling 對芯片并行處理能力的要求更高。

GPU 最初設(shè)計(jì)用于圖形渲染,由于其并行處理能力,過去數(shù)年一直是以海量數(shù)據(jù)集訓(xùn)練大模型的熱門選擇。雖然 GPU 非常適合實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練工作,但在全新的范式下,由于其在延遲、功耗等方面表現(xiàn)不佳, 并不是進(jìn)行大規(guī)模推理的最好選擇。

在 GPU 之外,什么是大模型推理的更好選擇?現(xiàn)在的 AI 芯片有各種流派:ASIC、FPGA、DSP、Neuromorphic Chip,以及大量 DSA (Domain-specific architectures)芯片。其中,以 SambaNova RDU(Reconfigurable Dataflow Unit)為代表的動態(tài)可重構(gòu)數(shù)據(jù)流(Dataflow)架構(gòu)的芯片,能夠通過并行處理和高效數(shù)據(jù)移動來優(yōu)化性能和效率,近年越來越被認(rèn)為是一個重要的發(fā)展方向。

數(shù)倍于 GPU 推理性能

來自 SambaNova 最新一代 RDU SN40L

近日的芯片盛會 Hot Chips 上,圍繞大模型的議題比以往任何一屆都更加活躍。SambaNova 的最新一代 RDU 產(chǎn)品 SN40L 也在這場大會上引發(fā)持續(xù)討論。大家也充分了解到,Sambanova 如何實(shí)現(xiàn)大模型的快速推理以及提供 GPU 之外的更優(yōu)方案。

我們知道,大模型在推理時會逐步生成輸出序列的 Token,每生成每一個 token 都會需要把模型的參數(shù)從 HBM(High Bandwidth Memory)搬運(yùn)到片上進(jìn)行計(jì)算。對于利用 HBM 來推理的芯片來說,HBM 的利用率是推理速度的關(guān)鍵,越快從內(nèi)存中訪問數(shù)據(jù),就越能縮短處理時間。

SambaNova 的 RDU 既有 GPU 10 倍以上的片上分布 SRAM,也有適用于需要快速數(shù)據(jù)傳輸?shù)拇笠?guī)模計(jì)算任務(wù)的 HBM。其架構(gòu)可以自動做到極致的算子融合,達(dá)到 90% 以上的 HBM 利用率,使得 RDU 對 GPU 有了 2-4 倍的性能優(yōu)勢。

當(dāng)前的 AI 推理平臺中,SambaNova 是唯一能在 Llama 3.1 405B 上提供每秒超過 100 個 Token 推理速度的平臺。

圖片

如下圖所示,每個框都是一個算子。一般來說,多個算子會同時運(yùn)行,并將數(shù)據(jù)保存在芯片上以重復(fù)使用。但在 RDU 中,整個解碼器是一個 Kernel 調(diào)用。

圖片

這意味著調(diào)用開銷會顯著減少,芯片對數(shù)據(jù)進(jìn)行有效工作的時間則增加了。

圖片

另外一方面,極致的算子融合使 RDU 能夠達(dá)到類似 GPU 的批處理能力。GPU 有很好的批處理能力(比如從 BS1 到 BS16),可將吞吐量提高 12 到 15 倍。比如在上圖中,當(dāng) decoder0 在進(jìn)行批處理運(yùn)算時,可以同時從 HBM 讀取 decoder1 的參數(shù)。

圖片

SambaNova 的研究者觀察到,SN40L 在 Llama 3.1 70B 上可以實(shí)現(xiàn)較好的吞吐量 Scaling。

為什么業(yè)內(nèi)普遍看好數(shù)據(jù)流架構(gòu)?

SN40L 讓我們重新認(rèn)識了 SambaNova RDU 相對于主流 GPU 的速度優(yōu)勢,而數(shù)據(jù)流架構(gòu)的價值也在被越來越多的從業(yè)者重新發(fā)現(xiàn)。

與 GPU 本質(zhì)上不同的是,數(shù)據(jù)流架構(gòu)通過數(shù)據(jù)流動來驅(qū)動計(jì)算過程,而非常規(guī)指令流動。在該架構(gòu)中,程序被表示為一個 Dataflow Graph,其中節(jié)點(diǎn)代表計(jì)算操作,邊代表數(shù)據(jù)依賴關(guān)系。每個節(jié)點(diǎn)在其所有輸入數(shù)據(jù)準(zhǔn)備好后立即執(zhí)行,并將結(jié)果傳遞給下游節(jié)點(diǎn)。這種架構(gòu)天然支持并行處理,多個獨(dú)立的計(jì)算操作可以同時執(zhí)行,從而顯著提高了計(jì)算性能。

從下圖可以看到,SambaNova RDU 的片上空間數(shù)據(jù)流可以做自動的算子融合 (kernel fusion),與 GPU 的傳統(tǒng) kernel-by-kernel 運(yùn)行相比,明顯消除了大量的內(nèi)存流量和開銷。

圖片

圖片

近年來,GPU 廠商明顯意識到非 Dataflow 架構(gòu)的短板,并為 GPU 部分引入一些 Dataflow 的功能。例如,從 H100 開始,GPU 開始加入分布式共享內(nèi)存(Distributed Shared Memory) ,也加入了新的張量內(nèi)存加速器 (Tensor Memory Accelerator) 單元,使其某種程度上模仿了片上空間流水線運(yùn)行的「范式」。

但這種程度的改動遠(yuǎn)遠(yuǎn)不夠,GPU 追趕的速度恐怕已經(jīng)跟不上 AI 領(lǐng)域推理需求的暴漲。畢竟 GPU 最初不是專門為 AI 而設(shè)計(jì)的,廠商們很難在不影響主營業(yè)務(wù)的情況下對基本架構(gòu)做完全的重新設(shè)計(jì),即使增加了上述的「修補(bǔ)」工作,也無法完全采用高效的數(shù)據(jù)流架構(gòu),這從根本上限制了 GPU 推理的提速。

當(dāng)前的幾家主流 AI 芯片 Startup,都選擇了數(shù)據(jù)流架構(gòu)。其中來自 SambaNova 的 RDU 展現(xiàn)出了獨(dú)特優(yōu)勢,也被視為 GPU 的最有力競爭者 。與英偉達(dá)相比,Sambanova 最新 Llama 3.1 模型上生成 token 的性能快了 10 倍以上,并且通過 cloud.sambanova.ai 公開供開發(fā)人員使用。

圖片

RDU 能夠?qū)崿F(xiàn)更快的推理速率,更利于大模型的部署。連人工智能專家吳恩達(dá)也驚嘆 SambaNova 的推理速率: 

圖片

從最基礎(chǔ)的成本上說,由于 Sambanova 的數(shù)據(jù)流架構(gòu) RDU 不僅擁有大的片上 SRAM,同時擁有 HBM 層面的優(yōu)勢,相比于其他的幾個單純依靠片上 SRAM 的數(shù)據(jù)流企業(yè),用戶需要支持大型語言模型的基礎(chǔ)設(shè)施更少。例如,想在 Llama 70B 上推理,對于有些 AI 芯片來說需要五百多個芯片,或者相當(dāng)于三百多個芯片的 4 個 wafer ,而 SambaNova 只需要 擁有 16 個芯片的 1 個機(jī)架。(https://sambanova.ai/blog/sn40l-chip-best-inference-solution)

圖片

更進(jìn)一步說,RDU 所帶來推理速度提升的意義不只是體現(xiàn)在效率上,更能體現(xiàn)在質(zhì)量上,也體現(xiàn)對 AGI 探索的加速上。

基于 OpenAI o1 帶來的推理 Scaling Law 的啟發(fā),人們意識到,在推理端,更多的算力同樣會帶來更強(qiáng)的智能。因?yàn)樵谕粫r間單位內(nèi),推理速度越快,就能實(shí)現(xiàn)越復(fù)雜的推理,就能解鎖越多復(fù)雜任務(wù),大模型應(yīng)用的天花板就越高。

這意味著,如果我們想更快實(shí)現(xiàn) AGI,我們本質(zhì)上最需要建設(shè)足夠的基礎(chǔ)設(shè)施并持續(xù)降低計(jì)算成本。與此同時,計(jì)算資源還要更多地向推理側(cè)增加。但在目前的條件下,算力往往是大模型廠商們拓展技術(shù)上限的頭道難關(guān),即使對于實(shí)力雄厚的玩家們也一樣。

OpenAI 在發(fā)布 o1 時似乎就遇到了這個問題。機(jī)器學(xué)習(xí)研究員 Nathan Lambert 在博客《逆向工程  OpenAI 的 o1》中寫到,在已發(fā)布的基準(zhǔn)測試分?jǐn)?shù)和曲線圖中,o1 preview 并非是能力最強(qiáng)的,但 OpenAI 并未立即發(fā)布最強(qiáng)版本的 o1 (詳情見下圖),原因是「最強(qiáng)配置」過于昂貴,他們沒有對應(yīng)的基礎(chǔ)設(shè)施支持大規(guī)模的部署。

圖片

但推理算力需求并非天塹不可跨越。在 o1 發(fā)布后不久,SambaNova 便在 Hugging Face 上發(fā)布了 Llama 3.1 Instruct-O1 演示 。這個項(xiàng)目由 SambaNova 的 SN40L RDU 提供算力支持,用戶可與 LLama 3.1 405B-instruct 模型進(jìn)行實(shí)時對話,體驗(yàn)風(fēng)馳電掣般類 o1 的推理過程。

項(xiàng)目地址:https://huggingface.co/spaces/sambanovasystems/Llama3.1-Instruct-O1

這意味著,在強(qiáng)大算力的支持下,開源大模型推理能力會不斷提升,復(fù)現(xiàn)完整 o1 甚至觸達(dá)更高級的智能是指日可待的。

一個新的時代正在開啟,當(dāng)大模型 Scaling Law 的重心從預(yù)訓(xùn)練向后訓(xùn)練和推理側(cè)轉(zhuǎn)移,廠商們在算力層面的分配與設(shè)計(jì)也會更深刻影響大模型領(lǐng)域的競爭格局。而對于 SambaNova 或其他以提供算力和計(jì)算基礎(chǔ)設(shè)施見長的公司來說,接下來會迎來前所未有的機(jī)遇。

英偉達(dá)的挑戰(zhàn)者

在 AI 芯片賽道的諸多初創(chuàng)公司中,SambaNova 是目前估值最高的一家獨(dú)角獸。

SambaNova 成立于 2017 年,擁有三位資深的聯(lián)合創(chuàng)始人:Rodrigo Liang、Kunle Olukotun、Christopher Ré。CEO Rodrigo Liang 畢業(yè)于斯坦福大學(xué),在創(chuàng)立 SambaNova 之前,Rodrigo 領(lǐng)導(dǎo)了甲骨文和 Sun Microsystems 的工程團(tuán)隊(duì),負(fù)責(zé) SPARC 處理器和 ASIC 的開發(fā)。Kunle Olukotun 和 Christopher Ré 都來自斯坦福大學(xué)。

圖片

從左到右分別為 Kunle Olukotun、Rodrigo Liang、Christopher Ré。

此外,被譽(yù)為「芯片風(fēng)險投資教父」的陳立武,自創(chuàng)立之初便作為創(chuàng)始投資人和董事會主席加入 SambaNova,并于 2024 年 5 月出任執(zhí)行主席,以加速和擴(kuò)大公司的發(fā)展。自 1987 年創(chuàng)立華登國際(Walden International)以來,陳立武投資了許多公司(包括 SambaNova),在推動半導(dǎo)體創(chuàng)新和發(fā)展方面發(fā)揮了重要作用。

圖片

在深度學(xué)習(xí)引發(fā)的第三次人工智能浪潮中,算力對人工智能發(fā)展的決定作用已成共識。一系列極具影響力的 AI 研究,如 AlexNet、ResNet 和 Transformer 都是在 GPU 上實(shí)現(xiàn)和評估的,這也讓英偉達(dá)十年來始終處于 AI 硬件市場的主導(dǎo)地位。

不過,時代可能真要變了。正如 Transformer 會迎來新的挑戰(zhàn)者,比如 Mamba;英偉達(dá)和 GPU 也會迎來下一階段的強(qiáng)勁競爭者,比如 SambaNova 的 RDU。

o1 發(fā)布之后,AI 推理市場正處于爆炸式增長的新起點(diǎn)。從 SambaNova 的 RDU 開始,人工智能領(lǐng)域可能正在翻開全新的一頁。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-28 13:20:18

2023-11-14 07:37:21

芯片英偉達(dá)

2024-11-06 14:00:00

蘋果英偉達(dá)

2022-06-01 16:47:53

AI模型開源

2012-12-27 10:12:22

Google微軟Office

2012-11-12 10:01:35

2023-09-12 10:22:30

英偉達(dá)AI芯片

2012-05-11 09:56:54

2024-11-04 09:07:00

2023-10-31 19:20:29

語言模型英偉達(dá)芯片

2025-02-21 13:20:00

2016-11-21 16:25:10

5G霸主中國

2024-09-09 16:22:51

2024-11-12 13:07:44

2025-04-07 09:45:00

2024-08-28 13:34:13

2024-11-21 14:00:00

模型AI

2024-09-11 12:31:59

2025-04-09 10:40:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號