00后華裔小哥哈佛輟學(xué)組團(tuán)挑戰(zhàn)英偉達(dá),史上最快AI芯片Sohu推理性能超H100二十倍!
有史以來最快的Transformer芯片,剛剛誕生了?
去年21歲哈佛輟學(xué)華裔小哥的神級創(chuàng)業(yè)故事,進(jìn)化到了新的階段。
這一次,號稱專為LLM推理加速打造的Sohu芯片,已經(jīng)成超越Groq,成為最強(qiáng)AI芯片。
如今的Sohu,在跑Llama 70B時每秒可生成高達(dá)500000個token的輸出。
換句話說就是:1張Sohu≈20張H100≈10張B200。
圖片
在去年12月,Etced就曾火過一陣,當(dāng)時兩位哈佛輟學(xué)小哥的2人公司,估值已經(jīng)高達(dá)3400萬刀。當(dāng)時Sohu號稱LLM推理性能達(dá)到H100的10倍,單價吞吐量更是高達(dá)140倍。
而就在剛剛,Etced又宣布了炸裂的新消息:已籌到1.2億美元。
圖片
就在上周,英偉達(dá)的市值達(dá)到3.3萬億美元,超過微軟成為全球第一。而Etched相信,自己的35人團(tuán)隊能夠擊敗英偉達(dá)。
他們的豪放預(yù)言,得到了硅谷真金白銀的支持。投資名單中,是一眾豪華的機(jī)構(gòu)和硅谷大佬,包括Peter Thiel。
Primary Venture Partners和Positive Sum Ventures領(lǐng)投了這輪融資,機(jī)構(gòu)投資者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。
天使投資者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。
Etched創(chuàng)始人之一Gavin Uberti表示,「我們正在押注人工智能領(lǐng)域最大的賭注——一種只能運(yùn)行Transformer模型的芯片,但其運(yùn)行速度比GPU快幾個數(shù)量級。也許注意力確實(shí)是你所需要的全部...」
圖片
Pika研究人員表示,每秒50萬token簡直太瘋狂了。你可以在2秒內(nèi)寫出「圣經(jīng)」,或者一年內(nèi)生成15萬億token。
圖片
Sohu大約每秒能輸出21個人一天說的話,簡直太不真實(shí)了。
圖片
Thiel Fellowship的主任Alex Handy,對幾位年輕人表示了高度的贊許:「投資Etched是對 AI 價值的戰(zhàn)略性押注。他們的芯片解決了競爭對手不敢面對的可擴(kuò)展性問題,挑戰(zhàn)了同行中普遍存在的停滯狀態(tài)?!?/p>
在他看來,正是因?yàn)閹孜恍「缱隽说讓拥墓ぷ?,硅谷的程序員們才能繼續(xù)安心編程,不必?fù)?dān)心正在開發(fā)技術(shù)的底層出問題。
圖片
兩年前開始的豪賭
這個傳奇的故事,始于兩年前。
2022年,幾位創(chuàng)始人就打賭:Transformer將占領(lǐng)世界。
圖片
為此,他們花了兩年時間打造Sohu,這是世界上第一個用于Transformer的專用芯片(ASIC)。
圖片
將Transformer架構(gòu)燒錄到Sohu芯片后,它無法運(yùn)行大多數(shù)的傳統(tǒng)AI模型:比如DLRMs、AlphaFold 2,或Stable Diffusion 2;也無法運(yùn)行CNNs、RNNs或LSTMs。
但對于Transformer來說,Sohu確實(shí)是有史以來最快的芯片。但它還可以更快。
對于Llama 70B,Sohu的吞吐量每秒超過了50萬個token,因此它可以構(gòu)建在GPU上根本不可能實(shí)現(xiàn)的產(chǎn)品。
而且,它甚至比英偉達(dá)的下一代Blackwell(B200)更快、更便宜!
如今最先進(jìn)的AI模型,無一不是基于Transformer的,比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。
如果Transformer被SSM、RWKV或任何新架構(gòu)取代,那Sohu將毫無用處。
但是,創(chuàng)始人小哥表示,如果他們押對了,Sohu將徹底改變世界!
這,就是一場豪賭。
Scale是「超級智能」所需的全部?
五年內(nèi),AI模型在大多數(shù)標(biāo)準(zhǔn)化測試中,超越了人類。
這是怎么做到的?
因?yàn)镸eta用于訓(xùn)練Llama 400B(2024年SOTA模型)的計算量,比OpenAI訓(xùn)練GPT-2(2019年SOTA模型)多5萬倍。
OpenAI用Scaling Law預(yù)測了GPT-4性能,并預(yù)計GPT-5+同樣適用
奧特曼曾說過,「擴(kuò)展參數(shù)規(guī)模確實(shí)非常重要。當(dāng)我們在太陽周圍建造了一個戴森球(Dyson Sphere)之后,我們才可以考慮討論是否應(yīng)該停止這么做,但在那之前不應(yīng)該停下來」。
也就是說,通過向LLM提供更多的算力和更好的數(shù)據(jù),才使得AI變得更加智能。
不得不承認(rèn),參數(shù)規(guī)模擴(kuò)展(Scale)將會是幾十年來唯一持續(xù)有效的方法。
每個大型AI公司(谷歌、OpenAI/微軟、Anthropic/亞馬遜等)都在未來幾年投入超1000億美元來繼續(xù)擴(kuò)大LLM規(guī)模。
然而,再擴(kuò)展1000倍必定是昂貴的,形象地解釋,下一代數(shù)據(jù)中心的成本將超過一個小國的GDP。
按照目前的發(fā)展速度,我們的硬件、成本、財力根本無法跟得上。
GPU撞墻了
圣克拉拉,英偉達(dá)總部所在地,不愿意讓人知道的小秘密是——
GPU性能其實(shí)沒有變得更好,只是變得更大了。
過去四年里,芯片單位面積的計算能力(每平方毫米的TFLOPS)幾乎沒有提升。
就比如,英偉達(dá)的B200、AMD的MI300、英特爾的Gaudi 3,以及亞馬遜的Trainium2都將2個芯片集成到一張卡上,以使其性能翻倍。
如下曲線圖中,也可以看出,從2022年-2025年,AI芯片并沒有真正變得更好只是變得更大了。
在過去四年中,計算密度(TFLOPS/mm^2)僅提高了約15%。
圖片
而現(xiàn)在,隨著摩爾定律的放緩,提高芯片性能的唯一途徑,便是讓其走向「專用」化。
專用芯片,勢在必行
在Transformer占領(lǐng)世界之前,許多公司構(gòu)建了靈活的AI芯片和GPU來處理數(shù)百種不同的機(jī)器學(xué)習(xí)架構(gòu)。
舉幾個例子:
圖片
卻從來沒有人制造,針對特定算法的AI芯片(ASIC)。
因?yàn)?,全新的芯片?xiàng)目需要花費(fèi)5000萬-1億美元,甚至要用許多年的時間才能投入生產(chǎn)。
當(dāng)Etched開始著手這一項(xiàng)目時,根本就不存在這樣的市場。
突然間,這種情況一下子發(fā)生了轉(zhuǎn)變。
ChatGPT出現(xiàn)之前,Transformer的推理市場規(guī)模大約是5000萬美元。
而現(xiàn)在,已經(jīng)達(dá)到數(shù)十億美元。所有的科技巨頭,初創(chuàng)公司都在使用Transformer模型。
大模型架構(gòu),都在走向融合趨同。自從GPT-2誕生以來,最先進(jìn)的模型架構(gòu)幾乎保持一致!
OpenAI GPT系列、谷歌PaLM、Meta Llama,甚至特斯拉的全自動駕駛系統(tǒng),都采用了Transformer架構(gòu)。
當(dāng)模型的訓(xùn)練成本超過10億美元,推理成本超過100億美元時,專用芯片的出現(xiàn)是必然的。
在這種巨大參數(shù)規(guī)模之下,即使只有1%的性能提升,也足以證明5000萬-1億美元的定制芯片項(xiàng)目是值得的。
實(shí)際上,ASIC的速度要比GPU快很多個數(shù)量級。
Transformer擁有巨大的護(hù)城河
Etched.ai的幾位創(chuàng)始人表示,他們相信硬件彩票——能在硬件上運(yùn)行得最快、最便宜的模型,就是獲勝的那一個。
而Transformer擁有巨大的護(hù)城河,足以在替代方案成熟之前主導(dǎo)各大AI計算市場。
理由如下——
1. Transformer正在為每一個大型AI產(chǎn)品提供支持,無論是Agent、搜索還是聊天。
為了優(yōu)化GPU去適應(yīng)Transformer,AI實(shí)驗(yàn)室已經(jīng)在研發(fā)上投入了數(shù)億美元。
無論是當(dāng)前還是下一代SOTA模型,都是基于Transformer的。
2. 隨著未來幾年模型訓(xùn)練的規(guī)模從10億美元擴(kuò)大到100億美元,再到1000億美元,測試新架構(gòu)的風(fēng)險也急劇上升。
與其重新測試Scalling law和性能,不如把時間花在基于Transformer的功能開發(fā)上,比如多token預(yù)測。
3. 當(dāng)前的軟件棧,已為Transformer進(jìn)行了優(yōu)化。每個流行的庫(TensorRT-LLM、vLLM、Huggingface TGI等),都有在GPU上運(yùn)行Transformer模型的專用內(nèi)核。
許多建立在Transformer之上的功能,比如推測解碼、樹搜索等,在替代方案中都很難得到支持。
圖片
Sohu可以通過樹搜索更好地編碼,能夠并行比較數(shù)百個響應(yīng)
4. 未來的硬件棧,也將為Transformer進(jìn)行優(yōu)化。比如英偉達(dá)的GB200,對Transformer Engine就有特殊的支持。
隨著像Sohu這樣的ASIC進(jìn)入市場,將會帶來一種不可逆的趨勢。
也就是說,作為「Transformer Killer」的模型需要在GPU上,運(yùn)行得比Sohu上的Transformer更快。
而但凡出現(xiàn)這種情況,創(chuàng)始人表示,他們也會為此構(gòu)建一款全新的ASIC!
圖片
Sohu支持多重推測解碼,可以實(shí)時生成新內(nèi)容
Sohu來了!
Sohu是世界上第一個Transformer ASIC。
通過專門化,Sohu獲得了前所未有的性能。一臺8xSohu服務(wù)器每秒可以處理超過50萬個Llama 70B token,等效于160塊H100 GPU。
Sohu僅支持Transformer推理,并支持當(dāng)今所有的模型(Google、Meta、Microsoft、OpenAI、Anthropic等),以及處理未來模型的調(diào)整。
無論是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、還是Stability AI的Stable Diffusion 3等等,都可以。
由于Sohu只能運(yùn)行一種算法,因此絕大多數(shù)的控制流邏輯可以被移除,從而允許其擁有更多的數(shù)學(xué)模塊。
結(jié)果就是,Sohu的FLOPS利用率高達(dá)90%以上;相比之下,使用TRT-LLM的GPU僅為為30%左右。
如何實(shí)現(xiàn)比GPU更多的FLOPS?
目前最先進(jìn)的算力——英偉達(dá)H200,在沒有稀疏處理的情況下具有989 TFLOPS的FP16/BF16算力。(超過了Google的新Trillium芯片之一)
而2025年推出的GB200,將會在算力上增加25%(每個芯片1250 TFLOPS)。
由于GPU的大部分面積都用于可編程性,因此專注于Transformer可以容納更多的算力。
從基本原理上來看,這一點(diǎn)可以很容易被證明:
制造一個FP16/BF16/FP8乘法加法電路(所有矩陣數(shù)學(xué)的基礎(chǔ)構(gòu)件)需要10,000個晶體管。H100 SXM有528個張量核心,每個核心有4×8×16個FMA電路。通過計算可以得到,H100有27億個晶體管專用于張量核心。
實(shí)際上,H100擁有800億個晶體管!這意味著在H100 GPU上的晶體管中,僅有3.3%用于矩陣乘法!
但問題是,如果想要為各種模型(CNN、LSTM、SSM等)都提供支持,就不得不采取這樣的設(shè)計。
這時,如果選擇只運(yùn)行Transformer,就可以在芯片上容納更多的FLOPS,且無需依賴更低的精度或稀疏處理。
推理的瓶頸是內(nèi)存帶寬,而非計算?
事實(shí)上,對于像Llama-3這樣的現(xiàn)代模型,并非如此!
使用英偉達(dá)和AMD的標(biāo)準(zhǔn)基準(zhǔn)測試——2048個輸入token和128個輸出token,大多數(shù)AI產(chǎn)品的輸入都要比輸出長得多(即使是新的Claude聊天,系統(tǒng)提示也有1000多個token)。
在GPU和Sohu上,推理是以批次運(yùn)行的。每個批次都會加載一次所有的模型權(quán)重,并在批次中的每個token上重復(fù)使用它們。
通常,LLM的輸入是計算密集的,而LLM的輸出是內(nèi)存密集的。所以,當(dāng)我們將輸入和輸出token與連續(xù)批處理結(jié)合時,工作負(fù)載就會變得非?!赣嬎忝芗?。
下圖的示例中,就展示了連續(xù)批處理LLM的過程。
這個過程中,會運(yùn)行帶有四個輸入token和四個輸出token的序列;每種顏色代表一個不同的序列。
圖片
同樣的技巧,就可以擴(kuò)展到2048個輸入token和128個輸出token的Llama-3-70B上。
要讓每個batch,都包含一個序列的2048個輸入token,和127個不同序列的127個輸出token。
如果這樣做的話,每個batch將需要大約(2048+127)×70B參數(shù)×每個參數(shù)2字節(jié)=304 TFLOPs,同時只需要加載70B參數(shù)×每個參數(shù)2字節(jié)=140 GB的模型權(quán)重,以及大約127× 64×8×128×(2048+127)×2×2=72GB的KV緩存權(quán)重。
這需要的計算,就遠(yuǎn)超過內(nèi)存帶寬的需求,因?yàn)橐粋€H200需要6.8PFLOPS的計算能力,才能最大化其內(nèi)存帶寬。
而且,這是在100%利用率的情況下——如果利用率是30%,需要的計算能力還要多出3倍。
由于Sohu有極高的計算能力和高利用率,我們就可以在不受內(nèi)存帶寬限制的情況下,運(yùn)行巨大的吞吐量。
注:在現(xiàn)實(shí)世界中,batch通常更大,輸入長度各不相同,并且請求會以泊松分布到達(dá)。在這種情況下,Sohu的效果會更好。在這里之所以使用2048/128基準(zhǔn)作為例子,是因?yàn)橛ミ_(dá)和AMD都在使用。
只需編寫Transformer軟件即可
無論在GPU和還是TPU上,軟件都是一場噩夢。
處理任意的CUDA和PyTorch代碼,需要的編譯器極其復(fù)雜。
為此,AMD、英特爾、AWS這些第三方AI芯片,都在軟件上投入了數(shù)十億,但效果依然不佳。
這里,Sohu的好處就體現(xiàn)出來了——因?yàn)樗贿\(yùn)行Transformer模型,所以我們只需要為Transformer模型編寫軟件!
大多數(shù)運(yùn)行開源或內(nèi)部模型的公司,都會使用特定的Transformer推理庫,如TensorRT-LLM、vLLM或HuggingFace的TGI。
這些框架往往很死板,雖然我們可以調(diào)節(jié)模型的超參數(shù),但并不支持更改底層的模型代碼。
但是,沒有關(guān)系!所有的Transformer模型都非常相似(即使是文本、圖像、視頻模型),調(diào)節(jié)超參數(shù)就足夠了。
這樣,就足以支持95%的AI公司了,不過,最大的AI實(shí)驗(yàn)室,仍然會進(jìn)行定制化開發(fā)。
工程師團(tuán)隊會手動調(diào)優(yōu)GPU內(nèi)核,以擠出更多的利用率,并進(jìn)行逆向工程,比如哪些寄存器對每個張量核心的延遲最低。
而創(chuàng)始人聲稱,有了Etched,我們就不再需要逆向工程了!
從驅(qū)動程序到內(nèi)核再到服務(wù)框架,Etched的所有軟件都會是開源的。
如果我們想實(shí)現(xiàn)一個自定義的Transformer層,內(nèi)核專家完全可以自由地去做。
Etched已經(jīng)破紀(jì)錄,將成歷史第一
現(xiàn)在看起來,Etced的決定很瘋狂。
但更瘋狂的是,他們是在2022年做出這項(xiàng)決定的——那時ChatGPT甚至還不存在!
當(dāng)時,圖像和視頻生成模型還是U-Net模型,自動駕駛汽車是由卷積神經(jīng)網(wǎng)絡(luò)(CNNs)驅(qū)動的,Transformer架構(gòu)還遠(yuǎn)未普及。
而現(xiàn)在,形勢顯然對他們非常有利。如今從語言到視覺,每個領(lǐng)域的頂尖模型都是Transformer。
這種趨同驗(yàn)證了Etced的前瞻性,更使Sohu成為十年來最重要的硬件項(xiàng)目。
種種跡象表明,公司正走在史上最快芯片發(fā)布的進(jìn)程中——
- 頂尖的AI研究人員和硬件工程師紛紛離職原團(tuán)隊,加入Etced;
- Etced會直接和臺積電合作開發(fā)4nm工藝,并且獲得了足夠的HBM和服務(wù)器,第一年的產(chǎn)量可以快速提升;
- Etced的早期客戶,已經(jīng)預(yù)訂了數(shù)千萬美元的硬件
「如果我們是對的,Sohu將改變世界」
如果AI模型在一夜之間,速度飆升20倍,且成本降低20倍,會發(fā)生什么?
目前,Gemini需要60多秒才能回答一個與視頻相關(guān)的問題。
編碼智能體的成本,比軟件工程師更高,而且需要數(shù)小時才能完成任務(wù)。
視頻模型每秒只能生成一幀,甚至ChatGPT注冊用戶達(dá)到1000萬時(僅占全球用戶的0.15%),就耗盡了OpenAI的GPU容量。
即便是持續(xù)以每兩年2.5倍的速度增加GPU的容量,也得需要10年時間,才能實(shí)現(xiàn)「實(shí)時」視頻生成。
而現(xiàn)在有了Sohu,這一切將瞬時完成。
網(wǎng)友表示,「AI的未來是定制硬件,實(shí)時視頻模型即將現(xiàn)世」!
圖片
如果當(dāng)實(shí)時視頻、通話、AI智能體和搜索功能終于能夠順暢運(yùn)行時,會發(fā)生什么呢?
很快,你就能知道了。
三位哈佛輟學(xué)生,挑戰(zhàn)AI芯片霸主英偉達(dá)
成立于2022年,這家35人團(tuán)隊的初創(chuàng)公司Etched,堅信一定能夠擊敗英偉達(dá)。
到底是什么樣的背景,能讓三位哈佛輟學(xué)生,敢于挑戰(zhàn)芯片行業(yè)目前最炙手可熱的賽道呢?
圖片
Robert Wachen、Gavin Uberti、Chris Zhu
創(chuàng)始人兼CEO Gavin Uberti自2020入學(xué)哈佛攻讀數(shù)學(xué)專業(yè),隨后在2022年攻讀碩士學(xué)位,專業(yè)是計算機(jī)。
不過,這兩段上學(xué)經(jīng)歷,都以輟學(xué)告終。
圖片
在創(chuàng)辦Etched之前,Gavin Uberti曾在另外兩家公司分別有過一段全職和簡直經(jīng)歷,擔(dān)任了算法和后端工程師,以及軟件工程師。
圖片
在進(jìn)入大學(xué)之前,他參與了美國最著名的青少年科技創(chuàng)新大賽FIRST Tech Challenge,團(tuán)隊獲得了Top 10獎項(xiàng)。團(tuán)隊開發(fā)的自動駕駛軟件排在600個參賽團(tuán)隊第二名。
他還曾在2019年,拿過美式數(shù)學(xué)競賽的冠軍。
圖片
另一位創(chuàng)始人Chris Zhu,也是在哈佛就讀時就在校外瘋狂實(shí)習(xí),甚至還沒有從哈佛畢業(yè),就已經(jīng)成為兼職教員。
圖片
他個人的工作經(jīng)歷更為豐富些,不僅在高校MIT擔(dān)任研究員、哈佛兼職教學(xué)研究員,還曾在亞馬遜等公司做過實(shí)習(xí)。
圖片
最后一位聯(lián)創(chuàng)兼COO Robert Wachen是一個多領(lǐng)域的創(chuàng)業(yè)者,曾創(chuàng)辦了4家公司。
圖片
圖片
接下來,就看看他們會如何去締造一個新的硅谷神話。
參考資料:https://www.etched.com/announcing-etched