自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="k1wwo"><i id="k1wwo"><video id="k1wwo"></video></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

00后華裔小哥哈佛輟學(xué)組團(tuán)挑戰(zhàn)英偉達(dá)，史上最快AI芯片Sohu推理性能超H100二十倍！

作者：新智元 2024-06-26 13:15:40

史上最快Transformer芯片誕生了！用Sohu跑Llama 70B，推理性能已超B200十倍，超H100二十倍！剛剛，幾位00后小哥從哈佛輟學(xué)后成立的公司Etached，宣布再融資1.2億美元。

有史以來最快的Transformer芯片，剛剛誕生了？

去年21歲哈佛輟學(xué)華裔小哥的神級創(chuàng)業(yè)故事，進(jìn)化到了新的階段。

這一次，號稱專為LLM推理加速打造的Sohu芯片，已經(jīng)成超越Groq，成為最強(qiáng)AI芯片。

如今的Sohu，在跑Llama 70B時每秒可生成高達(dá)500000個token的輸出。

換句話說就是：1張Sohu≈20張H100≈10張B200。

圖片

在去年12月，Etced就曾火過一陣，當(dāng)時兩位哈佛輟學(xué)小哥的2人公司，估值已經(jīng)高達(dá)3400萬刀。當(dāng)時Sohu號稱LLM推理性能達(dá)到H100的10倍，單價吞吐量更是高達(dá)140倍。

而就在剛剛，Etced又宣布了炸裂的新消息：已籌到1.2億美元。

圖片

就在上周，英偉達(dá)的市值達(dá)到3.3萬億美元，超過微軟成為全球第一。而Etched相信，自己的35人團(tuán)隊能夠擊敗英偉達(dá)。

他們的豪放預(yù)言，得到了硅谷真金白銀的支持。投資名單中，是一眾豪華的機(jī)構(gòu)和硅谷大佬，包括Peter Thiel。

Primary Venture Partners和Positive Sum Ventures領(lǐng)投了這輪融資，機(jī)構(gòu)投資者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。

天使投資者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。

Etched創(chuàng)始人之一Gavin Uberti表示，「我們正在押注人工智能領(lǐng)域最大的賭注——一種只能運(yùn)行Transformer模型的芯片，但其運(yùn)行速度比GPU快幾個數(shù)量級。也許注意力確實(shí)是你所需要的全部...」

圖片

Pika研究人員表示，每秒50萬token簡直太瘋狂了。你可以在2秒內(nèi)寫出「圣經(jīng)」，或者一年內(nèi)生成15萬億token。

圖片

Sohu大約每秒能輸出21個人一天說的話，簡直太不真實(shí)了。

圖片

Thiel Fellowship的主任Alex Handy，對幾位年輕人表示了高度的贊許：「投資Etched是對 AI 價值的戰(zhàn)略性押注。他們的芯片解決了競爭對手不敢面對的可擴(kuò)展性問題，挑戰(zhàn)了同行中普遍存在的停滯狀態(tài)?！?/p>

在他看來，正是因?yàn)閹孜恍「缱隽说讓拥墓ぷ?，硅谷的程序員們才能繼續(xù)安心編程，不必?fù)?dān)心正在開發(fā)技術(shù)的底層出問題。

圖片

兩年前開始的豪賭

這個傳奇的故事，始于兩年前。

2022年，幾位創(chuàng)始人就打賭：Transformer將占領(lǐng)世界。

圖片

為此，他們花了兩年時間打造Sohu，這是世界上第一個用于Transformer的專用芯片（ASIC）。

圖片

將Transformer架構(gòu)燒錄到Sohu芯片后，它無法運(yùn)行大多數(shù)的傳統(tǒng)AI模型：比如DLRMs、AlphaFold 2，或Stable Diffusion 2；也無法運(yùn)行CNNs、RNNs或LSTMs。

但對于Transformer來說，Sohu確實(shí)是有史以來最快的芯片。但它還可以更快。

對于Llama 70B，Sohu的吞吐量每秒超過了50萬個token，因此它可以構(gòu)建在GPU上根本不可能實(shí)現(xiàn)的產(chǎn)品。

而且，它甚至比英偉達(dá)的下一代Blackwell（B200）更快、更便宜！

如今最先進(jìn)的AI模型，無一不是基于Transformer的，比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。

如果Transformer被SSM、RWKV或任何新架構(gòu)取代，那Sohu將毫無用處。

但是，創(chuàng)始人小哥表示，如果他們押對了，Sohu將徹底改變世界！

這，就是一場豪賭。

Scale是「超級智能」所需的全部？

五年內(nèi)，AI模型在大多數(shù)標(biāo)準(zhǔn)化測試中，超越了人類。

這是怎么做到的？

因?yàn)镸eta用于訓(xùn)練Llama 400B（2024年SOTA模型）的計算量，比OpenAI訓(xùn)練GPT-2（2019年SOTA模型）多5萬倍。

OpenAI用Scaling Law預(yù)測了GPT-4性能，并預(yù)計GPT-5+同樣適用

奧特曼曾說過，「擴(kuò)展參數(shù)規(guī)模確實(shí)非常重要。當(dāng)我們在太陽周圍建造了一個戴森球（Dyson Sphere）之后，我們才可以考慮討論是否應(yīng)該停止這么做，但在那之前不應(yīng)該停下來」。

也就是說，通過向LLM提供更多的算力和更好的數(shù)據(jù)，才使得AI變得更加智能。

不得不承認(rèn)，參數(shù)規(guī)模擴(kuò)展（Scale）將會是幾十年來唯一持續(xù)有效的方法。

每個大型AI公司（谷歌、OpenAI/微軟、Anthropic/亞馬遜等）都在未來幾年投入超1000億美元來繼續(xù)擴(kuò)大LLM規(guī)模。

然而，再擴(kuò)展1000倍必定是昂貴的，形象地解釋，下一代數(shù)據(jù)中心的成本將超過一個小國的GDP。

按照目前的發(fā)展速度，我們的硬件、成本、財力根本無法跟得上。

GPU撞墻了

圣克拉拉，英偉達(dá)總部所在地，不愿意讓人知道的小秘密是——

GPU性能其實(shí)沒有變得更好，只是變得更大了。

過去四年里，芯片單位面積的計算能力（每平方毫米的TFLOPS）幾乎沒有提升。

就比如，英偉達(dá)的B200、AMD的MI300、英特爾的Gaudi 3，以及亞馬遜的Trainium2都將2個芯片集成到一張卡上，以使其性能翻倍。

如下曲線圖中，也可以看出，從2022年-2025年，AI芯片并沒有真正變得更好只是變得更大了。

在過去四年中，計算密度（TFLOPS/mm^2）僅提高了約15%。

圖片

而現(xiàn)在，隨著摩爾定律的放緩，提高芯片性能的唯一途徑，便是讓其走向「專用」化。

專用芯片，勢在必行

在Transformer占領(lǐng)世界之前，許多公司構(gòu)建了靈活的AI芯片和GPU來處理數(shù)百種不同的機(jī)器學(xué)習(xí)架構(gòu)。

舉幾個例子：

圖片

卻從來沒有人制造，針對特定算法的AI芯片（ASIC）。

因?yàn)?，全新的芯片?xiàng)目需要花費(fèi)5000萬-1億美元，甚至要用許多年的時間才能投入生產(chǎn)。

當(dāng)Etched開始著手這一項(xiàng)目時，根本就不存在這樣的市場。

突然間，這種情況一下子發(fā)生了轉(zhuǎn)變。

ChatGPT出現(xiàn)之前，Transformer的推理市場規(guī)模大約是5000萬美元。

而現(xiàn)在，已經(jīng)達(dá)到數(shù)十億美元。所有的科技巨頭，初創(chuàng)公司都在使用Transformer模型。

大模型架構(gòu)，都在走向融合趨同。自從GPT-2誕生以來，最先進(jìn)的模型架構(gòu)幾乎保持一致！

OpenAI GPT系列、谷歌PaLM、Meta Llama，甚至特斯拉的全自動駕駛系統(tǒng)，都采用了Transformer架構(gòu)。

當(dāng)模型的訓(xùn)練成本超過10億美元，推理成本超過100億美元時，專用芯片的出現(xiàn)是必然的。

在這種巨大參數(shù)規(guī)模之下，即使只有1%的性能提升，也足以證明5000萬-1億美元的定制芯片項(xiàng)目是值得的。

實(shí)際上，ASIC的速度要比GPU快很多個數(shù)量級。

Transformer擁有巨大的護(hù)城河

Etched.ai的幾位創(chuàng)始人表示，他們相信硬件彩票——能在硬件上運(yùn)行得最快、最便宜的模型，就是獲勝的那一個。

而Transformer擁有巨大的護(hù)城河，足以在替代方案成熟之前主導(dǎo)各大AI計算市場。

理由如下——

1. Transformer正在為每一個大型AI產(chǎn)品提供支持，無論是Agent、搜索還是聊天。

為了優(yōu)化GPU去適應(yīng)Transformer，AI實(shí)驗(yàn)室已經(jīng)在研發(fā)上投入了數(shù)億美元。

無論是當(dāng)前還是下一代SOTA模型，都是基于Transformer的。

2. 隨著未來幾年模型訓(xùn)練的規(guī)模從10億美元擴(kuò)大到100億美元，再到1000億美元，測試新架構(gòu)的風(fēng)險也急劇上升。

與其重新測試Scalling law和性能，不如把時間花在基于Transformer的功能開發(fā)上，比如多token預(yù)測。

3. 當(dāng)前的軟件棧，已為Transformer進(jìn)行了優(yōu)化。每個流行的庫（TensorRT-LLM、vLLM、Huggingface TGI等），都有在GPU上運(yùn)行Transformer模型的專用內(nèi)核。

許多建立在Transformer之上的功能，比如推測解碼、樹搜索等，在替代方案中都很難得到支持。

圖片

Sohu可以通過樹搜索更好地編碼，能夠并行比較數(shù)百個響應(yīng)

4. 未來的硬件棧，也將為Transformer進(jìn)行優(yōu)化。比如英偉達(dá)的GB200，對Transformer Engine就有特殊的支持。

隨著像Sohu這樣的ASIC進(jìn)入市場，將會帶來一種不可逆的趨勢。

也就是說，作為「Transformer Killer」的模型需要在GPU上，運(yùn)行得比Sohu上的Transformer更快。

而但凡出現(xiàn)這種情況，創(chuàng)始人表示，他們也會為此構(gòu)建一款全新的ASIC！

圖片

Sohu支持多重推測解碼，可以實(shí)時生成新內(nèi)容

Sohu來了！

Sohu是世界上第一個Transformer ASIC。

通過專門化，Sohu獲得了前所未有的性能。一臺8xSohu服務(wù)器每秒可以處理超過50萬個Llama 70B token，等效于160塊H100 GPU。

Sohu僅支持Transformer推理，并支持當(dāng)今所有的模型（Google、Meta、Microsoft、OpenAI、Anthropic等），以及處理未來模型的調(diào)整。

無論是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、還是Stability AI的Stable Diffusion 3等等，都可以。

由于Sohu只能運(yùn)行一種算法，因此絕大多數(shù)的控制流邏輯可以被移除，從而允許其擁有更多的數(shù)學(xué)模塊。

結(jié)果就是，Sohu的FLOPS利用率高達(dá)90%以上；相比之下，使用TRT-LLM的GPU僅為為30%左右。

如何實(shí)現(xiàn)比GPU更多的FLOPS？

目前最先進(jìn)的算力——英偉達(dá)H200，在沒有稀疏處理的情況下具有989 TFLOPS的FP16/BF16算力。（超過了Google的新Trillium芯片之一）

而2025年推出的GB200，將會在算力上增加25%（每個芯片1250 TFLOPS）。

由于GPU的大部分面積都用于可編程性，因此專注于Transformer可以容納更多的算力。

從基本原理上來看，這一點(diǎn)可以很容易被證明：

制造一個FP16/BF16/FP8乘法加法電路（所有矩陣數(shù)學(xué)的基礎(chǔ)構(gòu)件）需要10,000個晶體管。H100 SXM有528個張量核心，每個核心有4×8×16個FMA電路。通過計算可以得到，H100有27億個晶體管專用于張量核心。

實(shí)際上，H100擁有800億個晶體管！這意味著在H100 GPU上的晶體管中，僅有3.3%用于矩陣乘法！

但問題是，如果想要為各種模型（CNN、LSTM、SSM等）都提供支持，就不得不采取這樣的設(shè)計。

這時，如果選擇只運(yùn)行Transformer，就可以在芯片上容納更多的FLOPS，且無需依賴更低的精度或稀疏處理。

推理的瓶頸是內(nèi)存帶寬，而非計算？

事實(shí)上，對于像Llama-3這樣的現(xiàn)代模型，并非如此！

使用英偉達(dá)和AMD的標(biāo)準(zhǔn)基準(zhǔn)測試——2048個輸入token和128個輸出token，大多數(shù)AI產(chǎn)品的輸入都要比輸出長得多（即使是新的Claude聊天，系統(tǒng)提示也有1000多個token）。

在GPU和Sohu上，推理是以批次運(yùn)行的。每個批次都會加載一次所有的模型權(quán)重，并在批次中的每個token上重復(fù)使用它們。

通常，LLM的輸入是計算密集的，而LLM的輸出是內(nèi)存密集的。所以，當(dāng)我們將輸入和輸出token與連續(xù)批處理結(jié)合時，工作負(fù)載就會變得非?！赣嬎忝芗?。

下圖的示例中，就展示了連續(xù)批處理LLM的過程。

這個過程中，會運(yùn)行帶有四個輸入token和四個輸出token的序列；每種顏色代表一個不同的序列。

圖片

同樣的技巧，就可以擴(kuò)展到2048個輸入token和128個輸出token的Llama-3-70B上。

要讓每個batch，都包含一個序列的2048個輸入token，和127個不同序列的127個輸出token。

如果這樣做的話，每個batch將需要大約（2048+127）×70B參數(shù)×每個參數(shù)2字節(jié)=304 TFLOPs，同時只需要加載70B參數(shù)×每個參數(shù)2字節(jié)=140 GB的模型權(quán)重，以及大約127× 64×8×128×（2048+127）×2×2=72GB的KV緩存權(quán)重。

這需要的計算，就遠(yuǎn)超過內(nèi)存帶寬的需求，因?yàn)橐粋€H200需要6.8PFLOPS的計算能力，才能最大化其內(nèi)存帶寬。

而且，這是在100%利用率的情況下——如果利用率是30%，需要的計算能力還要多出3倍。

由于Sohu有極高的計算能力和高利用率，我們就可以在不受內(nèi)存帶寬限制的情況下，運(yùn)行巨大的吞吐量。

注：在現(xiàn)實(shí)世界中，batch通常更大，輸入長度各不相同，并且請求會以泊松分布到達(dá)。在這種情況下，Sohu的效果會更好。在這里之所以使用2048/128基準(zhǔn)作為例子，是因?yàn)橛ミ_(dá)和AMD都在使用。

只需編寫Transformer軟件即可

無論在GPU和還是TPU上，軟件都是一場噩夢。

處理任意的CUDA和PyTorch代碼，需要的編譯器極其復(fù)雜。

為此，AMD、英特爾、AWS這些第三方AI芯片，都在軟件上投入了數(shù)十億，但效果依然不佳。

這里，Sohu的好處就體現(xiàn)出來了——因?yàn)樗贿\(yùn)行Transformer模型，所以我們只需要為Transformer模型編寫軟件！

大多數(shù)運(yùn)行開源或內(nèi)部模型的公司，都會使用特定的Transformer推理庫，如TensorRT-LLM、vLLM或HuggingFace的TGI。

這些框架往往很死板，雖然我們可以調(diào)節(jié)模型的超參數(shù)，但并不支持更改底層的模型代碼。

但是，沒有關(guān)系！所有的Transformer模型都非常相似（即使是文本、圖像、視頻模型），調(diào)節(jié)超參數(shù)就足夠了。

這樣，就足以支持95%的AI公司了，不過，最大的AI實(shí)驗(yàn)室，仍然會進(jìn)行定制化開發(fā)。

工程師團(tuán)隊會手動調(diào)優(yōu)GPU內(nèi)核，以擠出更多的利用率，并進(jìn)行逆向工程，比如哪些寄存器對每個張量核心的延遲最低。

而創(chuàng)始人聲稱，有了Etched，我們就不再需要逆向工程了！

從驅(qū)動程序到內(nèi)核再到服務(wù)框架，Etched的所有軟件都會是開源的。

如果我們想實(shí)現(xiàn)一個自定義的Transformer層，內(nèi)核專家完全可以自由地去做。

Etched已經(jīng)破紀(jì)錄，將成歷史第一

現(xiàn)在看起來，Etced的決定很瘋狂。

但更瘋狂的是，他們是在2022年做出這項(xiàng)決定的——那時ChatGPT甚至還不存在！

當(dāng)時，圖像和視頻生成模型還是U-Net模型，自動駕駛汽車是由卷積神經(jīng)網(wǎng)絡(luò)（CNNs）驅(qū)動的，Transformer架構(gòu)還遠(yuǎn)未普及。

而現(xiàn)在，形勢顯然對他們非常有利。如今從語言到視覺，每個領(lǐng)域的頂尖模型都是Transformer。

這種趨同驗(yàn)證了Etced的前瞻性，更使Sohu成為十年來最重要的硬件項(xiàng)目。

種種跡象表明，公司正走在史上最快芯片發(fā)布的進(jìn)程中——

- 頂尖的AI研究人員和硬件工程師紛紛離職原團(tuán)隊，加入Etced；

- Etced會直接和臺積電合作開發(fā)4nm工藝，并且獲得了足夠的HBM和服務(wù)器，第一年的產(chǎn)量可以快速提升；

- Etced的早期客戶，已經(jīng)預(yù)訂了數(shù)千萬美元的硬件

「如果我們是對的，Sohu將改變世界」

如果AI模型在一夜之間，速度飆升20倍，且成本降低20倍，會發(fā)生什么？

目前，Gemini需要60多秒才能回答一個與視頻相關(guān)的問題。

編碼智能體的成本，比軟件工程師更高，而且需要數(shù)小時才能完成任務(wù)。

視頻模型每秒只能生成一幀，甚至ChatGPT注冊用戶達(dá)到1000萬時（僅占全球用戶的0.15%），就耗盡了OpenAI的GPU容量。

即便是持續(xù)以每兩年2.5倍的速度增加GPU的容量，也得需要10年時間，才能實(shí)現(xiàn)「實(shí)時」視頻生成。

而現(xiàn)在有了Sohu，這一切將瞬時完成。

網(wǎng)友表示，「AI的未來是定制硬件，實(shí)時視頻模型即將現(xiàn)世」！

圖片

如果當(dāng)實(shí)時視頻、通話、AI智能體和搜索功能終于能夠順暢運(yùn)行時，會發(fā)生什么呢？

很快，你就能知道了。

三位哈佛輟學(xué)生，挑戰(zhàn)AI芯片霸主英偉達(dá)

成立于2022年，這家35人團(tuán)隊的初創(chuàng)公司Etched，堅信一定能夠擊敗英偉達(dá)。

到底是什么樣的背景，能讓三位哈佛輟學(xué)生，敢于挑戰(zhàn)芯片行業(yè)目前最炙手可熱的賽道呢？

圖片

Robert Wachen、Gavin Uberti、Chris Zhu

創(chuàng)始人兼CEO Gavin Uberti自2020入學(xué)哈佛攻讀數(shù)學(xué)專業(yè)，隨后在2022年攻讀碩士學(xué)位，專業(yè)是計算機(jī)。

不過，這兩段上學(xué)經(jīng)歷，都以輟學(xué)告終。

圖片

在創(chuàng)辦Etched之前，Gavin Uberti曾在另外兩家公司分別有過一段全職和簡直經(jīng)歷，擔(dān)任了算法和后端工程師，以及軟件工程師。

圖片

在進(jìn)入大學(xué)之前，他參與了美國最著名的青少年科技創(chuàng)新大賽FIRST Tech Challenge，團(tuán)隊獲得了Top 10獎項(xiàng)。團(tuán)隊開發(fā)的自動駕駛軟件排在600個參賽團(tuán)隊第二名。

他還曾在2019年，拿過美式數(shù)學(xué)競賽的冠軍。

圖片

另一位創(chuàng)始人Chris Zhu，也是在哈佛就讀時就在校外瘋狂實(shí)習(xí)，甚至還沒有從哈佛畢業(yè)，就已經(jīng)成為兼職教員。

圖片

他個人的工作經(jīng)歷更為豐富些，不僅在高校MIT擔(dān)任研究員、哈佛兼職教學(xué)研究員，還曾在亞馬遜等公司做過實(shí)習(xí)。

圖片

最后一位聯(lián)創(chuàng)兼COO Robert Wachen是一個多領(lǐng)域的創(chuàng)業(yè)者，曾創(chuàng)辦了4家公司。

圖片

圖片

接下來，就看看他們會如何去締造一個新的硅谷神話。

參考資料：https://www.etched.com/announcing-etched

責(zé)任編輯：武曉燕來源：新智元

英偉達(dá)AI 芯片

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營