挑戰(zhàn)英偉達(dá)H100霸權(quán)!IBM模擬人腦造神經(jīng)網(wǎng)絡(luò)芯片,效率提升14倍,打破AI模型耗電難題
最近,IBM推出一款全新的14nm模擬AI芯片,效率達(dá)到了最領(lǐng)先GPU的14倍,可以讓H100物有所值。
論文地址:https://www.nature.com/articles/s41928-023-01010-1
目前,生成式AI發(fā)展道路上最大的攔路虎,就是它驚人的耗電量。AI所需的資源,是不可持續(xù)增長的。
而IBM,一直在研究重塑AI計算的方法。他們的一大成就,就是模擬內(nèi)存計算/模擬人工智能方法,就可以借助神經(jīng)網(wǎng)絡(luò)在生物大腦中運(yùn)行的關(guān)鍵特征,來減少能耗。
這種方法,可以最大限度地減少我們在計算上花費(fèi)的時間和精力。
英偉達(dá)的壟斷,要被顛覆了?
IBM AI未來的最新藍(lán)圖:模擬AI芯片能效高出14倍
根據(jù)外媒Insider的報道,半導(dǎo)體研究公司SemiAnalysis的首席分析師Dylan Patel分析,ChatGPT每天的運(yùn)行成本超過了70萬美元。
ChatGPT需要大量算力,才能根據(jù)用戶的提示生成回答。絕大部分成本,都是在昂貴的服務(wù)器上產(chǎn)生的。
在往后,訓(xùn)練模型和運(yùn)行基礎(chǔ)設(shè)施的成本只會越來越飆升。
IBM在Nature上發(fā)文表示,這款全新芯片能夠通過削減能耗,來緩解構(gòu)建和運(yùn)營Midjourney或GPT-4等生成式AI企業(yè)的壓力。
這些模擬芯片與數(shù)字芯片有不同的構(gòu)建方式,數(shù)字芯片可以操作模擬信號,理解0到1之間的漸變,但只適用于不同的二進(jìn)制信號。
模擬內(nèi)存計算/模擬AI
而IBM的全新方法,就是模擬內(nèi)存計算,或簡稱模擬AI。它借助神經(jīng)網(wǎng)絡(luò)在生物大腦中運(yùn)行的關(guān)鍵特征,來減輕了能耗。
在人類和其他動物的大腦中,突觸的強(qiáng)度(或「權(quán)重」)決定了神經(jīng)元之間的交流。
對于模擬AI系統(tǒng),IBM將這些突觸權(quán)重存儲在納米級電阻存儲器器件(如相變存儲器PCM)的電導(dǎo)值中,并利用電路定律,減少在存儲器和處理器之間不斷發(fā)送數(shù)據(jù)的需求,執(zhí)行乘法累加(MAC)運(yùn)算——DNN中的主要運(yùn)算。
現(xiàn)在為很多生成式AI平臺提供動力的,是英偉達(dá)的H100和A100。
然而,如果IBM對芯片原型進(jìn)行迭代,并且成功推向了大眾市場,這種新型芯片就很有可能取代英偉達(dá),成為全新的支柱。
這款14nm模擬AI芯片,可以為每個組件編碼3500萬個相變存儲設(shè)備,可以模擬多達(dá)1700萬個參數(shù)。
并且,這款芯片模仿了人腦的運(yùn)作方式,由微芯片直接在內(nèi)存中執(zhí)行計算。
這款芯片的系統(tǒng)能夠?qū)崿F(xiàn)高效的語音識別和轉(zhuǎn)錄,準(zhǔn)確性接近了數(shù)字硬件設(shè)施。
而這款芯片大約達(dá)到了14倍,而之前的模擬表明,這種硬件的能效甚至達(dá)到了當(dāng)今最領(lǐng)先GPU的40倍到140倍。
PCM交叉開關(guān)陣列、編程與數(shù)字信號處理
這場生成式AI革命,才剛剛開始。而深度神經(jīng)網(wǎng)絡(luò)(DNN)徹底改變了AI領(lǐng)域,隨著基礎(chǔ)模型和生成式AI的發(fā)展而日益突出。
然而,在傳統(tǒng)的數(shù)學(xué)計算架構(gòu)上運(yùn)行這些模型,會限制它們的性能和能源效率。
雖然在開發(fā)用于AI推理的硬件方面,也取得了不少進(jìn)展,但其中許多架構(gòu),在物理上拆分了內(nèi)存和處理單元。
這就意味著,AI模型通常存儲在離散的內(nèi)存位置,要完成計算任務(wù),就需要在內(nèi)存和處理單元之間不斷打亂數(shù)據(jù)。這個過程會大大減慢計算速度,限制可實(shí)現(xiàn)的最大能效。
PCM設(shè)備的性能特點(diǎn)、使用相位配置和導(dǎo)納來存儲模擬式的突觸權(quán)重
IBM的基于相變存儲器(PCM)的人工智能加速芯片,擺脫了這種限制。
相變存儲器(PCM)可以實(shí)現(xiàn)計算存儲融合,在存儲器內(nèi)直接進(jìn)行矩陣向量乘法,避免了數(shù)據(jù)傳輸?shù)膯栴}。
同時,IBM的模擬AI芯片通過硬件級的計算存儲融合,實(shí)現(xiàn)了高效的人工智能推理加速,是這一領(lǐng)域的重要進(jìn)展。
模擬AI的兩大關(guān)鍵挑戰(zhàn)
為了將模擬AI的概念變?yōu)楝F(xiàn)實(shí),需要克服兩個關(guān)鍵挑戰(zhàn):
1. 存儲器陣列的計算精度必須與現(xiàn)有數(shù)字系統(tǒng)相當(dāng)
2. 存儲器陣列能與其他數(shù)字計算單元以及模擬人工智能芯片上的數(shù)字通信結(jié)構(gòu)無縫對接
IBM在Albany Nano的技術(shù)中心制造了著這種基于相變內(nèi)存的人工智能加速芯片。
該芯片由64個模擬內(nèi)存計算內(nèi)核組成,每個內(nèi)核包含256×256的交叉條陣突觸單元。
并且,每個芯片中都集成了緊湊的時基模數(shù)轉(zhuǎn)換器,用于在模擬和數(shù)字世界之間進(jìn)行轉(zhuǎn)換。
而芯片中的輕量級數(shù)字處理單元,也可執(zhí)行簡單的非線性神經(jīng)元激活函數(shù)和縮放操作。
每個核心可看作一個tile,可以進(jìn)行與深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的一個層(比如卷積層)相關(guān)的矩陣向量乘法及其他運(yùn)算。
權(quán)重矩陣被編碼成PCM器件的模擬電導(dǎo)值存于芯片上。
在芯片的核心陣列中間集成了一個全局?jǐn)?shù)字處理單元,用來實(shí)現(xiàn)一些比矩陣向量乘法更復(fù)雜的運(yùn)算,這對某些類型的神經(jīng)網(wǎng)絡(luò)(如LSTM)執(zhí)行是關(guān)鍵的。
芯片上在所有核心以及全局?jǐn)?shù)字處理單元之間集成了數(shù)字通信通路,用于核心之間以及核心與全局單元之間的數(shù)據(jù)傳輸。
a:電子設(shè)計自動化快照和芯片顯微圖,可以看到64個核心和5616個pad
b:芯片不同組件的示意圖,包括64個核心、8個全局?jǐn)?shù)字處理單元和核心間的數(shù)據(jù)鏈路
c:單個基于PCM的內(nèi)存計算核心的結(jié)構(gòu)
d:全局?jǐn)?shù)字處理單元的結(jié)構(gòu),用于LSTM相關(guān)計算
利用該芯片,IBM對模擬內(nèi)存計算的計算精度進(jìn)行了全面的研究,并在CIFAR-10圖像數(shù)據(jù)集上獲得了92.81%的精確度。
a:用于CIFAR-10的ResNet-9網(wǎng)絡(luò)結(jié)構(gòu)
b:將該網(wǎng)絡(luò)映射到芯片上的方式
c:硬件實(shí)現(xiàn)的CIFAR-10測試精度
這是目前所報道的使用類似技術(shù)的芯片中精度最高的。
IBM還將模擬內(nèi)存計算與多個數(shù)字處理單元和數(shù)字通信結(jié)構(gòu)無縫結(jié)合。
該芯片8位輸入輸出矩陣乘法的單位面積吞吐量為400 GOPS/mm2,比以前基于電阻式存儲器的多核內(nèi)存計算芯片高出15倍以上,同時實(shí)現(xiàn)了相當(dāng)?shù)哪苄А?/span>
而在字符預(yù)測任務(wù)和圖像標(biāo)注生成任務(wù)中,IBM通過在硬件上測量的結(jié)果與其他方法的比較,展示了相關(guān)任務(wù)在模擬AI芯片上運(yùn)行的網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)重編程以及測量結(jié)果的信息。
用于字符預(yù)測的LSTM測量結(jié)果
用于圖像標(biāo)注生成的LSTM網(wǎng)絡(luò)測量結(jié)果
權(quán)重編程過程
英偉達(dá)的護(hù)城河深不見底?
英偉達(dá)的壟斷,有這么容易打破嗎?
Naveen Rao是一名神經(jīng)科學(xué)出身的科技企業(yè)家,他曾試圖與全球領(lǐng)先的人工智能制造商英偉達(dá)競爭。
「每個人都是基于英偉達(dá)進(jìn)行開發(fā)的?!筊ao說,「如果你想推出新的硬件,你就得趕上去和英偉達(dá)競爭?!?/span>
Rao在英特爾收購的一家初創(chuàng)企業(yè)中致力開發(fā)旨在取代英偉達(dá)GPU的芯片,但在離開英特爾后,他在自己領(lǐng)導(dǎo)的軟件初創(chuàng)公司MosaicML里使用了英偉達(dá)的芯片。
Rao表示,英偉達(dá)不僅在芯片上與其他產(chǎn)品拉開了巨大的差距,還通過創(chuàng)建一個大型的AI程序員社區(qū),實(shí)現(xiàn)了芯片之外的差異化——
AI程序員一直在使用該公司的技術(shù)進(jìn)行創(chuàng)新。
十多年來,英偉達(dá)在生產(chǎn)能夠執(zhí)行復(fù)雜AI任務(wù)(如圖像、面部和語音識別)以及為ChatGPT等聊天機(jī)器人生成文本的芯片方面,建立了幾乎無法撼動的領(lǐng)先地位。
這家曾經(jīng)的行業(yè)新貴之所以能夠取得AI芯片制造的主導(dǎo)地位,是因?yàn)樗茉缇驼J(rèn)識到了AI發(fā)展的趨勢,為這些任務(wù)專門定制了芯片,并開發(fā)了促進(jìn)AI開發(fā)的關(guān)鍵軟件。
從那時起,英偉達(dá)的聯(lián)合創(chuàng)始人兼CEO黃仁勛,就在不斷地提高英偉達(dá)標(biāo)準(zhǔn)。
這使得英偉達(dá)成為了人工智能開發(fā)的一站式供應(yīng)商。
據(jù)研究公司Omdia調(diào)查,雖然谷歌、亞馬遜、Meta、IBM和其他公司也生產(chǎn)人工智能芯片,但到目前,英偉達(dá)占人工智能芯片銷售額的70%以上。
今年6月,英偉達(dá)的市值已突破1萬億美元,成為全球市值最高的芯片制造商。
FuturumGroup分析師表示:「客戶會等18個月才購買英偉達(dá)系統(tǒng),而不是從初創(chuàng)企業(yè)或其他競爭對手那里購買現(xiàn)成的芯片。這太不可思議了?!?/span>
英偉達(dá),重塑計算方式
1993年,黃仁勛聯(lián)合創(chuàng)立了英偉達(dá),主要的業(yè)務(wù)是制造在電子游戲中渲染圖像的芯片。當(dāng)時的標(biāo)準(zhǔn)微處理器擅長按順序執(zhí)行復(fù)雜的計算,但英偉達(dá)生產(chǎn)的GPU可以同時處理多個簡單任務(wù)。
2006年,黃仁勛進(jìn)一步推進(jìn)了這一進(jìn)程。他發(fā)布了名為CUDA的軟件技術(shù),該技術(shù)可幫助GPU為新任務(wù)編程,使GPU從單一用途的芯片轉(zhuǎn)變?yōu)楦ㄓ玫男酒?,能承?dān)物理和化學(xué)模擬等領(lǐng)域的其他工作。
2012年,研究人員利用GPU在識別圖像中的貓等任務(wù)中實(shí)現(xiàn)了與人類相似的準(zhǔn)確度,這是一項(xiàng)重大突破,也是根據(jù)文本提示生成圖像等最新發(fā)展的先驅(qū)。
而據(jù)該英偉達(dá)估計,這項(xiàng)工作在十年間耗資超過300億美元,使英偉達(dá)不再僅僅是一個零部件供應(yīng)商。除了與頂尖科學(xué)家和初創(chuàng)企業(yè)合作,公司還組建了一支團(tuán)隊,直接參與人工智能活動,如創(chuàng)建和訓(xùn)練語言模型。
此外,從業(yè)者的需要導(dǎo)致英偉達(dá)開發(fā)了CUDA以外的多層關(guān)鍵軟件,其中也包括數(shù)百條預(yù)構(gòu)建代碼的庫。
在硬件方面,英偉達(dá)因每兩三年就能持續(xù)提供更快的芯片而贏得聲譽(yù)。2017年英偉達(dá)開始調(diào)整GPU以處理特定的AI計算。
去年9月,英偉達(dá)宣布生產(chǎn)名為H100的新型芯片,并對其進(jìn)行了改進(jìn),以處理所謂的Transformer運(yùn)算。這種運(yùn)算被證明是ChatGPT等服務(wù)的基礎(chǔ),黃仁勛稱之為生成式人工智能的「iPhone時刻」。
如今,除非有其他廠家的產(chǎn)品能和英偉達(dá)的GPU形成正面競爭,才有可能打破目前英偉達(dá)對AI算力的壟斷格局。
IBM的模擬AI芯片,有這個可能嗎?