計(jì)算機(jī)架構(gòu)的新黃金時(shí)代,為什么到了2021年還沒(méi)有開始
4 月 21 日,英偉達(dá)發(fā)布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架構(gòu)、最新制程的性能和軟硬件體系加持,為眾多科技公司在 AI 推理和訓(xùn)練時(shí)帶來(lái)了新的選擇。該公司預(yù)計(jì)在今年夏季,新款芯片即將會(huì)出現(xiàn)在眾多公司的云服務(wù)器中。
對(duì)于熟悉機(jī)器學(xué)習(xí)領(lǐng)域的人們來(lái)說(shuō),每隔一兩年推出的新一代 GPU,是他們最為關(guān)注的新動(dòng)向。英偉達(dá)的旗艦芯片算力也總是其它芯片創(chuàng)業(yè)公司用來(lái)比較的標(biāo)桿。
但對(duì)那些希望尋找人工智能最合適算力的研究者們來(lái)說(shuō),GPU 因?yàn)椤高^(guò)于通用」,常常會(huì)被認(rèn)為并非 AI 的最終解決方案。但迄今為止,英偉達(dá) GPU 仍然占據(jù)市場(chǎng)的主流。在 GPU 引領(lǐng)深度學(xué)習(xí)技術(shù)爆發(fā)之后,AI 芯片領(lǐng)域還會(huì)出現(xiàn)新的變化嗎?
和 AI 算法應(yīng)該怎么寫一樣,人們對(duì)于芯片應(yīng)該怎么造的思考其實(shí)一直都沒(méi)有停止,芯片領(lǐng)域里下一個(gè)大方向可能在于「特定領(lǐng)域的體系結(jié)構(gòu)(DSA)」。
計(jì)算機(jī)架構(gòu)傳奇人物、2017 年圖靈獎(jiǎng)獲得者 John Hennessy 和 David Patterson 在 2019 年發(fā)表于 ACM 雜志上的文章《計(jì)算機(jī)架構(gòu)的新黃金時(shí)代》中曾提出:當(dāng)摩爾定律不再適用之后,一種更加以硬件為中心的設(shè)計(jì)思路——針對(duì)特定問(wèn)題和領(lǐng)域的架構(gòu) DSA 將會(huì)展現(xiàn)實(shí)力。這是一種特定領(lǐng)域的可編程處理器,它仍是圖靈完備的,但針對(duì)特定類別的應(yīng)用進(jìn)行了定制。
John L. Hennessy 和 David A. Patterson,兩人合著有《計(jì)算機(jī)體系結(jié)構(gòu):量化研究方法》一書。
從定義上來(lái)看,DSA 與專用集成電路 ASIC 不同,后者僅適用于單一功能,運(yùn)行其上的代碼很難進(jìn)行修改。DSA 板卡通常被稱為加速器,因?yàn)榕c在通用 CPU 上執(zhí)行整個(gè)應(yīng)用程序相比,它們可以加速某些應(yīng)用程序。此外,DSA 可以實(shí)現(xiàn)更好的性能,因?yàn)樗鼈兏N近應(yīng)用的實(shí)際需求。DSA 的例子包括最常見(jiàn)的圖形加速單元(即 GPU),用于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)處理器,以及軟件定義處理器(SDN)。在特定領(lǐng)域的應(yīng)用中,DSA 的效率更高,能耗更低。
通常,適用于 AI 推理的 DSA 處理器無(wú)法應(yīng)用于高性能通用計(jì)算、光線渲染等任務(wù),但又不像 ASIC 那樣只能勝任很少的一些固化算法任務(wù)。在人工智能的任務(wù)上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持計(jì)算機(jī)視覺(jué)和語(yǔ)音的任務(wù)處理,還可以通過(guò) TVM 等工具覆蓋各種機(jī)器學(xué)習(xí)框架。
如果說(shuō)體系架構(gòu)大師展望的技術(shù)方案是 DSA 成立的充分條件,那么科技公司對(duì)于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。
目前,想要通過(guò)各種方法來(lái)構(gòu)建一塊 GPU,與英偉達(dá)實(shí)現(xiàn)相似的性能仍然非常困難。但在以數(shù)據(jù)中心為核心的互聯(lián)網(wǎng)新時(shí)代,國(guó)內(nèi)頭部互聯(lián)網(wǎng)公司的規(guī)模為整個(gè)行業(yè)帶來(lái)了前所未有的 AI 落地場(chǎng)景。如果能夠準(zhǔn)確找到落地需求,構(gòu)建高效的 AI 加速器,不僅可以大幅提升機(jī)器學(xué)習(xí)的價(jià)值,或許還能催生出潛在的新市場(chǎng)。
在這種情況下,能夠搞清應(yīng)用方向就成為了 DSA 能否成功的關(guān)鍵。如今科技公司需要深度學(xué)習(xí)推斷的業(yè)務(wù)包括推薦系統(tǒng)、內(nèi)容審核、AI 教育、人工智能客服、圖文翻譯等各種方面。圍繞這些業(yè)務(wù),所有互聯(lián)網(wǎng)廠商都產(chǎn)生了大量算力需求。
對(duì)于一家半導(dǎo)體公司來(lái)說(shuō),要想打造一塊能夠完成這些任務(wù)的芯片,其設(shè)計(jì)要符合客戶應(yīng)用場(chǎng)景、底層需求,具備高效的實(shí)現(xiàn)方式,同時(shí)也要在交付成本、維護(hù)服務(wù)、更新迭代的速度、軟件友好的程度,甚至銷售策略上具備競(jìng)爭(zhēng)力。
體系結(jié)構(gòu)之外,另一個(gè)契機(jī)在于指令集,RISC-V 興起也在讓芯片領(lǐng)域發(fā)生著變化,它的模塊化和可擴(kuò)展性完美地匹配 DSA 靈活高效的技術(shù)需求。
誕生于 2010 年的 RISC-V 是一個(gè)開源的精簡(jiǎn)指令集架構(gòu),適用于創(chuàng)建微處理器和微控制器。最早由美國(guó)加州大學(xué)伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等開發(fā)人員于 2010 年提出,又得到了計(jì)算機(jī)體系結(jié)構(gòu)大師 David Patterson 的支持。這個(gè)架構(gòu)允許開發(fā)者免費(fèi)開發(fā)和使用,包括直接在芯片上進(jìn)行商業(yè)化實(shí)現(xiàn)。
今年 1 月,外媒報(bào)道稱頂級(jí)芯片設(shè)計(jì)大師 Jim Keller 加入了初創(chuàng)公司 Tenstorrent,擔(dān)任 CTO 以及董事會(huì)成員。
據(jù)了解,Tenstorrent 設(shè)計(jì)的是高性能 AI 訓(xùn)練和推理,異構(gòu)架構(gòu) AI SoC。該公司設(shè)計(jì)了針對(duì)機(jī)器學(xué)習(xí)優(yōu)化的 Tensix 處理器內(nèi)核,為了運(yùn)行傳統(tǒng)的工作負(fù)載,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 內(nèi)核,而 X280 是一個(gè) 64 位的 RISC-V 內(nèi)核,集成了 512 位寬的 RISC-V 矢量指令擴(kuò)展(RVV)。
無(wú)獨(dú)有偶,美國(guó)的芯片設(shè)計(jì)公司 Pixilica 已與 RV64X 團(tuán)隊(duì)合作,提出了一套新的圖形指令集,旨在融合 CPU-GPU ISA,并將其用于 3D 圖形和媒體處理,從而為 FPGA 創(chuàng)建了開源參考實(shí)現(xiàn)。Europena 工具開發(fā)商 Codasip 的高級(jí)市場(chǎng)總監(jiān) Roddy Urquhart 表示,這是 RISC-V 生態(tài)系統(tǒng)的優(yōu)勢(shì)之一:「如果要?jiǎng)?chuàng)建特定于領(lǐng)域的處理器,關(guān)鍵任務(wù)之一就是選擇符合軟件需求的指令集架構(gòu)(ISA)。」
「有些公司選擇從頭開始創(chuàng)建指令集,但是如果你有這樣的 ISA,則可能要付出移植軟件的代價(jià)?,F(xiàn)在,RISC-V 開放式的 ISA 可以提供一個(gè)很好的起點(diǎn)和一個(gè)軟件生態(tài)系統(tǒng),」Urquhart 表示。RISC-V ISA 以模塊化的方式設(shè)計(jì),使處理器設(shè)計(jì)人員不僅可以添加任何標(biāo)準(zhǔn)擴(kuò)展,還可以創(chuàng)建自己的自定義指令,同時(shí)保持完整的 RISC-V 兼容性。
「為特定領(lǐng)域的處理器選擇了起點(diǎn),然后有必要弄清楚需要哪些特殊指令來(lái)滿足你的計(jì)算要求。這需要仔細(xì)分析你需要在處理器核心上運(yùn)行的軟件。概要分析工具可以識(shí)別計(jì)算熱點(diǎn),一旦了解,設(shè)計(jì)人員就可以創(chuàng)建自定義指令來(lái)解決這些熱點(diǎn)。」
雖然基于 Arm 架構(gòu)設(shè)計(jì)的處理器已出現(xiàn)在幾乎所有智能手機(jī)及數(shù)十億電子設(shè)備中,但越來(lái)越多人在將目光轉(zhuǎn)向 RISC-V。Linux 的主要開發(fā)者 Arnd Bermann 就認(rèn)為,到 2030 年我們將看到三種體系結(jié)構(gòu):Arm、RISC-V 和 X86 占據(jù)市場(chǎng)大部分份額。然而對(duì)于 DSA 而言,顯然 RISC-V 擁有巨大的優(yōu)勢(shì)。
科技公司自造芯片是不是最合理的方式?一些公司已經(jīng)提出了深度結(jié)合自身業(yè)務(wù),并與軟件體系綁定,可以進(jìn)行 AI 模型訓(xùn)練的芯片,包括亞馬遜的 Inferentia 和 Trainium、谷歌 TPU 等等。但這些算力僅限于對(duì)于各家公司自有業(yè)務(wù)體系進(jìn)行特化,面向的范圍有限。
從一些大廠最近的行動(dòng)中,我們可以看出人們的思考變化:百度等公司的 AI 芯片業(yè)務(wù)已經(jīng)獨(dú)立,而騰訊、字節(jié)跳動(dòng)等公司則選擇了投資創(chuàng)業(yè)公司的方式,希望能夠培養(yǎng)出面向廣泛市場(chǎng)的新體系。
自 2010 年左右深度學(xué)習(xí)技術(shù)大發(fā)展至今,我們見(jiàn)證過(guò)寒武紀(jì)、昇騰等芯片橫空出世,又被谷歌、亞馬遜的技術(shù)能力所驚艷,但在無(wú)盡的算力需求下,國(guó)內(nèi) AI 芯片爆發(fā)的時(shí)代似乎依然還沒(méi)有到來(lái)。
但在最近,指令集、體系架構(gòu)和人工智能應(yīng)用的落地已經(jīng)讓情況發(fā)生了變化。隨著字節(jié)跳動(dòng)等投資 AI 芯片創(chuàng)業(yè)公司快速流片成功,專屬推理芯片的應(yīng)用獲得良好效果,在科技領(lǐng)域里發(fā)展 DSA 芯片的新風(fēng)向正在出現(xiàn)。
在芯片產(chǎn)品生命的周期中,如果有一家創(chuàng)業(yè)公司可以更加理解場(chǎng)景,定義出最合適的方案,最快地做出實(shí)現(xiàn),就可以獲得相對(duì)領(lǐng)先的位置。同時(shí),如果這種新的機(jī)制催生出了足夠高效的算力,科技公司的開發(fā)者們也可以創(chuàng)造出更多的 AI 應(yīng)用。
根據(jù)目前的估算,國(guó)內(nèi)市場(chǎng)每年會(huì)出現(xiàn) 20-30 萬(wàn)片的 AI 推理計(jì)算版卡需求。對(duì)于國(guó)內(nèi)的創(chuàng)業(yè)者來(lái)說(shuō),這或許會(huì)是一個(gè)前所未有的發(fā)展機(jī)會(huì),實(shí)力強(qiáng)大的工程師團(tuán)隊(duì)將會(huì)在新的競(jìng)爭(zhēng)過(guò)程中脫穎而出。