人工智能專用SoC芯片IP需求分析
本文轉(zhuǎn)載自微信公眾號(hào)「智能計(jì)算芯世界」,作者synopsys 。轉(zhuǎn)載本文請(qǐng)聯(lián)系智能計(jì)算芯世界公眾號(hào)。
目前支持AI計(jì)算開發(fā)的半導(dǎo)體有獨(dú)立加速器和 in-memory/near-memory 計(jì)算技術(shù)兩種。獨(dú)立加速器以某種方式連接到應(yīng)用處理器,并且有一些應(yīng)用處理器在設(shè)備上添加了神經(jīng)網(wǎng)絡(luò)硬件加速。獨(dú)立加速器可以通過芯片與芯片的互連而實(shí)現(xiàn)了將硬件擴(kuò)展到多個(gè)芯片的巨大創(chuàng)新,從而實(shí)現(xiàn)最高性能,in-memory 和 near-memory 計(jì)算技術(shù)主要滿足減少能耗需求。
設(shè)備上的 AI 加速正在通過利用處理器和架構(gòu)對(duì)他們的神經(jīng)網(wǎng)絡(luò)處理器進(jìn)行升級(jí),這些處理器和架構(gòu)是獨(dú)立半導(dǎo)體的先驅(qū)。半導(dǎo)體領(lǐng)導(dǎo)者、行業(yè)巨頭和數(shù)百家初創(chuàng)公司都在全力將 AI 能力推廣到各個(gè)行業(yè)的大量新型 SoC 和芯片組中,涵蓋從云服務(wù)器組到每個(gè)廚房中的家庭助理等所有環(huán)節(jié)。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)用在許多不同的應(yīng)用中,為使用它們的人提供了強(qiáng)大的新工具。例如,它們可以用于高級(jí)安全威脅分析、預(yù)測和預(yù)防安全漏洞,以及通過預(yù)測潛在買家的購物流程而幫助廣告商識(shí)別和簡化銷售流程。這是在融合最新 GPU 和 AI 加速器半導(dǎo)體技術(shù)的服務(wù)器群中運(yùn)行的數(shù)據(jù)中心應(yīng)用的兩個(gè)實(shí)例。
但 AI 設(shè)計(jì)并未包含在數(shù)據(jù)中心內(nèi)。許多新功能可基于傳感器輸入的組合而了解發(fā)生的情況,例如用于對(duì)象和面部檢測的視覺系統(tǒng),用于改進(jìn)人機(jī)接口的自然語言理解以及上下文感知)。這些深度學(xué)習(xí)能力已添加到所有行業(yè)的 SoC 中,包括汽車、移動(dòng)、數(shù)字家庭、數(shù)據(jù)中心和物聯(lián)網(wǎng) (IoT)。
為實(shí)現(xiàn)最高性能,針對(duì)云 AI 加速的 SoC 設(shè)計(jì)人員致力于最大限度地提升性能以解決重大問題。執(zhí)行 AI 訓(xùn)練以及為了得到最高準(zhǔn)確度而需要的最復(fù)雜的 AI 算法,需要很高的處理器運(yùn)算能力(TOPS),這最終可通過縮短訓(xùn)練時(shí)間而降低成本,并減少推理過程所需的能耗。云計(jì)算市場的這些半導(dǎo)體硬件創(chuàng)新使人們認(rèn)為可能需要花費(fèi)數(shù)年開發(fā)才能完成的工作成為可能,并縮短了取得突破的時(shí)間,例如,以識(shí)別和疫苗開發(fā)的形式找到當(dāng)前最令人擔(dān)憂的健康問題的治療方法。
然而,并非所有問題都可以在云端解決,因此,許多 AI 加速器架構(gòu)經(jīng)過修改,可支持邊緣計(jì)算和設(shè)備端 AI。在邊緣服務(wù)器和插入式加速卡中,成本和功耗更加重要。隨著我們越來越靠近并進(jìn)入數(shù)據(jù)收集點(diǎn)的應(yīng)用“邊緣設(shè)備加速器”,單位能耗性能的優(yōu)化成為最高設(shè)計(jì)要求。
邊緣設(shè)備加速器的資源、處理和內(nèi)存有限,因此,經(jīng)過訓(xùn)練的算法需要壓縮和裁剪,以滿足功耗和性能的要求,同時(shí)保證所需的準(zhǔn)確性。最大的 AI 細(xì)分市場是設(shè)備端 AI,它會(huì)影響多種應(yīng)用,例如汽車 ADAS、數(shù)字電視的超高圖像分辨率、音頻和語音識(shí)別以及智能音箱中的語言理解。這類應(yīng)用包括執(zhí)行面部檢測、面部識(shí)別和物體識(shí)別的攝像頭。
例如,在某些行業(yè)中,攝像頭中的設(shè)備端 AI 可對(duì)工業(yè)應(yīng)用執(zhí)行缺陷分析。設(shè)備端 AI 類別還包括消費(fèi)類應(yīng)用,例如手機(jī)和 AR/VR 耳機(jī),這些應(yīng)用可實(shí)現(xiàn)前面提到的許多AI 功能,例如導(dǎo)航、超高圖像分辨率、語音理解、對(duì)象 / 面部檢測等,而且所有這些都在小巧的體積中實(shí)現(xiàn)。移動(dòng)設(shè)備通過最新的工藝節(jié)點(diǎn)而持續(xù)在工藝中保持領(lǐng)先地位,這與用于云計(jì)算的工藝節(jié)點(diǎn)類似。邊緣和設(shè)備端計(jì)算不斷優(yōu)化性能。根據(jù)市場的不同,可以采用傳統(tǒng)工藝節(jié)點(diǎn)。
2020 年,AI 市場仍處于初期階段,并有望在未來幾年內(nèi)快速增長。大于 100W 的云 AI SoC 廠商包括市場領(lǐng)導(dǎo)者NVIDIA 和 Intel。通過先發(fā)優(yōu)勢,這些廠商占據(jù)了主導(dǎo)地位。大量初創(chuàng)企業(yè)希望在效率方面比這些解決方案高出多倍。此外,Google、TPU、阿里巴巴、亞馬遜和百度等系統(tǒng)公司也設(shè)計(jì)自己的芯片,并通過優(yōu)化而支持其業(yè)務(wù)模式。所有這些公司都為客戶提供云出租服務(wù),使客戶能夠在云端進(jìn)行培訓(xùn)和推理。
邊緣計(jì)算 (>5W) SoC 通常利用現(xiàn)有的云解決方案,或者經(jīng)過修改的云架構(gòu),但是許多初創(chuàng)企業(yè)通過更低功耗和更優(yōu)化的解決方案而找到了自己的市場位置,同時(shí)在性能上遠(yuǎn)遠(yuǎn)超越當(dāng)今的解決方案。
在圖2 中,5W 以下市場包括設(shè)備端和獨(dú)立加速器,通常稱為 AIoT 加速器,這一市場正在迅速發(fā)展。對(duì)于設(shè)備端解決方案,移動(dòng)市場在出貨量方面占主導(dǎo)地位,而汽車市場也在快速增長,例如 Tesla ASIC。在低于 5W 的市場中,AIoT 加速器仍然只占很小的比例,但 Perceive、Kneron、Gyrfalcon、Brainchip 和 GrAI Matter Labs 等公司都在試圖突圍。
每個(gè) AI 市場細(xì)分都有不同的目標(biāo)和挑戰(zhàn)。云 AI SoC 設(shè)計(jì)人員注重縮短昂貴的訓(xùn)練時(shí)間,同時(shí)適應(yīng)可包含 80 億個(gè)甚至更多參數(shù)的最復(fù)雜的新算法。邊緣計(jì)算 AI 設(shè)計(jì)更注重降低功耗和延遲。5G 和設(shè)備端 AI 旨在實(shí)現(xiàn)低延遲,但對(duì)于 5G,這些 AI 并不用于壓縮模型,因?yàn)檫@可能是非常昂貴且耗時(shí)的設(shè)計(jì)過程。對(duì)于設(shè)備端 AI,您需要通過壓縮模型,最大程度優(yōu)化功能和性能的推理。
最后,AIoT獨(dú)立加速器設(shè)計(jì)人員使用更多創(chuàng)新技術(shù),并且往往是 TOPS/W 的領(lǐng)導(dǎo)者。在提高密度,縮短延遲,以及應(yīng)對(duì)存儲(chǔ)系數(shù)的波動(dòng)方面,他們承擔(dān)著更多的風(fēng)險(xiǎn),而且他們還是裁剪和壓縮算法以及為客戶實(shí)施算法的專家,提供了獨(dú)特的差異化能力。
除這些獨(dú)特的挑戰(zhàn)外,AI 市場也面臨著一系列核心挑戰(zhàn),包括:
添加專門的處理能力,可以更高效地執(zhí)行必要的數(shù)學(xué)運(yùn)算,例如矩陣乘法和點(diǎn)積
高效的內(nèi)存訪問,可處理深度學(xué)習(xí)所需的唯一系數(shù),例如權(quán)重和激活
可靠且經(jīng)過驗(yàn)證的實(shí)時(shí)接口,用于芯片到芯片、芯片到云端、傳感器數(shù)據(jù)以及加速器到主機(jī)的連接
保護(hù)數(shù)據(jù)并防止黑客攻擊和數(shù)據(jù)損壞
AI 模型使用大量內(nèi)存,這增加了芯片的成本。訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能需要幾 GB 到 10 GB 的數(shù)據(jù),這需要使用最新的 DDR 技術(shù),以滿足容量要求。例如,作為圖像神經(jīng)網(wǎng)絡(luò)的 VGG-16 在訓(xùn)練時(shí)需要大約 9GB 的內(nèi)存。更精確的模型 VGG-512 需要 89GB 的數(shù)據(jù)才能進(jìn)行訓(xùn)練。為了提高 AI 模型的準(zhǔn)確性,數(shù)據(jù)科學(xué)家使用了更大的數(shù)據(jù)集。同樣,這會(huì)增加訓(xùn)練模型所需的時(shí)間或增加解決方案的內(nèi)存需求。
由于需要大規(guī)模并行矩陣乘法運(yùn)算以及模型的大小和所需系數(shù)的數(shù)量,這需要具有高帶寬存取能力的外部存儲(chǔ)器。新的半導(dǎo)體接口 IP,如高帶寬存儲(chǔ)器 (HBM2) 和未來的衍生產(chǎn)品 (HBM2e),正被迅速采用,以滿足這些需求。先進(jìn)的 FinFET 技術(shù)支持更大的片上 SRAM 陣列和獨(dú)特的配置,具有定制的存儲(chǔ)器到處理器和存儲(chǔ)器到存儲(chǔ)器接口,這些技術(shù)正在開發(fā)中,目的是更好地復(fù)制人腦并消除存儲(chǔ)器的約束。
AI 模型可以壓縮。這種技術(shù)是確保模型在位于手機(jī)、汽車和物聯(lián)網(wǎng)應(yīng)用邊緣的 SoC 中受限的存儲(chǔ)器架構(gòu)上運(yùn)行所必需的。壓縮采用剪枝(pruning)和量化(pruning)技術(shù)進(jìn)行,而不降低結(jié)果的準(zhǔn)確性。這使得傳統(tǒng) SoC 架構(gòu)(具有 LPDDR 或在某些情況下沒有外部存儲(chǔ)器)支持神經(jīng)網(wǎng)絡(luò),然而,在功耗和其他方面需要權(quán)衡。隨著這些模型的壓縮,不規(guī)則的存儲(chǔ)器存取和不規(guī)則的計(jì)算強(qiáng)度增加,延長了系統(tǒng)的執(zhí)行時(shí)間和延遲。因此,系統(tǒng)設(shè)計(jì)人員正在開發(fā)創(chuàng)新的異構(gòu)存儲(chǔ)器架構(gòu)。
AI SoC設(shè)計(jì)解決方案
在SoC中添加 AI 功能突顯了當(dāng)今 SoC 架構(gòu)在 AI 方面的薄弱。在為非 AI 應(yīng)用構(gòu)建的 SoC 上實(shí)施視覺、語音識(shí)別和其他深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法時(shí),資源非常匱乏。IP 的選擇和集成明確界定了 AI SoC 的基準(zhǔn)效率,這構(gòu)成了 AI SoC 的“DNA”,或者叫先天性。例如,引入定制處理器或處理器陣列可以加速 AI 應(yīng)用中所需的大規(guī)模矩陣乘法。
云AI加速器
為了應(yīng)對(duì)帶寬和可靠性挑戰(zhàn),云 AI 加速器 SoC 設(shè)計(jì)人員正在集成 HBM2e 和 HBM3,以及用于芯片到芯片通信的高速 SerDes die-to-die 或 PCIe。安全(包括支持 AI 模型加密和身份驗(yàn)證的高速安全協(xié)議加速器)的作用越來越明顯。嵌入式內(nèi)存解決方案的多端口存儲(chǔ)器 (TCAMs) 與 SRAM 編譯器一起有助于減少泄漏。
邊緣計(jì)算AI 加速器
許多邊緣計(jì)算應(yīng)用的主要目標(biāo)是圍繞與較低延遲相關(guān)的新服務(wù)。為了支持較低的延遲,許多新系統(tǒng)都采用了一些最新的行業(yè)接口標(biāo)準(zhǔn),包括 PCIe 5.0、LPDDR5、DDR5、HBM2e、USB 3.2、CXL、基于 PCIe 的 NVMe 以及其他基于新一代標(biāo)準(zhǔn)的技術(shù)。與上一代產(chǎn)品相比,每一種技術(shù)都通過增加帶寬而降低延遲。
比減少延遲的驅(qū)動(dòng)因素更為突出的是為所有這些邊緣計(jì)算系統(tǒng)增加 AI 加速。AI 加速由某些服務(wù)器芯片通過 x86 擴(kuò)展 AVX-512 向量神經(jīng)網(wǎng)絡(luò)指令 (AVX512 VNNI) 等新指令提供,或者提供給移動(dòng)應(yīng)用處理器,例如高通 DSP 內(nèi)核。很多時(shí)候,這種額外的指令集不足以提供預(yù)期任務(wù)所需的低延遲和低功耗,因此,大多數(shù)新系統(tǒng)中還添加了定制 AI 加速器。這些芯片所需的連接能力通常采用帶寬最高的主機(jī)而實(shí)現(xiàn)加速器連接。例如,由于這些帶寬要求直接影響延遲,PCIe 5.0 正迅速得到廣泛的應(yīng)用,最常見的是用在具有多個(gè) AI 加速器的某種交換配置中。
CXL 是另一種為降低延遲并提供緩存一致性而專門開發(fā)的接口,正迅速興起。由于 AI 算法具有異構(gòu)計(jì)算需求和大量內(nèi)存需求,因此,確保緩存一致性至關(guān)重要。
除了本地網(wǎng)關(guān)和聚合服務(wù)器系統(tǒng)之外,單個(gè) AI 加速器通常無法提供足夠的性能,因此需要借助帶寬極高的芯片到芯片的 SerDes PHY 而擴(kuò)展這些加速器。最新發(fā)布的 PHY 支持 56G 和 112G 連接。支持 AI 擴(kuò)展的芯片到芯片要求已經(jīng)在多個(gè)項(xiàng)目中實(shí)施。在基于標(biāo)準(zhǔn)的實(shí)施項(xiàng)目中,以太網(wǎng)可能是一種可擴(kuò)展的選項(xiàng),現(xiàn)在已經(jīng)推出了一些基于這種理念的解決方案。然而,當(dāng)今許多實(shí)施項(xiàng)目都是通過專有控制器而利用最高帶寬的 SerDes。不同的架構(gòu)可能會(huì)改變服務(wù)器系統(tǒng)的未來 SoC 架構(gòu),從而將網(wǎng)絡(luò)、服務(wù)器、AI 和存儲(chǔ)組件整合到集成度更高的 SoC 中,而不是目前實(shí)施的 4 種不同 SoC 中。
設(shè)備端AI
關(guān)于設(shè)備端 AI 處理的一個(gè)最大關(guān)注點(diǎn)就是軟件能力。算法變化很快。設(shè)計(jì)人員需要采用 Tensorflow 和 Caffe 等傳統(tǒng)工具訓(xùn)練初始模型,然后將其映射到設(shè)備上的處理器。借助可針對(duì)特定處理器進(jìn)行優(yōu)化并保持高精度的圖形映射工具,以及進(jìn)行壓縮和修剪的工具,許多工程可以節(jié)省數(shù)月的時(shí)間和精力。如果沒有這些工具,軟件和系統(tǒng)的設(shè)計(jì)速度趕不上硬件的設(shè)計(jì)。
優(yōu)化的內(nèi)存配置可以優(yōu)化設(shè)備端 AI 系統(tǒng)。在開始設(shè)備本身的架構(gòu)設(shè)計(jì)之前,設(shè)計(jì)人員需要擁有可模擬多個(gè) IP 權(quán)限和配置的工具。在運(yùn)行實(shí)際算法的同時(shí),通過利用處理器模擬片上和片外存儲(chǔ)器,可以在開始設(shè)計(jì)之前為設(shè)計(jì)人員提供最有效的架構(gòu)。由于有些設(shè)計(jì)人員尚不清楚如何優(yōu)化系統(tǒng),因此,他們經(jīng)常需要為同一過程節(jié)點(diǎn)開發(fā)多代產(chǎn)品,這會(huì)浪費(fèi)數(shù)月的時(shí)間。
最后,傳感器連接對(duì)于設(shè)備端 AI 系統(tǒng)的視覺至關(guān)重要。MIPI CSI-2 是 CMOS 圖像傳感器的最常見實(shí)施。新的 V3 規(guī)范旨在提高機(jī)器感知能力,并支持更高的精度,從而提供更高質(zhì)量的圖像。特別需要指出的是,智能化能力應(yīng)有助于提高效率,因?yàn)樾聰?shù)據(jù)僅在需要時(shí)才提供,而不是提供整個(gè)圖像。I3C 整合了多個(gè)傳感器,為支持多個(gè)系統(tǒng)輸入源提供了一種低成本的方法。
隨著 AI 能力進(jìn)入新市場,選擇用于集成的 IP 為 AI SoC 提供了關(guān)鍵組件。但除了 IP 之外,設(shè)計(jì)人員還發(fā)現(xiàn),利用 AI 專業(yè)知識(shí)、服務(wù)和工具具有明顯的優(yōu)勢,能夠確保設(shè)計(jì)的按時(shí)交付,為最終客戶提供高質(zhì)量的服務(wù)和高價(jià)值,以滿足新的創(chuàng)新應(yīng)用需求。