NPU 與 GPU 相比,有什么差別?| 技術(shù)速覽 原創(chuàng)
編者按: 隨著2024年被業(yè)界譽(yù)為“AI PC元年”,各大筆記本電腦廠商紛紛推出搭載NPU的全新AI PC,而在介紹產(chǎn)品性能時(shí),“NPU”一詞頻頻被提及。但NPU和我們所熟知的GPU之間的區(qū)別究竟是什么?
我們今天為大家分享的這篇文章將和大家一起初探NPU vs GPU。簡(jiǎn)而言之,NPU專(zhuān)為加速AI任務(wù)而設(shè)計(jì),包括深度學(xué)習(xí)和推理,能夠高效地處理大量數(shù)據(jù),并利用專(zhuān)用存儲(chǔ)器快速執(zhí)行復(fù)雜的AI算法。與GPU相比,NPU體積更小、成本更低、能耗更小,且在特定AI任務(wù)中表現(xiàn)更優(yōu)。
作者 | Pure Storage
編譯 | 岳揚(yáng)
如今,人工智能領(lǐng)域的軟硬件很多都是專(zhuān)門(mén)為人工智能及神經(jīng)網(wǎng)絡(luò)操作的優(yōu)化而定制的。這其中就包括神經(jīng)網(wǎng)絡(luò)處理單元(NPU),大家通常會(huì)將這種硬件與圖形處理器(GPU)進(jìn)行對(duì)比,因?yàn)閮烧叨寄芗涌烊斯ぶ悄苋蝿?wù)的處理速度。NPU 這種硬件已經(jīng)越來(lái)越常見(jiàn)了,它們專(zhuān)門(mén)為高效完成AI/ML任務(wù)而設(shè)計(jì)。但它們之間究竟有何不同呢?
接下來(lái),我們將簡(jiǎn)要探討 NPU 和 GPU 的區(qū)別,并考察、分析每種處理器的優(yōu)勢(shì)和不足。
01 NPU 是什么?
NPU 是神經(jīng)網(wǎng)絡(luò)處理單元(Neural Processing Unit)的縮寫(xiě),這是一種用于提升人工智能和神經(jīng)網(wǎng)絡(luò)相關(guān)任務(wù)性能的專(zhuān)用硬件組件。
乍聽(tīng)之下,NPUs 可能會(huì)被誤認(rèn)為是僅限于科研實(shí)驗(yàn)室或軍事基地的高科技產(chǎn)品,但實(shí)際上,雖然 NPUs 是一項(xiàng)較新的技術(shù),但它們正變得越來(lái)越常見(jiàn)。不久之后,我們就能在臺(tái)式機(jī)和筆記本電腦中見(jiàn)到 NPUs 的身影。目前,大多數(shù)現(xiàn)代智能手機(jī),如近幾年的 iPhone、Google Pixel 和三星 Galaxy,都已經(jīng)在其主 CPU 中集成了 NPUs。
信不信由你,這張幻燈片是從 2013 年高通的 SoC(System-on-a-Chip)展示會(huì)上截取的。而“NPU”這一術(shù)語(yǔ)直到十年后才開(kāi)始受到廣泛關(guān)注。
NPU(神經(jīng)網(wǎng)絡(luò)處理單元)支持神經(jīng)網(wǎng)絡(luò)引擎和網(wǎng)絡(luò)算法,正如其名稱(chēng)所示,這些算法不僅可用于已高度成熟的應(yīng)用場(chǎng)景,比如自動(dòng)駕駛(autonomous driving)和自然語(yǔ)言處理(NLP),也應(yīng)用于人臉識(shí)別、語(yǔ)音識(shí)別和圖像處理等日常生活場(chǎng)景。
02 GPU 是什么?
GPU 是圖形處理單元(Graphics Processing Unit)的縮寫(xiě)。最初是為電子游戲和多媒體應(yīng)用程序中的圖形渲染場(chǎng)景而設(shè)計(jì)開(kāi)發(fā)的,但現(xiàn)在 GPU 的用途已經(jīng)被大大擴(kuò)展,被廣泛應(yīng)用于各種需要并行處理復(fù)雜計(jì)算的應(yīng)用場(chǎng)景。
GPU 的獨(dú)特優(yōu)勢(shì)在于能夠快速高效地并行處理數(shù)千個(gè)小任務(wù),非常適合處理需要大量并行計(jì)算的復(fù)雜任務(wù),比如圖形渲染(rendering graphics)、物理模擬(simulating physics),甚至訓(xùn)練神經(jīng)網(wǎng)絡(luò)(training neural networks)。
03 NPU 與 GPU 的架構(gòu)差異
從硬件架構(gòu)上看,NPU 比 GPU 更適合進(jìn)行并行計(jì)算。NPU 擁有更多的小型處理單元(smaller processing units),與 GPU 相比,還配備有專(zhuān)門(mén)的內(nèi)存體系結(jié)構(gòu)(memory hierarchies)和數(shù)據(jù)流優(yōu)化策略(data flow optimizations),使得它們對(duì)深度學(xué)習(xí)任務(wù)的處理特別高效。相比之下,GPU 具有更多的多功能內(nèi)核(versatile cores),這些內(nèi)核通??刹⑿刑幚矶喾N計(jì)算任務(wù),但 NPU 對(duì)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了針對(duì)性的優(yōu)化設(shè)計(jì)。
NPU 特別擅長(zhǎng)處理短期且重復(fù)性的任務(wù)。集成到現(xiàn)代計(jì)算機(jī)系統(tǒng)中后,NPU 可以減輕 GPU 處理神經(jīng)網(wǎng)絡(luò)時(shí)固有矩陣運(yùn)算的負(fù)擔(dān),使 GPU 能夠?qū)W⒂趫D形渲染或通用計(jì)算任務(wù)。
與 GPU 相比,NPU 在密集型深度學(xué)習(xí)計(jì)算任務(wù)中表現(xiàn)更佳。自然語(yǔ)言處理(NLP)、語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)等應(yīng)用場(chǎng)景均是 NPU 相對(duì)于 GPU 表現(xiàn)更佳的領(lǐng)域。GPU 的架構(gòu)更為通用,但在處理大語(yǔ)言模型或邊緣計(jì)算應(yīng)用時(shí)可能難以與 NPU 相匹敵。
04 NPU 與 GPU 的性能差異
將它們直接進(jìn)行比較時(shí),NPU 與 GPU 最大的性能差異體現(xiàn)在功耗和移動(dòng)設(shè)備的電池續(xù)航時(shí)間上。由于 NPU 是專(zhuān)門(mén)為神經(jīng)網(wǎng)絡(luò)操作而設(shè)計(jì)的,因此 NPU 能夠以與 GPU 相近的處理速度完成同樣的計(jì)算任務(wù),但是消耗的電量要少得多。
NPU 和 GPU 在處理神經(jīng)網(wǎng)絡(luò)任務(wù)時(shí)表現(xiàn)出的不同性能,主要是因?yàn)樯窠?jīng)網(wǎng)絡(luò)本身的特點(diǎn)和應(yīng)用需求,而不是簡(jiǎn)單地歸因于這兩種硬件架構(gòu)上的不同。NPU 在硬件架構(gòu)上針對(duì) AI/ML 計(jì)算任務(wù)進(jìn)行了優(yōu)化,因此在處理最復(fù)雜的計(jì)算任務(wù)(如深度學(xué)習(xí)模型的推理和訓(xùn)練)時(shí)超越 GPU。
NPU內(nèi)置的專(zhuān)門(mén)用于矩陣乘法(matrix multiplications)和激活函數(shù)(activation functions)的硬件,使得在實(shí)時(shí)語(yǔ)言翻譯、自動(dòng)駕駛汽車(chē)??圖像識(shí)別以及醫(yī)療圖像分析等任務(wù)中,NPU在性能和效率上均優(yōu)于GPU。
05 如何集成?數(shù)據(jù)存儲(chǔ)方面的需求如何?
在企業(yè)層面,NPU 可以融入現(xiàn)有的基礎(chǔ)設(shè)施和數(shù)據(jù)處理流程。NPU 可與 CPU、GPU 及其他計(jì)算加速硬件共同部署于數(shù)據(jù)中心,共同為 AI 任務(wù)提供強(qiáng)大的算力。然而,當(dāng)所有 AI/ML 計(jì)算任務(wù)都被整合到企業(yè)數(shù)據(jù)中心中時(shí),可能會(huì)出現(xiàn)數(shù)據(jù)訪問(wèn)和數(shù)據(jù)存儲(chǔ)等方面的問(wèn)題。
經(jīng)過(guò)全面優(yōu)化的 NPU 和 GPU 在處理 AI/ML 計(jì)算任務(wù)時(shí)可以以極快的速度處理數(shù)據(jù),以至于傳統(tǒng)的存儲(chǔ)系統(tǒng)可能難以跟上,從而導(dǎo)致數(shù)據(jù)檢索和處理出現(xiàn)潛在瓶頸(potential bottlenecks)。
在實(shí)際應(yīng)用中,NPU 并不需要特定的數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施 —— 然而,要以峰值效率運(yùn)行 NPU,則必須讓它們能夠極其快速地訪問(wèn)龐大的數(shù)據(jù)集。NPU在執(zhí)行 AI/ML 任務(wù)時(shí),需要大量數(shù)據(jù)來(lái)訓(xùn)練模型,并對(duì)新數(shù)據(jù)進(jìn)行準(zhǔn)確預(yù)測(cè),同時(shí)要求快速的數(shù)據(jù)排序、分類(lèi)、訪問(wèn)、修改和存儲(chǔ)能力。企業(yè)級(jí)的解決方案通常是采用閃存存儲(chǔ)(flash storage)和全托管的存儲(chǔ)基礎(chǔ)設(shè)施(holistically managed storage infrastructures)。
簡(jiǎn)而言之,NPU 是專(zhuān)門(mén)為執(zhí)行神經(jīng)網(wǎng)絡(luò)操作而設(shè)計(jì)和構(gòu)建的,因此在處理與 AI/ML 操作相關(guān)的小型重復(fù)性任務(wù)時(shí)特別有效。
乍一看,GPU 與 NPU 很相似:都是為同時(shí)執(zhí)行小型操作而設(shè)計(jì)的硬件組件。然而,由于 NPU 對(duì)矩陣乘法和激活函數(shù)這樣的任務(wù)進(jìn)行了針對(duì)性的優(yōu)化,因此在神經(jīng)網(wǎng)絡(luò)的計(jì)算任務(wù)方面具有明顯優(yōu)勢(shì)。這使得 NPU 在處理深度學(xué)習(xí)計(jì)算任務(wù)方面優(yōu)于 GPU,尤其是在功耗和處理速度方面。
原文鏈接:
??https://www.techspot.com/news/103413-npu-vs-gpu-what-difference.html??
