自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

軟件吞噬硬件的AI時(shí)代,芯片跟不上算法進(jìn)化可咋辦?

新聞 人工智能 算法
作為 AI 時(shí)代的幕后英雄,芯片業(yè)正經(jīng)歷著漸進(jìn)而持續(xù)的變化。

 作為 AI 時(shí)代的幕后英雄,芯片業(yè)正經(jīng)歷著漸進(jìn)而持續(xù)的變化。

2008 年之后,深度學(xué)習(xí)算法逐漸興起,各種神經(jīng)網(wǎng)絡(luò)滲透到手機(jī)、App 和物聯(lián)網(wǎng)中。與此同時(shí),摩爾定律卻逐漸放緩。摩爾定律雖然叫定律,但它不是物理定律或者自然定律,而是對(duì)半導(dǎo)體行業(yè)發(fā)展的一個(gè)觀(guān)察或者說(shuō)預(yù)測(cè),其內(nèi)容為:?jiǎn)蝹€(gè)芯片集成度(集成電路中晶體管的密度)每?jī)赡辏ㄒ灿?18 個(gè)月的說(shuō)法)翻倍,由此帶來(lái)性能每?jī)赡晏岣咭槐丁?/p>

保證摩爾定律的前提,是芯片制程工藝進(jìn)步。經(jīng)常能在新聞上看到的 28nm、14nm、7nm、5nm,指的就是制程工藝,數(shù)字越小工藝越先進(jìn)。隨著制程工藝的演進(jìn),特別是進(jìn)入 10nm 之后,逐漸逼近物理極限,難度越發(fā)加大,芯片全流程設(shè)計(jì)成本大幅增加,每一代較上一代至少增加 30%~50%。

 


(不同工藝節(jié)點(diǎn)的芯片設(shè)計(jì)制造成本,圖片來(lái)自 ICBank)

 

這就導(dǎo)致,AI 對(duì)算力需求的增長(zhǎng)速度,遠(yuǎn)超通用處理器算力的增長(zhǎng)速度。據(jù) OpenAI 測(cè)算,從 2012 年開(kāi)始,全球 AI 所用的計(jì)算量呈現(xiàn)指數(shù)增長(zhǎng),平均每 3.4 個(gè)月便會(huì)翻一倍,而通用處理器算力每 18 個(gè)月至兩年才翻一倍。

當(dāng)通用處理器算力跟不上 AI 算法的發(fā)展,針對(duì) AI 計(jì)算的專(zhuān)用處理器便誕生了,也就是常說(shuō)的“AI 芯片”。目前,AI 芯片的技術(shù)內(nèi)涵正極大豐富著。從架構(gòu)創(chuàng)新到先進(jìn)封裝,再到模擬人腦,都影響著 AI 芯片的走向。而這些變化的背后,都有著一個(gè)共同的主題:以更低功耗,產(chǎn)生更高性能。

更靈活

2017 年的圖靈獎(jiǎng),頒給了計(jì)算機(jī)架構(gòu)兩位先驅(qū) David Petterson 和 John Hennessy。2018 年在進(jìn)行圖靈獎(jiǎng)演講時(shí),他們將主題聚焦于架構(gòu)創(chuàng)新,指出計(jì)算體系結(jié)構(gòu)正迎來(lái)新的黃金十年。正如他們所判斷的,AI 芯片不斷出現(xiàn)新的架構(gòu),比如來(lái)自英國(guó) Graphcore 的 IPU——一種迥異于 CPU 和 GPU 的 AI 專(zhuān)用智能處理器,已經(jīng)逐漸被業(yè)界認(rèn)可,并且 Graphcore 也獲得了微軟和三星的戰(zhàn)略資本支持。

而當(dāng)下,一種名為 CGRA 的架構(gòu),在學(xué)界和工業(yè)界正受到越來(lái)越多的關(guān)注。CGRA 全稱(chēng) Coarse Grained Reconfigurable Array(粗顆??芍貥?gòu)陣列),是“可重構(gòu)計(jì)算”理念的落地產(chǎn)物。

據(jù)《可重構(gòu)計(jì)算: 軟件可定義的計(jì)算引擎》一文介紹,這個(gè)理念最早出現(xiàn)在 20 世紀(jì) 60 年代,由加州大學(xué)洛杉磯分校的 Estrin 提出。由于過(guò)于超前,直到 40 年以后才獲得系統(tǒng)性的研究。加州大學(xué)伯克利分校的 DeHon 等將可重構(gòu)計(jì)算定義為具有以下特征的體系結(jié)構(gòu):在其制造后,芯片功能仍然可以定制,形成加速特定任務(wù)的硬件功能;計(jì)算功能的實(shí)現(xiàn),主要依靠任務(wù)到芯片的空間映射。

簡(jiǎn)言之,可重構(gòu)芯片強(qiáng)調(diào)靈活性,在制造出來(lái)后仍可通過(guò)編程調(diào)整,適應(yīng)新算法。與之形成高度對(duì)比的,是 ASIC(application-specific integrated circuit,專(zhuān)用集成電路)。ASIC 芯片雖然性能高,但卻缺乏靈活性,往往是針對(duì)單一應(yīng)用或算法設(shè)計(jì),難以匹配新算法。

2017 年,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(Defence Advanced Research Projects Agency,即 DARPA)提出了電子產(chǎn)業(yè)復(fù)興計(jì)劃(Electronics Resurgence Initiative,簡(jiǎn)稱(chēng) ERI)。該計(jì)劃其中一個(gè)任務(wù)就是“軟件定義芯片”,打造接近 ASIC 性能 、同時(shí)不犧牲靈活性的芯片。

按照進(jìn)行重構(gòu)時(shí)的粒度區(qū)別,可重構(gòu)芯片可分為 CGRA 和 FPGA(field-programmable gate array,現(xiàn)場(chǎng)可編程邏輯門(mén)陣列)。FPGA 在工業(yè)界已經(jīng)有一定規(guī)模應(yīng)用,比如微軟將 FPGA 芯片帶入大型數(shù)據(jù)中心,用于加速 Bing 搜索引擎,驗(yàn)證了 FPGA 靈活性和算法可更新性。但 FPGA 有其局限性,不僅能效和 ASIC 仍有較大差距,而且重編程門(mén)檻比較高。

而 CGRA 由于實(shí)現(xiàn)原理上的差異,比 FPGA 能實(shí)現(xiàn)更加底層的重新編程,在面積效率、能量效率和重構(gòu)時(shí)間上,都更有優(yōu)勢(shì)??梢哉f(shuō),CGRA 同時(shí)集成了通用處理器的靈活性和 ASIC 的高性能。

 


(可重構(gòu)計(jì)算架構(gòu)與現(xiàn)有主流計(jì)算架構(gòu)在能量效率和靈活性上的對(duì)比,圖片來(lái)自《中國(guó)科學(xué)》)

 

隨著 AI 計(jì)算逐漸從云端下沉到邊緣端和 IoT 設(shè)備,不僅算法多樣性日益增強(qiáng),芯片更加碎片化,而且保證低功耗的同時(shí),也要求高性能。在這種場(chǎng)景下,高能效高靈活性的 CGRA 大有用武之地。

由于在結(jié)構(gòu)上不統(tǒng)一、編程和編譯工具不成熟、易用性上不夠友好,CGRA 未被業(yè)界廣泛使用,但已經(jīng)可以看到一些嘗試。早在 2016 年,英特爾便將 CGRA 納入其至強(qiáng)處理器。三星也曾嘗試將 CGRA 集成在 8K 高清電視和 Exynos 芯片中。

在中國(guó)本土,一家名為“清微智能”的公司,于 2019 年 6 月量產(chǎn)了全球首款 CGRA 語(yǔ)音芯片 TX210,同年 9 月又發(fā)布了全球首款 CGRA 多模態(tài)芯片 TX510。這家公司脫胎于清華大學(xué)魏少軍教授牽頭的可重構(gòu)計(jì)算研究團(tuán)隊(duì),他們從 2006 年起就進(jìn)行相關(guān)研究。據(jù)芯東西 2020 年 11 月報(bào)道,語(yǔ)音芯片 TX210 已經(jīng)出貨數(shù)百萬(wàn)顆,而多模態(tài)芯片 TX510 在 11 月也已經(jīng)出貨十萬(wàn)顆以上,主要客戶(hù)為智能門(mén)鎖、安防和人臉支付相關(guān)廠(chǎng)商。

先進(jìn)封裝上位

如開(kāi)篇所提到,由于制程工藝逼近物理極限,摩爾定律逐漸放緩。與此同時(shí),AI 算法的進(jìn)步,使其對(duì)算力需求增長(zhǎng)迅猛,逼迫芯片行業(yè)在先進(jìn)工藝之外探索新的方向,其中之一便是先進(jìn)封裝。

“在大數(shù)據(jù)和認(rèn)知計(jì)算時(shí)代,先進(jìn)的封裝技術(shù)正在發(fā)揮比以往更大的作用。AI 的發(fā)展對(duì)高能效,高吞吐量互連的需求,正在通過(guò)先進(jìn)的封裝技術(shù)的加速發(fā)展來(lái)滿(mǎn)足。”世界第三大晶圓代工廠(chǎng)格羅方德平臺(tái)首席技術(shù)專(zhuān)家 John Pellerin 曾在一份聲明中表示。

先進(jìn)封裝是相對(duì)于傳統(tǒng)封裝而言。封裝是芯片制造的最后一步:將制作好的芯片器件放入外殼中,并與外界器件相連。傳統(tǒng)封裝的封裝效率低,存在很大改良空間,而先進(jìn)封裝技術(shù)發(fā)力于提高集成密度。

先進(jìn)封裝里有很多技術(shù)分支,其中 Chiplet(小芯片/芯粒)是最近兩年的大熱門(mén)。所謂“小芯片”,是相對(duì)傳統(tǒng)芯片制造方法而言。傳統(tǒng)芯片制造方法,是在同一塊硅片上,用同一種工藝制程去打造一塊芯片。而 Chiplet 思路是將一塊完整芯片的復(fù)雜功能進(jìn)行分解,把存儲(chǔ)、計(jì)算和信號(hào)處理等功能模塊化成裸芯片(Die)。這些裸芯片可以用不同工藝制程制造,甚至可以是不同公司提供的。通過(guò)互聯(lián)接口將它們相連接后,就形成一個(gè) Chiplet 的芯片網(wǎng)絡(luò)。

據(jù)壁仞科技研究院唐杉分析,Chiplet 歷史更久且更準(zhǔn)確的技術(shù)詞匯應(yīng)該是異構(gòu)集成(Heterogeneous Integration)??偟膩?lái)說(shuō),這個(gè)技術(shù)趨勢(shì)是比較清晰明確的,而且第一階段的 Chiplet 形態(tài)在技術(shù)上已經(jīng)比較成熟,除了成本比較高,在很多高端芯片上已經(jīng)使用。

比如,HBM 存儲(chǔ)器成為 Chiplet 技術(shù)早期成功應(yīng)用的典型代表。AMD 在 Zen2 架構(gòu)芯片上使用了 chiplet 思路,CPU 用的是 7nm 工藝,I/0 則使用的是 14nm 工藝,與完全由 7nm 打造的芯片相比成本大約降低了 50%。英特爾也推出了基于 Chiplet 技術(shù)的 Agilex FPGA 家族產(chǎn)品。

[[382873]]

(異構(gòu)集成示意動(dòng)畫(huà),素材來(lái)自 IC 智庫(kù))

 

不過(guò),Chiplet 技術(shù)仍面臨諸多挑戰(zhàn),最重要之一是互連接口標(biāo)準(zhǔn)。互連接口重要嗎?如果是在大公司內(nèi)部,比如英特爾或 AMD,有專(zhuān)用協(xié)議和封閉系統(tǒng),在不同裸芯片間連接問(wèn)題不大。但在不同公司和系統(tǒng)之間進(jìn)行互連,同時(shí)保證高帶寬、低延遲和每比特低功耗,互連接口就非常重要了。

2017 年,DARPA推出了 CHIPS 戰(zhàn)略計(jì)劃(通用異構(gòu)集成和 IP 重用戰(zhàn)略),試圖打造一個(gè)開(kāi)放的連接協(xié)議。但 DARPA 項(xiàng)目的一個(gè)短板是,側(cè)重于國(guó)防相關(guān)項(xiàng)目,芯片數(shù)量不大,與真正的商用場(chǎng)景有差距。因此,芯片行業(yè)里一些公司成立了行業(yè)組織“ODSA(開(kāi)放領(lǐng)域特定架構(gòu))工作組”,通過(guò)制定開(kāi)放的互連接口,為 Chiplet 的發(fā)展掃清障礙。

另辟蹊徑

除了在現(xiàn)有框架內(nèi)做架構(gòu)和制造上的創(chuàng)新,還有研究人員試圖跳出計(jì)算機(jī)現(xiàn)行的馮·諾依曼架構(gòu),開(kāi)發(fā)真正模擬人腦的計(jì)算模式。

在馮·諾依曼架構(gòu)中,數(shù)據(jù)計(jì)算和存儲(chǔ)是分開(kāi)進(jìn)行的。而內(nèi)存存取速度往往嚴(yán)重滯后于處理器的計(jì)算速度,造成“內(nèi)存墻”問(wèn)題。并且,傳統(tǒng)計(jì)算機(jī)需要通過(guò)總線(xiàn),連續(xù)地在處理器和存儲(chǔ)器之間進(jìn)行刷新,這就導(dǎo)致芯片的大部分功耗都消耗在讀寫(xiě)數(shù)據(jù)上,而不是算術(shù)邏輯單元,又衍生出“功耗墻”問(wèn)題。人腦則沒(méi)有“內(nèi)存墻”和“功耗墻”問(wèn)題,它對(duì)信息的處理和存儲(chǔ)是一體的,計(jì)算和記憶可以同時(shí)進(jìn)行。

 


(通用處理器中典型操作的能耗,圖片來(lái)自《中國(guó)科學(xué)》雜志)

 

另外一方面,當(dāng)前推動(dòng) AI 發(fā)展的深度神經(jīng)網(wǎng)絡(luò),雖然名字里有“神經(jīng)網(wǎng)絡(luò)”四個(gè)字,但實(shí)際上跟人腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作機(jī)制相差甚遠(yuǎn)。1000 億個(gè)神經(jīng)元,通過(guò) 100 萬(wàn)億個(gè)突觸并行連接,使得人腦能以非常低的功耗(約 20 瓦),進(jìn)行同步記憶、演算、推理和計(jì)算。相比之下,當(dāng)前的深度神經(jīng)網(wǎng)絡(luò),不僅需要大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,在運(yùn)行時(shí)還消耗極大的能量。

因此,如何讓 AI 像人腦一樣工作,一直是學(xué)界和業(yè)界積極探索的課題。1980 年代后期,加州理工學(xué)院教授卡弗·米德(Carver Mead)提出了神經(jīng)形態(tài)工程學(xué)的概念。經(jīng)過(guò)多年發(fā)展,業(yè)界和學(xué)界對(duì)神經(jīng)形態(tài)芯片的摸索逐漸成形。

軟件方面,被稱(chēng)為第三代人工神經(jīng)網(wǎng)絡(luò)的“脈沖神經(jīng)網(wǎng)絡(luò)”(Spike Neural Network,簡(jiǎn)稱(chēng) SNN)應(yīng)運(yùn)而生。這種網(wǎng)絡(luò)以脈沖信號(hào)為載體,更接近人腦的運(yùn)作方式。硬件方面,大型機(jī)構(gòu)和公司研發(fā)相應(yīng)的脈沖神經(jīng)網(wǎng)絡(luò)處理器。

事實(shí)上,早在 2008 年,DARPA 就發(fā)起了一個(gè)計(jì)劃——神經(jīng)形態(tài)自適應(yīng)塑料可擴(kuò)展電子系統(tǒng)(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,簡(jiǎn)稱(chēng) SyNAPSE,正好是“突觸”之意),希望開(kāi)發(fā)出低功耗的電子神經(jīng)形態(tài)計(jì)算機(jī)。

IBM Research 成為了 SyNAPSE 項(xiàng)目的合作方之一。2014 年,他們發(fā)表論文展示了最新成果——TrueNorth。這個(gè)類(lèi)腦計(jì)算芯片擁有 100 萬(wàn)個(gè)神經(jīng)元,能以每秒 30 幀的速度輸入 400 × 240 像素的視頻,功耗僅 63 毫瓦,相比馮·諾依曼架構(gòu)的計(jì)算機(jī)有質(zhì)的飛躍。

英特爾在 2017 年展示了一款名為 Loihi 的神經(jīng)形態(tài)芯片,包含超過(guò) 20 億個(gè)晶體管、13 萬(wàn)個(gè)人工神經(jīng)元和 1.3 億個(gè)突觸,比一般訓(xùn)練系統(tǒng)所需的通用計(jì)算效率高 1000 倍。2020 年 3 月,研究人員甚至在 Loihi 上實(shí)現(xiàn)了嗅覺(jué)識(shí)別。這一成果可應(yīng)用于診斷疾病、檢測(cè)武器和爆炸物以及及時(shí)發(fā)現(xiàn)麻醉劑、煙霧和一氧化碳?xì)馕兜葓?chǎng)景。

在中國(guó)本土,清華大學(xué)類(lèi)腦計(jì)算研究中心的施路平教授團(tuán)隊(duì),開(kāi)發(fā)了一款面向人工通用智能的“天機(jī)”芯片,同時(shí)支持脈沖神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)。2019 年 8 月 1 日,天機(jī)成為中國(guó)第一款登上《Nature》雜志封面的芯片。

盡管已經(jīng)有零星研究成果,但總的來(lái)說(shuō),脈沖神經(jīng)網(wǎng)絡(luò)和處理器仍是研究領(lǐng)域的一個(gè)方向,而沒(méi)有在工業(yè)界大規(guī)模應(yīng)用,主要是因?yàn)榛A(chǔ)算法上還沒(méi)有關(guān)鍵性的突破,達(dá)不到業(yè)界應(yīng)用的精度,而且實(shí)現(xiàn)成本比較高。

責(zé)任編輯:張燕妮 來(lái)源: 品玩
相關(guān)推薦

2020-09-22 07:48:19

AI

2021-02-02 22:10:36

人工智能房地產(chǎn)科技

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法

2010-07-28 15:09:44

2018-05-14 12:30:37

數(shù)據(jù)驅(qū)動(dòng)算法優(yōu)化

2024-03-15 08:30:00

AI數(shù)據(jù)

2022-04-06 22:20:27

人工智能算法硬件

2016-05-24 11:44:58

軟件定義硬件發(fā)展

2024-11-14 13:16:58

2017-11-09 11:03:06

AMDIntelNVIDIA

2024-04-15 14:20:35

邊緣AI人工智能ENIAC計(jì)算機(jī)

2015-06-15 11:54:18

開(kāi)源軟件原因

2023-08-24 14:23:00

AI智能

2009-02-27 09:18:08

多核并行軟件

2013-10-17 16:46:00

DevOps

2015-11-02 10:14:55

程序員交流it時(shí)代

2024-04-15 12:43:26

人工智能LLM

2020-03-23 14:55:47

數(shù)據(jù)分析諸葛io

2012-10-24 13:42:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)