自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI大模型有望再擴(kuò)1000倍!劍橋耶魯康奈爾:PNN是變革關(guān)鍵

人工智能 新聞
最近,多個(gè)機(jī)構(gòu)學(xué)者合著的一篇研究為AI的規(guī)?;噶艘粭l新路:物理神經(jīng)網(wǎng)絡(luò)(PNN),這一新興的前沿領(lǐng)域還鮮少有人涉足,但絕對值得深耕!AI模型再擴(kuò)展1000倍的秘密可能就藏在這里。

隨著Scaling Law越來越成功,LLM的電力和算力消耗也逐漸達(dá)到了驚人程度。我們越來越難以想象,當(dāng)前的模型規(guī)模如何能再擴(kuò)大10倍、100倍,甚至1000倍。

即使擴(kuò)大1000倍的模型能夠?qū)崿F(xiàn),它的能耗還能在人類負(fù)擔(dān)范圍內(nèi)嗎?能在智能手機(jī)或傳感器這些邊緣設(shè)備上進(jìn)行本地推理嗎?

要回答這些問題,我們需要重新思考AI模型的工作和訓(xùn)練方式,尤其是要轉(zhuǎn)換視角,首先考慮底層硬件的物理約束。

或許,物理神經(jīng)網(wǎng)絡(luò)PNN(physical neural network)就是我們要找的答案。

最近,一篇有關(guān)PNN訓(xùn)練的綜述性論文登上了HN熱榜。作者提出,基于過去幾年的研究,我們有理由認(rèn)為,PNN可以從根本上改變AI系統(tǒng)的可能性和實(shí)用性,實(shí)現(xiàn)前所未有的模型規(guī)模。

圖片

論文地址:https://arxiv.org/abs/2406.03372

論文的合著者列表也是星光璀璨,云集了眾多頂尖機(jī)構(gòu),包括微軟研究院、DeepMind、劍橋、耶魯、康奈爾、斯坦福、普朗克研究所、EPFL、UCLA等。

文章力證,雖然迄今為止PNN依舊是在實(shí)驗(yàn)室演示階段的小眾領(lǐng)域,但可以說是現(xiàn)代人工智能領(lǐng)域最被低估的重要機(jī)會(huì)之一。

之前對PNN的研究和回顧一般集中在光學(xué)、電子學(xué)等領(lǐng)域,而這篇論文則是從訓(xùn)練角度,盡可能探索PNN的發(fā)展,并且不限于特定領(lǐng)域。

PNN是什么

作者首先提出,當(dāng)前典型的AI系統(tǒng)存在高能耗、低吞吐率、高延遲等問題,其中的核心矛盾在于內(nèi)存和處理單元的分離,而且兩者之間的數(shù)據(jù)傳輸速度較低。

由于看到了這些性能限制,研究人員對可替代當(dāng)前AI系統(tǒng)的其他計(jì)算平臺(tái)重新產(chǎn)生了興趣,例如光學(xué)、光子學(xué)和模擬電子學(xué)。

論文將這些非常規(guī)計(jì)算平臺(tái)統(tǒng)稱為PNN,指代利用物理系統(tǒng)的屬性執(zhí)行計(jì)算的一種類神經(jīng)網(wǎng)絡(luò),與當(dāng)前深度學(xué)習(xí)使用的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)相區(qū)分。

和ANN類似,PNN系統(tǒng)同樣使用可訓(xùn)練權(quán)重??處理輸入數(shù)據(jù)??,但不同之處在于,系統(tǒng)中至少有一部分是模擬的而非數(shù)字的。

這意味著部分或者全部的輸入/輸出數(shù)據(jù)被連續(xù)編碼為物理參數(shù),權(quán)重也可以是物理參數(shù),以期在性能和效率上超越數(shù)字硬件。

從是否模仿數(shù)字神經(jīng)網(wǎng)絡(luò)的角度,PNN可以被分為兩類(圖1a):同構(gòu)(isomorphic)PNN,和破壞同構(gòu)(broken-isomorphism)PNN。

前者會(huì)設(shè)計(jì)出嚴(yán)格的、逐個(gè)操作的數(shù)學(xué)同構(gòu)的硬件來執(zhí)行數(shù)學(xué)變換,比如用于矩陣-向量乘法的憶阻器交叉開關(guān)。

相比之下,后者則會(huì)徹底打破數(shù)學(xué)同構(gòu)的想法,直接訓(xùn)練硬件的物理變換。但這種方法的復(fù)雜之處在于,我們不知道通用計(jì)算或通用函數(shù)逼近需要哪些特征。

相比數(shù)字方法,破壞同構(gòu)PNN的計(jì)算效率更高,從而為速度更快、更有擴(kuò)展性、能量效率更高的機(jī)器學(xué)習(xí)方法開辟了道路。

圖片

PNN訓(xùn)練方法發(fā)展時(shí)間表

PNN的訓(xùn)練

下圖展示了PNN訓(xùn)練生態(tài)中的10種方法,論文對其中7種進(jìn)行了較為詳細(xì)的論述。目前來看,這些方法各有利弊,誰也不能完全取代誰,大有「百花齊放」之勢。

圖片

PNN訓(xùn)練方法生態(tài)系統(tǒng)

計(jì)算模擬(In-Silico)訓(xùn)練

用于訓(xùn)練PNN的計(jì)算機(jī)模擬方法涉及數(shù)字模擬和優(yōu)化硬件的物理自由度(??)。

在訓(xùn)練階段先采用基于物理的前向模型和/或數(shù)字神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)環(huán)境中創(chuàng)建PNN的數(shù)字孿生,并針對特定任務(wù)優(yōu)化,之后根據(jù)優(yōu)化結(jié)果部署硬件,用于新數(shù)據(jù)的模擬處理。

計(jì)算模擬訓(xùn)練可以快速探索、驗(yàn)證和測試各種PNN架構(gòu),有助于在進(jìn)行實(shí)際的物理建構(gòu)之前提高PNN的準(zhǔn)確性和功能性。

這種方法不僅速度更快,成本效益更高,無需為每次設(shè)計(jì)迭代建立和優(yōu)化昂貴而耗時(shí)的物理系統(tǒng),還具有可擴(kuò)展性,并確保了可重復(fù)性和透明度。

然而,計(jì)算模擬方法也有自身的局限性,比如數(shù)字前向模型無法涵蓋實(shí)際PNN硬件中的所有物理現(xiàn)象(噪聲、偏移、制造和材料缺陷等),而且連續(xù)物理世界的離散化過程需要更精細(xì)的網(wǎng)格來提高精度,這可能會(huì)導(dǎo)致計(jì)算需求的指數(shù)級(jí)增長。

此外,該方法的效率上限受到計(jì)算機(jī)性能的限制,而且考慮到建模PNN硬件的額外計(jì)算開銷,通常會(huì)比訓(xùn)練常規(guī)的數(shù)字神經(jīng)網(wǎng)絡(luò)更低效。

物理感知反向傳播訓(xùn)練(Physics-aware BP Training,BPT)

物理感知訓(xùn)練是現(xiàn)場(in-situ)方法和計(jì)算模擬方法的混合體:物理系統(tǒng)執(zhí)行前向計(jì)算,后向傳播則通過數(shù)字模型的微分來執(zhí)行。

由于其現(xiàn)場方法的成分,PAT可緩解實(shí)驗(yàn)與數(shù)字模型之間不匹配的影響,同時(shí),其中模擬方法的本質(zhì)又能實(shí)現(xiàn)精確的訓(xùn)練。

反饋對齊(Feedback Alignment,F(xiàn)A)

反饋對齊(FA)和直接反饋對齊(DFA)方法可以在不將權(quán)重從前向計(jì)算轉(zhuǎn)移到后向計(jì)算的情況下訓(xùn)練NN,從而提高效率,但通常會(huì)犧牲性能。

物理局部學(xué)習(xí)

局部學(xué)習(xí)在硬件方面具有巨大的擴(kuò)展?jié)摿?,但這一方法是否能夠復(fù)現(xiàn)反向傳播的性能,目前還很不清楚。

雖然完全匹配反向傳播并不是必要的(尤其是考慮到從根本上提高效率的潛力),但在未來,這種有保證的高維擴(kuò)展是物理局部學(xué)習(xí)技術(shù)的基本要求。

零階梯度和無梯度訓(xùn)練

為了消除對物理系統(tǒng)詳細(xì)知識(shí)的需求,人們提出了無模型、「黑盒」或無梯度訓(xùn)練算法。

然而,這些算法在硬件上的完整實(shí)現(xiàn)仍然很少,而且速度通常很慢,因?yàn)樘荻雀碌拇螖?shù)與網(wǎng)絡(luò)中可學(xué)習(xí)參數(shù)的數(shù)量成線性比例,這給擴(kuò)展帶來了巨大挑戰(zhàn)。

通過物理動(dòng)力學(xué)進(jìn)行梯度下降訓(xùn)練

梯度下降優(yōu)化是最先進(jìn)的機(jī)器學(xué)習(xí)系統(tǒng)的主力,與基于GPU的神經(jīng)網(wǎng)絡(luò)訓(xùn)練相比,這類方法有可能帶來4個(gè)數(shù)量級(jí)的能量增益。

持續(xù)學(xué)習(xí)

持續(xù)學(xué)習(xí)的目的是使神經(jīng)網(wǎng)絡(luò)能夠逐步從非穩(wěn)態(tài)數(shù)據(jù)流中學(xué)習(xí)。

這有助于解決一個(gè)重要問題:當(dāng)在新的數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)往往會(huì)因?yàn)橹貙憴?quán)重而失去之前學(xué)習(xí)的能力,即「災(zāi)難性遺忘」現(xiàn)象。

實(shí)現(xiàn)對大型模型的高效模擬

研究人員發(fā)現(xiàn),如果PNN硬件設(shè)計(jì)得當(dāng),其不同的底層物理特性可能會(huì)使其表現(xiàn)出與數(shù)字電子系統(tǒng)不同的能量縮放行為。

這意味著,在模型規(guī)模足夠大的情況下,PNN可能實(shí)現(xiàn)比數(shù)字系統(tǒng)更高的效率。盡管模擬硬件有許多間接成本,例如數(shù)模轉(zhuǎn)換成本。

PNN的光學(xué)點(diǎn)積能量縮放優(yōu)勢可能轉(zhuǎn)化為與人工智能模型推理類似的縮放優(yōu)勢,因?yàn)榇蠖鄶?shù)模型主要由點(diǎn)積組成。

圖片

模擬大型模型

PNN的多樣性和使用案例表明,該領(lǐng)域的主要挑戰(zhàn)不是找到單一的最佳訓(xùn)練方法。而是針對不同情況找尋出最佳的訓(xùn)練方法。

新興前沿的PNN技術(shù)

在論文的最后,研究人員介紹了PNN技術(shù)的多個(gè)應(yīng)用方向,凸顯了這支「潛力股」的發(fā)展前景。

圖片

新興的PNN技術(shù)

在PNN方面,量子計(jì)算、概率計(jì)算、光子計(jì)算、光物質(zhì)計(jì)算和混合計(jì)算都是大有可為的發(fā)展方向。

量子計(jì)算機(jī)可以利用量子力學(xué)的特點(diǎn),比如可以利用量子力學(xué)的疊加等特征,從而解決對PNN訓(xùn)練至關(guān)重要的優(yōu)化問題。

然而,由于當(dāng)前量子系統(tǒng)的量子比特有限、計(jì)算錯(cuò)誤率大,這些量子優(yōu)勢的實(shí)用性受到了限制。

目前正在設(shè)計(jì)特定的量子算法和量子神經(jīng)網(wǎng)絡(luò)框架,以便在這些限制條件下運(yùn)行。

例如,利用軟量子神經(jīng)元、量子電路、量子生成對抗網(wǎng)絡(luò)和變異量子算法,在生成新樣本和學(xué)習(xí)數(shù)據(jù)分布方面有可能超越經(jīng)典模型。

概率比特

數(shù)字電子設(shè)備都是使用經(jīng)典比特存儲(chǔ),這種技術(shù)較為完善。

量子計(jì)算通常使用量子比特存儲(chǔ),問題就在于,物理實(shí)現(xiàn)量子比特的存儲(chǔ)仍然在技術(shù)上困難重重。

于是,研究人員就引入了概率比特(p-bits),它是經(jīng)典比特和和量子比特的一個(gè)中間過渡。

圖片

概率比特又被稱為「窮人的量子比特」,因?yàn)樗鼈兛梢允褂矛F(xiàn)有的電子設(shè)備進(jìn)行存儲(chǔ)和處理,并且可以模擬量子比特的某些屬性。

除了量子計(jì)算之外,概率比特還可以應(yīng)用于機(jī)器學(xué)習(xí)中,概率計(jì)算機(jī)可能有助于機(jī)器學(xué)習(xí)技術(shù)開發(fā)。

人工智能和機(jī)器學(xué)習(xí)的一個(gè)關(guān)鍵步驟是根據(jù)不完整的數(shù)據(jù)預(yù)測決策,最好的方法是輸出每個(gè)可能答案的概率。

目前的經(jīng)典計(jì)算機(jī)無法以節(jié)能的方式做到這一點(diǎn),而概率計(jì)算機(jī)的出現(xiàn)有望填補(bǔ)這一空缺。

概率比特類似于機(jī)器學(xué)習(xí)中所使用的二進(jìn)制隨機(jī)神經(jīng)元,這可令其成為有效的硬件加速器。

因此,它就適合訓(xùn)練深度生成模型和隨機(jī)神經(jīng)網(wǎng)絡(luò),特別是深度玻爾茲曼機(jī)(DBM),為PNN 的訓(xùn)練帶來了另一個(gè)機(jī)會(huì)。

光學(xué)神經(jīng)網(wǎng)絡(luò)

機(jī)器學(xué)習(xí)技術(shù)不斷發(fā)展,除計(jì)算機(jī)領(lǐng)域外,在生命科學(xué)、醫(yī)學(xué)、材料科學(xué)、量子物理、音樂等領(lǐng)域都展現(xiàn)了其獨(dú)特的優(yōu)勢。

通常意義上的機(jī)器學(xué)習(xí)是一種純數(shù)字化的神經(jīng)網(wǎng)絡(luò)模型,往往基于計(jì)算機(jī)等數(shù)字平臺(tái)實(shí)現(xiàn)。

隨著越來越多的機(jī)器學(xué)習(xí)算法的開發(fā),大規(guī)模機(jī)器學(xué)習(xí)應(yīng)用對計(jì)算機(jī)算力和能耗提出了新的挑戰(zhàn)。

針對上述問題,搭建基于物理系統(tǒng)的模擬計(jì)算平臺(tái)被認(rèn)為是一種極具潛力的解決方案。

研究人員利用物理系統(tǒng)固有的聲、光、電信號(hào)等轉(zhuǎn)換性質(zhì),對物理單元進(jìn)行設(shè)計(jì)和組合來構(gòu)建PNN,從而實(shí)現(xiàn)與傳統(tǒng)的純數(shù)字化神經(jīng)網(wǎng)絡(luò)相似的計(jì)算效果。

經(jīng)過訓(xùn)練的PNN可以基于物理系統(tǒng)的自響應(yīng)進(jìn)行信號(hào)處理,與電子芯片相比能耗更低、速度更快。

與電子系統(tǒng)相比,光的特性,如光學(xué)中可實(shí)現(xiàn)的空間并行性和光傳播中可實(shí)現(xiàn)計(jì)算的無耗散動(dòng)態(tài),具有顯著優(yōu)勢,利用這種優(yōu)勢,可以為PNN帶來新的方法。

康奈爾大學(xué)的研究人員打破了上述訓(xùn)練模式,提出一種物理感知訓(xùn)練方法(PAT)對基于可調(diào)物理系統(tǒng)的物理神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

在該訓(xùn)練模式下,采用揚(yáng)聲器、光學(xué)晶體和電路元件分別構(gòu)建了聲學(xué)、光學(xué)和電學(xué)版的PNN。

圖片

經(jīng)過訓(xùn)練的PNN可以高效地執(zhí)行元音分類、手寫字體識(shí)別等常見的機(jī)器學(xué)習(xí)任務(wù)。

PAT訓(xùn)練過程中將基于物理系統(tǒng)的前向計(jì)算和基于仿真數(shù)字模型的反向傳播相結(jié)合,顯著降低了由于參數(shù)移植帶來的性能損失。

圖片

網(wǎng)絡(luò)中全光子路由器的編程與PNN的訓(xùn)練也有很大的相似之處,這兩個(gè)領(lǐng)域可以相互助益。

無論具體實(shí)現(xiàn)如何,可編程全光子路由器都是(通常是線性的)輸入輸出系統(tǒng),具有大量可調(diào)整的自由度。

后者必須在運(yùn)行時(shí)重新配置,以實(shí)現(xiàn)不同的路由功能(即實(shí)現(xiàn)不同的輸入-輸出關(guān)系)。

除了各種成熟的全局優(yōu)化技術(shù)外,純粹基于局部反饋回路逐步配置特定硬件架構(gòu)的想法也在不斷涌現(xiàn)。

將這些先進(jìn)的計(jì)算范式集成到PNN中需要解決幾個(gè)難題,包括調(diào)整學(xué)習(xí)算法以利用量子和光子,管理量子系統(tǒng)中的噪聲和錯(cuò)誤率,以及架構(gòu)的可擴(kuò)展性。

開發(fā)將量子或光子處理單元與經(jīng)典計(jì)算元素相結(jié)合的混合系統(tǒng),可能會(huì)為利用這些技術(shù)的優(yōu)勢提供實(shí)用的途徑。

將這些物理系統(tǒng)的獨(dú)特屬性與PNN的目標(biāo)結(jié)合起來,可以為下一代智能系統(tǒng)鋪平道路。

這些智能系統(tǒng)將擁有前所未有的速度、極高的效率和良好的可擴(kuò)展性,訓(xùn)練出大1000倍的模型也就不是夢了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-02-25 14:58:51

神經(jīng)網(wǎng)絡(luò)芯片AI

2023-06-05 10:09:03

研究人工智能

2023-12-18 09:36:36

模型研究

2023-03-14 14:09:00

訓(xùn)練人工智能

2022-04-07 14:44:24

人工智能計(jì)算神經(jīng)網(wǎng)絡(luò)

2013-06-27 09:43:45

物理1000TB光盤

2020-02-24 10:51:25

微軟開源Windows

2024-12-25 08:02:17

人工智能AI運(yùn)維

2020-07-06 16:08:34

人工智能AI醫(yī)療健康

2023-12-11 19:08:03

AI模型

2025-02-17 10:49:49

2025-03-24 10:45:58

2024-07-25 13:56:49

2023-05-10 14:40:40

AI模型算力

2015-07-02 11:46:21

亞馬遜云計(jì)算估值

2024-01-12 19:07:26

GPT-4AI產(chǎn)品
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)