自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「變形金剛」五年代替狂卷的CNN!Transformer將統(tǒng)帥人工智能?

人工智能 機(jī)器視覺 新聞
一個(gè)看似簡單的算法,不僅徹底改變了神經(jīng)網(wǎng)絡(luò)處理語言的方式,而且還逐漸地影響到了整個(gè)計(jì)算機(jī)視覺領(lǐng)域。也許,它所帶來的可能性遠(yuǎn)不止這些。

現(xiàn)在在AI業(yè)界家喻戶曉的Transformer,究竟是怎樣在短短時(shí)間爆火的?

 

Transformer的起源

想象一下你逛附近的五金店,在貨架上看到一種新型的錘子。它比其他錘子敲得更快、更準(zhǔn)確,在過去幾年里,它已經(jīng)淘汰了許多其他錘子,至少在大多數(shù)用途中是這樣。 而且通過一些調(diào)整——這里加個(gè)附件,那里加個(gè)扭矩——這個(gè)工具還能變成了一把鋸子!它的切割速度和精確度不亞于任何同類產(chǎn)品。 事實(shí)上,一些處于五金開發(fā)前沿的專家表示,這把錘子可能只是所有五金工具將融合到單個(gè)設(shè)備中的前兆。 類似的故事正在AI業(yè)界中上演。 那個(gè)「多功能的新錘子」是稱為Transformer的人工神經(jīng)網(wǎng)絡(luò),這是一種通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行訓(xùn)練來「學(xué)習(xí)」如何完成某些任務(wù)的節(jié)點(diǎn)網(wǎng)絡(luò)。

  

最初,Transformer被用于語言處理,不過最近則影響到了更多的領(lǐng)域。2017年,Transformer首次出現(xiàn)在谷歌研究人員發(fā)表的論文中,該論文題目是神秘的「Attention Is All You Need」。 之前其他人工智能的通用路徑是,系統(tǒng)會(huì)首先關(guān)注輸入數(shù)據(jù)局部的塊,然后再去構(gòu)建整體。例如,在語言模型中,鄰近的單詞首先會(huì)被組合在一起。 而Transformer的運(yùn)行路徑,則會(huì)讓輸入數(shù)據(jù)中的每個(gè)單元都相互聯(lián)系或得到關(guān)注,研究人員將此稱為「自注意力」。這意味著一旦開始訓(xùn)練,Transformer就可以看到整個(gè)數(shù)據(jù)集的處理軌跡。 

論文鏈接:https://arxiv.org/abs/1706.03762 很快,Transformer就成為專注于分析和預(yù)測文本的單詞識(shí)別等應(yīng)用程序的領(lǐng)頭羊。它催生了一批新的AI工具,比如OpenAI的GPT-3,它可以訓(xùn)練數(shù)千億個(gè)單詞并持續(xù)生成語義可讀的新文本,智能到令人不安。 Transformer的成功讓AI業(yè)界好奇它還能完成其他哪些任務(wù),而答案正在揭曉。 在諸如圖像分類的視覺任務(wù)中,使用Transformer的神經(jīng)網(wǎng)絡(luò)更快、更準(zhǔn)確。而那些需要一次性處理多種輸入數(shù)據(jù)/計(jì)劃任務(wù)的新興任務(wù)也預(yù)示著,Transformer能執(zhí)行的工作還可以更多。 就在10年前,AI學(xué)界的不同子領(lǐng)域之間幾乎沒有共通語言。但Transformer的到來表明了融合的可能性。 

 

德克薩斯大學(xué)奧斯汀分校的計(jì)算機(jī)科學(xué)家Atlas Wang說:「我認(rèn)為Transformer之所以如此受歡迎,是因?yàn)樗岛I(lǐng)域通用的潛力。我們有充分的理由想要在整個(gè)AI科學(xué)范圍內(nèi)嘗試使用Transformer」。 

從語言到視覺

 在「Attention Is All You Need」論文發(fā)布幾個(gè)月后,擴(kuò)大Transformer應(yīng)用范圍的最有前途的舉措之一就開始了。 當(dāng)時(shí)在柏林的谷歌研究部門工作的計(jì)算機(jī)科學(xué)家Alexey Dosovitskiy,正在研究計(jì)算機(jī)視覺,這是一個(gè)專注于教計(jì)算機(jī)如何處理和分類圖像的AI子領(lǐng)域。 與該領(lǐng)域的幾乎所有其他人一樣,他當(dāng)時(shí)的常用工具是卷積神經(jīng)網(wǎng)絡(luò)(CNN),多年來,這種技術(shù)推動(dòng)了深度學(xué)習(xí)、尤其是計(jì)算機(jī)視覺領(lǐng)域的所有重大飛躍。 CNN的工作原理是反復(fù)對(duì)圖像中的像素使用濾波器,以建立對(duì)特征的識(shí)別。正是由于卷積功能,照片應(yīng)用程序可以按面孔組織圖片庫,或者將云與鱷梨區(qū)別開來。 由此,CNN也成為了視覺任務(wù)處理中必不可少的工具。 

 

Dosovitskiy正在研究該領(lǐng)域最大的挑戰(zhàn)之一,即擴(kuò)大CNN的規(guī)模,以訓(xùn)練越來越高分辨率圖像帶來的越來越大的數(shù)據(jù)集,同時(shí)不增延處理時(shí)間。 這時(shí)他注意到,Transformer在NLP任務(wù)中幾乎已經(jīng)完全取代了此前所有的工具。 那么,是否也能在視覺處理上做到類似效果呢? 這個(gè)想法很有洞見。畢竟,如果Transformer可以處理單詞的大數(shù)據(jù)集,為什么不能處理圖片的呢? 最終的結(jié)果是一個(gè)名為「視覺Transformer」或ViT的神經(jīng)網(wǎng)絡(luò),研究人員在2021年5月的一次會(huì)議上展示了該網(wǎng)絡(luò)。

 

論文鏈接:https://arxiv.org/abs/2010.11929 該模型的架構(gòu)與2017年提出的第一個(gè)Transformer的架構(gòu)幾乎相同,只進(jìn)行了微小的更改,使其能夠分析圖像而非文字。 ViT團(tuán)隊(duì)知道他們無法完全模仿Transformer處理語言數(shù)據(jù)的方法,因?yàn)槊總€(gè)像素的自注意力要在模型運(yùn)行中全部完成,將會(huì)極其耗時(shí)。 相反,他們將較大的圖像劃分為正方形的單元,也就是所謂的詞元(token)。詞元大小是任意的,因?yàn)榭梢愿鶕?jù)原始圖像的分辨率變大或變小(默認(rèn)是每邊16像素)。 通過分單元處理像素,并對(duì)每個(gè)單元應(yīng)用自注意力,ViT可以快速處理大量訓(xùn)練數(shù)據(jù)集,從而產(chǎn)生越來越準(zhǔn)確的分類。

  

Transformer以超過90%的準(zhǔn)確率對(duì)圖像進(jìn)行分類,這比Dosovitskiy預(yù)期的結(jié)果要好得多。在ImageNet分類挑戰(zhàn)賽這項(xiàng)業(yè)界標(biāo)桿性圖像識(shí)別比賽中,ViT迅速獲得榜首。 ViT的成功表明,CNN可能不像很多研究人員認(rèn)為的那樣,是計(jì)算機(jī)視覺的唯一基礎(chǔ)。 與Dosovitskiy合作開發(fā)ViT的Neil Houlsby說:「我認(rèn)為CNN很可能在不久的未來被視覺Transformer或其衍生品所取代?!?nbsp;與此同時(shí),其他的結(jié)果也支持了這個(gè)預(yù)測。 在2022年初的測試中,ViT的更新版本僅次于將CNN與Transformer相結(jié)合的新方法。而之前的冠軍CNN模型,現(xiàn)在勉強(qiáng)進(jìn)入前10名。

Transformer是如何工作的?

ImageNet的結(jié)果表明,Transformer的確可以與CNN相抗衡。 但是,谷歌的計(jì)算機(jī)科學(xué)家Maithra Raghu想知道它們是否像CNN那樣「看到」圖像。 雖然神經(jīng)網(wǎng)絡(luò)是一個(gè)臭名昭著的黑匣子,但有一些方法可以窺探其內(nèi)部情況。 比如。通過逐層檢查網(wǎng)絡(luò)的輸入和輸出,從而了解訓(xùn)練數(shù)據(jù)是如何流動(dòng)的。

 

論文鏈接:https://arxiv.org/abs/2108.08810 對(duì)于CNN來說,它會(huì)逐個(gè)像素地識(shí)別圖像,通過從局部到全局的方式識(shí)別每一個(gè)角落或線條的特征。 在自注意力的加持下,Transformer甚至可以在神經(jīng)網(wǎng)絡(luò)的第一層,就把分布在圖像兩頭的信息建立聯(lián)系。 如果說CNN的方法就像從一個(gè)像素開始放大,那么Transformer則是慢慢地將整個(gè)模糊的圖像變得清晰。 這種差異在語言領(lǐng)域更容易理解。比如,貓頭鷹發(fā)現(xiàn)了一只松鼠。它試圖用爪子抓住它,但只抓到了它的尾巴末端。第二個(gè)句子的結(jié)構(gòu)令人困惑。 這些「它」指的是什么?一個(gè)只關(guān)注緊挨著「它」字的CNN會(huì)很費(fèi)勁,但一個(gè)將每個(gè)字與其他字聯(lián)系起來的Transformer可以看出,貓頭鷹做了抓取的動(dòng)作,而松鼠則失去了部分尾巴。

  

融合正在發(fā)生

 現(xiàn)在研究人員希望將Transformer應(yīng)用于一項(xiàng)更艱巨的任務(wù):生成新圖像。 就像GPT-3等語言工具可以根據(jù)其訓(xùn)練數(shù)據(jù)生成新文本一樣。 于是,在2021年發(fā)表的一篇論文中,Wang結(jié)合了兩個(gè)Transformer模型,試圖對(duì)圖像做同樣的事情。這是一個(gè)困難得多的任務(wù)。 

論文鏈接:https://arxiv.org/abs/2102.07074 當(dāng)雙Transformer網(wǎng)絡(luò)在超過20萬名人的面部圖片上進(jìn)行訓(xùn)練時(shí),它以中等分辨率合成了新的面部圖像。 根據(jù)初始分?jǐn)?shù)(一種評(píng)估神經(jīng)網(wǎng)絡(luò)生成圖像的標(biāo)準(zhǔn)方法),Transformer生成的名人圖片令人印象深刻,并且至少與CNN生成的名人圖片一樣令人信服。

  

Transformer在生成圖像方面的成功,比ViT在圖像分類方面的能力更令人驚嘆。 同樣,在多模態(tài)處理方面,Transformer也有了一席之地。 在以前孤立的方法中,每種類型的數(shù)據(jù)都有自己的專門模型。而多模態(tài)網(wǎng)絡(luò)則可以讓一個(gè)程序除了聽聲音外,還可以讀取一個(gè)人的嘴唇。也就是可以同時(shí)處理多種類型數(shù)據(jù)的模型,如原始圖像、視頻和語言。 「你可以擁有豐富的語言和圖像信息表示數(shù)據(jù),」Raghu說,「而且比以前更深入?!?/p>

  

新興項(xiàng)目表明了Transformer在其他AI領(lǐng)域的一系列新用途,包括教機(jī)器人識(shí)別人體運(yùn)動(dòng)、訓(xùn)練機(jī)器識(shí)別語音中的情緒以及檢測心電圖體現(xiàn)的患者壓力程度。 另一個(gè)帶有Transformer組件的程序是AlphaFold,2021年它因其快速預(yù)測蛋白質(zhì)結(jié)構(gòu)的能力而成為頭條新聞——這項(xiàng)任務(wù)以前需要十年的時(shí)間深入分析。 

利弊

 即使Transformer可以有助于AI工具的融合和改進(jìn),新興技術(shù)通常也會(huì)帶來高昂的代價(jià),Transformer也不例外。 Transformer在預(yù)訓(xùn)練階段需要更高的算力支撐,然后才能發(fā)揮擊敗傳統(tǒng)競爭對(duì)手的準(zhǔn)確性。 Wang表示,人們總會(huì)對(duì)高分辨率圖像越來越有興趣。而由此帶來的模型訓(xùn)練成本上漲,可能是Transformer廣泛鋪開的一個(gè)缺陷。 不過,Raghu認(rèn)為此類訓(xùn)練障礙可以通過復(fù)雜的濾波器和其他工具輕松克服。

  

Wang還指出,盡管視覺Transformer已經(jīng)引發(fā)了推動(dòng)AI前進(jìn)發(fā)展的新項(xiàng)目——包括他自己的項(xiàng)目在內(nèi),但許多新模型仍然包含了卷積功能的最精華部分。 這意味著未來的模型更有可能同時(shí)使用CNN與Transformer,而不是完全放棄CNN。而這預(yù)示了此類混合架構(gòu)的誘人前景。 或許,我們不應(yīng)該急于得出Transformer將成為最終模型的結(jié)論。 不過可以肯定的是,Transformer越來越有可能成為從業(yè)者常光顧的AI五金店里任何一種新的超級(jí)工具的必備組件。 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2011-08-09 15:20:38

2011-07-22 09:03:20

FTTHPONEPON

2009-07-13 18:11:53

2009-07-24 16:52:47

2020-02-04 20:00:02

人工智能AI教育

2011-12-16 15:34:15

IaaS云計(jì)算變形金剛

2011-07-06 09:13:55

服務(wù)器Watson變形金剛

2013-04-17 15:07:26

Windows PhoWindows Pho

2009-07-09 19:01:23

2015-08-04 09:22:37

2021-04-12 09:47:08

機(jī)器人人工智能編程

2012-02-23 00:22:55

2009-06-25 08:57:15

木馬網(wǎng)絡(luò)安全金山毒霸

2023-11-27 16:33:05

2020-10-12 08:17:53

編程語言GoPython

2017-07-25 08:21:05

2021-02-20 12:21:16

AI 數(shù)據(jù)人工智能

2012-12-10 11:32:12

打印機(jī)

2023-02-10 15:13:20

2012-05-21 15:41:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)