自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer將在AI領(lǐng)域一統(tǒng)天下?現(xiàn)在下結(jié)論還為時(shí)過(guò)早

人工智能
在 Transformer 出現(xiàn)之前,人工智能在語(yǔ)言任務(wù)上的進(jìn)展一直落后于其他領(lǐng)域的發(fā)展?!冈谶^(guò)去 10 年發(fā)生的這場(chǎng)深度學(xué)習(xí)革命中,自然語(yǔ)言處理在某種程度上是后來(lái)者,」馬薩諸塞大學(xué)洛厄爾分校的計(jì)算機(jī)科學(xué)家 Anna Rumshisky 說(shuō),「從某種意義上說(shuō),NLP 曾落后于計(jì)算機(jī)視覺(jué),而 Transformer 改變了這一點(diǎn)?!?/div>

從自然語(yǔ)言處理任務(wù)起家,又在圖像分類(lèi)和生成領(lǐng)域大放異彩,所向披靡的 Transformer 會(huì)成為下一個(gè)神話嗎?

想象一下你走進(jìn)一家本地的五金店,在貨架上看到一種新型的錘子。你聽(tīng)說(shuō)過(guò)這種錘子:它比其他錘子敲得更快、更準(zhǔn)確,而且在過(guò)去的幾年里,在大多數(shù)用途中,它已經(jīng)淘汰了許多其他錘子。

此外,通過(guò)一些調(diào)整,比如這里加一個(gè)附件,那里擰一個(gè)螺絲,這種錘子還能變成一把鋸,其切割速度能媲美其他任何替代品。一些處于工具開(kāi)發(fā)前沿的專(zhuān)家表示,這把錘子可能預(yù)示著所有工具將融合到一個(gè)設(shè)備中。

類(lèi)似的故事正在人工智能領(lǐng)域上演。這種多功能的新錘子是一種人工神經(jīng)網(wǎng)絡(luò)——一種在現(xiàn)有數(shù)據(jù)上進(jìn)行訓(xùn)練以「學(xué)習(xí)」如何完成某些任務(wù)的節(jié)點(diǎn)網(wǎng)絡(luò)——稱(chēng)為 Transformer。它最初用于處理語(yǔ)言任務(wù),但最近已經(jīng)開(kāi)始影響其他 AI 領(lǐng)域。

Transformer 最初出現(xiàn)在 2017 年的一篇論文中:《Attention Is All You Need》。在其他人工智能方法中,系統(tǒng)會(huì)首先關(guān)注輸入數(shù)據(jù)的局部 patch,然后構(gòu)建整體。例如,在語(yǔ)言模型中,鄰近的單詞首先會(huì)被組合在一起。相比之下,Transformer 運(yùn)行程序以便輸入數(shù)據(jù)中的每個(gè)元素都連接或關(guān)注其他元素。研究人員將此稱(chēng)為「自注意力」。這意味著一旦開(kāi)始訓(xùn)練,Transformer 就可以看到整個(gè)數(shù)據(jù)集的跡。

在 Transformer 出現(xiàn)之前,人工智能在語(yǔ)言任務(wù)上的進(jìn)展一直落后于其他領(lǐng)域的發(fā)展?!冈谶^(guò)去 10 年發(fā)生的這場(chǎng)深度學(xué)習(xí)革命中,自然語(yǔ)言處理在某種程度上是后來(lái)者,」馬薩諸塞大學(xué)洛厄爾分校的計(jì)算機(jī)科學(xué)家 Anna Rumshisky 說(shuō),「從某種意義上說(shuō),NLP 曾落后于計(jì)算機(jī)視覺(jué),而 Transformer 改變了這一點(diǎn)?!?/p>

Transformer 很快成為專(zhuān)注于分析和預(yù)測(cè)文本的單詞識(shí)別等應(yīng)用程序的引領(lǐng)者。它引發(fā)了一波工具浪潮,比如 OpenAI 的 GPT-3 可以在數(shù)千億個(gè)單詞上進(jìn)行訓(xùn)練并生成連貫的新文本。

Transformer 的成功促使人工智能領(lǐng)域的研究者思考:這個(gè)模型還能做些什么?

答卷正在徐徐展開(kāi)——Transformer 被證明具有驚人的豐富功能。在某些視覺(jué)任務(wù)中,例如圖像分類(lèi),使用 Transformer 的神經(jīng)網(wǎng)絡(luò)比不使用 Transformer 的神經(jīng)網(wǎng)絡(luò)更快、更準(zhǔn)確。對(duì)于其他人工智能領(lǐng)域的新興研究,例如一次處理多種輸入或完成規(guī)劃任務(wù),Transformer 也可以處理得更多、更好。

「Transformer 似乎在機(jī)器學(xué)習(xí)領(lǐng)域的許多問(wèn)題上具有相當(dāng)大的變革性,包括計(jì)算機(jī)視覺(jué),」在慕尼黑寶馬公司從事與自動(dòng)駕駛汽車(chē)計(jì)算機(jī)視覺(jué)工作的 Vladimir Haltakov 說(shuō)。

就在十年前,AI 的不同子領(lǐng)域之間還幾乎是互不相通的,但 Transformer 的到來(lái)表明了融合的可能性?!肝艺J(rèn)為 Transformer 之所以如此受歡迎,是因?yàn)樗故境隽送ㄓ玫臐摿?,」德克薩斯大學(xué)奧斯汀分校的計(jì)算機(jī)科學(xué)家 Atlas Wang 說(shuō):「我們有充分的理由嘗試在整個(gè) AI 任務(wù)范圍內(nèi)嘗試使用 Transformer。」

從「語(yǔ)言」到「視覺(jué)」

在《Attention Is All You Need》發(fā)布幾個(gè)月后,擴(kuò)展 Transformer 應(yīng)用范圍的最有希望的動(dòng)作就開(kāi)始了。Alexey Dosovitskiy 當(dāng)時(shí)在谷歌大腦柏林辦公室工作,正在研究計(jì)算機(jī)視覺(jué),這是一個(gè)專(zhuān)注于教授計(jì)算機(jī)如何處理和分類(lèi)圖像的 AI 子領(lǐng)域。

與該領(lǐng)域的幾乎所有其他人一樣,他一直使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 。多年來(lái),正是 CNN 推動(dòng)了深度學(xué)習(xí),尤其是計(jì)算機(jī)視覺(jué)領(lǐng)域的所有重大飛躍。CNN 通過(guò)對(duì)圖像中的像素重復(fù)應(yīng)用濾波器來(lái)進(jìn)行特征識(shí)別?;?CNN,照片應(yīng)用程序可以按人臉給你的照片分門(mén)別類(lèi),或是將牛油果與云區(qū)分開(kāi)來(lái)。因此,CNN 被認(rèn)為是視覺(jué)任務(wù)必不可少的。

當(dāng)時(shí),Dosovitskiy 正在研究該領(lǐng)域最大的挑戰(zhàn)之一,即在不增加處理時(shí)間的前提下,將 CNN 放大:在更大的數(shù)據(jù)集上訓(xùn)練,表示更高分辨率的圖像。但隨后他看到,Transformer 已經(jīng)取代了以前幾乎所有與語(yǔ)言相關(guān)的 AI 任務(wù)的首選工具?!肝覀冿@然從正在發(fā)生的事情中受到了啟發(fā),」他說(shuō),「我們想知道,是否可以在視覺(jué)上做類(lèi)似的事情?」 這個(gè)想法某種程度上說(shuō)得通——畢竟,如果 Transformer 可以處理大數(shù)據(jù)集的單詞,為什么不能處理圖片呢?

最終的結(jié)果是:在 2021 年 5 月的一次會(huì)議上,一個(gè)名為 Vision Transformer(ViT)的網(wǎng)絡(luò)出現(xiàn)了。該模型的架構(gòu)與 2017 年提出的第一個(gè) Transformer 的架構(gòu)幾乎相同,只有微小的變化,這讓它能夠做到分析圖像,而不只是文字?!刚Z(yǔ)言往往是離散的,」Rumshisky 說(shuō):「所以必須使圖像離散化。」

ViT 團(tuán)隊(duì)知道,語(yǔ)言的方法無(wú)法完全模仿,因?yàn)槊總€(gè)像素的自注意力在計(jì)算時(shí)間上會(huì)非常昂貴。所以,他們將較大的圖像劃分為正方形單元或 token。大小是任意的,因?yàn)?token 可以根據(jù)原始圖像的分辨率變大或變小(默認(rèn)為一條邊 16 像素),但通過(guò)分組處理像素,并對(duì)每個(gè)像素應(yīng)用自注意力,ViT 可以快速處理大型訓(xùn)練數(shù)據(jù)集,從而產(chǎn)生越來(lái)越準(zhǔn)確的分類(lèi)。

Transformer 能夠以超過(guò) 90% 的準(zhǔn)確率對(duì)圖像進(jìn)行分類(lèi),這比 Dosovitskiy 預(yù)期的結(jié)果要好得多,并在 ImageNet 圖像數(shù)據(jù)集上實(shí)現(xiàn)了新的 SOTA Top-1 準(zhǔn)確率。ViT 的成功表明,卷積可能不像研究人員認(rèn)為的那樣對(duì)計(jì)算機(jī)視覺(jué)至關(guān)重要。

與 Dosovitskiy 合作開(kāi)發(fā) ViT 的谷歌大腦蘇黎世辦公室的 Neil Houlsby 說(shuō):「我認(rèn)為 CNN 很可能在中期被視覺(jué) Transformer 或其衍生品所取代?!顾J(rèn)為,未來(lái)的模型可能是純粹的 Transformer,或者是為現(xiàn)有模型增加自注意力的方法。

一些其他結(jié)果驗(yàn)證了這些預(yù)測(cè)。研究人員定期在 ImageNet 數(shù)據(jù)庫(kù)上測(cè)試他們的圖像分類(lèi)模型,在 2022 年初,ViT 的更新版本僅次于將 CNN 與 Transformer 相結(jié)合的新方法。而此前長(zhǎng)期的冠軍——沒(méi)有 Transformer 的 CNN,目前只能勉強(qiáng)進(jìn)入前 10 名。

Transformer 的工作原理

ImageNet 結(jié)果表明,Transformer 可以與領(lǐng)先的 CNN 競(jìng)爭(zhēng)。但谷歌大腦加州山景城辦公室的計(jì)算機(jī)科學(xué)家 Maithra Raghu 想知道,它們是否和 CNN 一樣「看到」圖像。神經(jīng)網(wǎng)絡(luò)是一個(gè)難以破譯的「黑盒子」,但有一些方法可以窺探其內(nèi)部——例如通過(guò)逐層檢查網(wǎng)絡(luò)的輸入和輸出了解訓(xùn)練數(shù)據(jù)如何流動(dòng)。Raghu 的團(tuán)隊(duì)基本上就是這樣做的——他們將 ViT 拆開(kāi)了。

她的團(tuán)隊(duì)確定了自注意力在算法中導(dǎo)致不同感知的方式。歸根結(jié)底,Transformer 的力量來(lái)自于它處理圖像編碼數(shù)據(jù)的方式?!冈?CNN 中,你是從非常局部的地方開(kāi)始,然后慢慢獲得全局視野,」Raghu 說(shuō)。CNN 逐個(gè)像素地識(shí)別圖像,通過(guò)從局部到全局的方式來(lái)識(shí)別角或線等特征。但是在帶有自注意力的 Transformer 中,即使是信息處理的第一層也會(huì)在相距很遠(yuǎn)的圖像位置之間建立聯(lián)系(就像語(yǔ)言一樣)。如果說(shuō) CNN 的方法就像從單個(gè)像素開(kāi)始并用變焦鏡頭縮小遠(yuǎn)處物體的像的放大倍數(shù),那么 Transformer 就是慢慢地將整個(gè)模糊圖像聚焦。

這種差異在 Transformer 最初專(zhuān)注的語(yǔ)言領(lǐng)域更容易理解,思考一下這些句子:「貓頭鷹發(fā)現(xiàn)了一只松鼠。它試圖用爪子抓住它,但只抓住了尾巴的末端。」第二句的結(jié)構(gòu)令人困惑:「它」指的是什么?只關(guān)注「它」鄰近的單詞的 CNN 會(huì)遇到困難,但是將每個(gè)單詞與其他單詞連接起來(lái)的 Transformer 可以識(shí)別出貓頭鷹在抓松鼠,而松鼠失去了部分尾巴。

顯然,Transformer 處理圖像的方式與卷積網(wǎng)絡(luò)有著本質(zhì)上的不同,研究人員變得更加興奮。Transformer 在將數(shù)據(jù)從一維字符串(如句子)轉(zhuǎn)換為二維數(shù)組(如圖像)方面的多功能性表明,這樣的模型可以處理許多其他類(lèi)型的數(shù)據(jù)。例如,Wang 認(rèn)為,Transformer 可能是朝著實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)架構(gòu)的融合邁出的一大步,從而產(chǎn)生了一種通用的計(jì)算機(jī)視覺(jué)方法——也許也適用于其他 AI 任務(wù)?!府?dāng)然,要讓它真正發(fā)生是有局限性的,但如果有一種可以通用的模型,讓你可以將各種數(shù)據(jù)放在一臺(tái)機(jī)器上,那肯定是非常棒的?!?/p>

關(guān)于 ViT 的展望

現(xiàn)在研究人員希望將 Transformer 應(yīng)用于一項(xiàng)更艱巨的任務(wù):創(chuàng)造新圖像。GPT-3 等語(yǔ)言工具可以根據(jù)其訓(xùn)練數(shù)據(jù)生成新文本。在去年發(fā)表的一篇論文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中,Wang 組合了兩個(gè) Transformer 模型,試圖對(duì)圖像做同樣的事情,但這是一個(gè)困難得多的問(wèn)題。當(dāng)雙 Transformer 網(wǎng)絡(luò)在超過(guò) 200000 個(gè)名人的人臉上進(jìn)行訓(xùn)練時(shí),它以中等分辨率合成了新的人臉圖像。根據(jù)初始分?jǐn)?shù)(一種評(píng)估神經(jīng)網(wǎng)絡(luò)生成的圖像的標(biāo)準(zhǔn)方法),生成的名人面孔令人印象深刻,并且至少與 CNN 創(chuàng)建的名人一樣令人信以為真。

Wang 認(rèn)為,Transformer 在生成圖像方面的成功比 ViT 在圖像分類(lèi)方面的能力更令人驚訝?!干赡P托枰C合能力,需要能夠添加信息以使其看起來(lái)合理,」他說(shuō)。與分類(lèi)領(lǐng)域一樣,Transformer 方法正在生成領(lǐng)域取代卷積網(wǎng)絡(luò)。

Raghu 和 Wang 還看到了 Transformer 在多模態(tài)處理中的新用途。「以前做起來(lái)比較棘手,」Raghu 說(shuō),因?yàn)槊糠N類(lèi)型的數(shù)據(jù)都有自己的專(zhuān)門(mén)模型,方法之間是孤立的。但是 Transformer 提出了一種組合多個(gè)輸入源的方法。

「有很多有趣的應(yīng)用程序可以結(jié)合其中一些不同類(lèi)型的數(shù)據(jù)和圖像?!估?,多模態(tài)網(wǎng)絡(luò)可能會(huì)為一個(gè)系統(tǒng)提供支持,讓系統(tǒng)除了聽(tīng)一個(gè)人的聲音外,還可以讀取一個(gè)人的唇語(yǔ)?!改憧梢該碛胸S富的語(yǔ)言和圖像信息表征,」Raghu 說(shuō),「而且比以前更深入?!?/p>

這些面孔是在對(duì)超過(guò) 200000 張名人面孔的數(shù)據(jù)集進(jìn)行訓(xùn)練后,由基于 Transformer 的網(wǎng)絡(luò)創(chuàng)建的。

新的一系列研究表明了 Transformer 在其他人工智能領(lǐng)域的一系列新用途,包括教機(jī)器人識(shí)別人體運(yùn)動(dòng)、訓(xùn)練機(jī)器識(shí)別語(yǔ)音中的情緒以及檢測(cè)心電圖中的壓力水平。另一個(gè)帶有 Transformer 組件的程序是 AlphaFold,它以快速預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的能力,解決了五十年來(lái)蛋白質(zhì)分子折疊問(wèn)題,成為了名噪一時(shí)的頭條新聞。

Transformer isn't all you need

即使 Transformer 有助于整合和改進(jìn) AI 工具,但和其他新興技術(shù)一樣,Transformer 也存在代價(jià)高昂的特點(diǎn)。一個(gè) Transformer 模型需要在預(yù)訓(xùn)練階段消耗大量的計(jì)算能力,才能擊敗之前的競(jìng)爭(zhēng)對(duì)手。

這可能是個(gè)問(wèn)題。「人們對(duì)高分辨率的圖像越來(lái)越感興趣,」Wang 表示。訓(xùn)練費(fèi)用可能是阻礙 Transformer 推廣開(kāi)來(lái)的一個(gè)不利因素。然而,Raghu 認(rèn)為,訓(xùn)練障礙可以借助復(fù)雜的濾波器和其他工具來(lái)克服。

Wang 還指出,盡管視覺(jué) transformer 已經(jīng)在推動(dòng) AI 領(lǐng)域的進(jìn)步,但許多新模型仍然包含了卷積的最佳部分。他說(shuō),這意味著未來(lái)的模型更有可能同時(shí)使用這兩種模式,而不是完全放棄 CNN。

同時(shí),這也表明,一些混合架構(gòu)擁有誘人的前景,它們以一種當(dāng)前研究者無(wú)法預(yù)測(cè)的方式利用 transformer 的優(yōu)勢(shì)?!敢苍S我們不應(yīng)該急于得出結(jié)論,認(rèn)為 transformer 就是最完美的那個(gè)模型,」Wang 說(shuō)。但越來(lái)越明顯的是,transformer 至少會(huì)是 AI shop 里所有新型超級(jí)工具的一部分。

責(zé)任編輯:未麗燕 來(lái)源: 機(jī)器之心編譯
相關(guān)推薦

2022-02-08 08:00:58

Web3去中心化區(qū)塊鏈

2018-03-29 02:29:27

2012-05-22 09:19:20

Linux系統(tǒng)

2021-03-02 09:36:58

5G運(yùn)營(yíng)商移動(dòng)

2017-10-18 07:42:23

Docker

2013-01-07 09:48:09

綜合布線數(shù)據(jù)中心

2021-09-14 10:07:05

美國(guó)網(wǎng)絡(luò)安全勒索軟件

2023-10-09 14:51:53

向量數(shù)據(jù)庫(kù)

2013-02-27 09:02:16

PC智能手機(jī)云計(jì)算

2018-03-01 10:50:54

華為云

2019-06-04 14:58:11

計(jì)算機(jī)專(zhuān)業(yè)熱門(mén)專(zhuān)業(yè)軟件

2012-06-01 10:46:09

Windows 8微軟

2021-02-04 06:04:11

IDEAEclipse

2009-03-16 08:54:00

x86CPUIntel

2021-03-29 13:15:14

Linuxrc8版本穩(wěn)定版本

2016-02-24 17:50:00

京東大數(shù)據(jù)

2019-09-20 09:22:00

藍(lán)牙WiFiZigBee

2010-05-21 17:07:01

IIS 7.0

2021-04-29 15:16:46

6G網(wǎng)絡(luò)5G

2019-06-14 11:18:49

IPv4NATIPv6
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)