自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

六項(xiàng)任務(wù)、多種數(shù)據(jù)類型,谷歌、DeepMind提出高效Transformer評(píng)估基準(zhǔn)

人工智能
Transformer 在多個(gè)模態(tài)(語言、圖像、蛋白質(zhì)序列)中獲得了 SOTA 結(jié)果,但它存在一個(gè)缺點(diǎn):自注意力機(jī)制的平方級(jí)復(fù)雜度限制了其在長(zhǎng)序列領(lǐng)域中的應(yīng)用。

 

  • 基準(zhǔn)項(xiàng)目地址:https://github.com/google-research/long-range-arena

  • 論文地址:https://arxiv.org/pdf/2011.04006.pdf

Transformer 在多個(gè)模態(tài)(語言、圖像、蛋白質(zhì)序列)中獲得了 SOTA 結(jié)果,但它存在一個(gè)缺點(diǎn):自注意力機(jī)制的平方級(jí)復(fù)雜度限制了其在長(zhǎng)序列領(lǐng)域中的應(yīng)用。目前,研究人員提出大量高效 Transformer 模型(「xformer」),試圖解決該問題。其中很多展示出了媲美原版 Transformer 的性能,同時(shí)還能有效降低自注意力機(jī)制的內(nèi)存復(fù)雜度。

谷歌和DeepMind的研究人員對(duì)比了這些論文的評(píng)估和實(shí)驗(yàn)設(shè)置,得到了以下幾點(diǎn)發(fā)現(xiàn):

  • 首先,高效 Transformer 缺少統(tǒng)一的基準(zhǔn)測(cè)試,使用的任務(wù)類型也多種多樣:每個(gè)模型在不同的任務(wù)和數(shù)據(jù)集上進(jìn)行評(píng)估。

  • 其次,評(píng)估所用基準(zhǔn)通常是隨意選擇的,未充分考慮該任務(wù)是否適用于長(zhǎng)程建模評(píng)估。

  • 第三,很多論文將歸納偏置的效果和預(yù)訓(xùn)練的優(yōu)點(diǎn)混為一談,這會(huì)模糊模型的真正價(jià)值:預(yù)訓(xùn)練本身是計(jì)算密集型的,將歸納偏置和預(yù)訓(xùn)練分離開來可降低 xformer 研究的門檻。

于是,谷歌和DeepMind的研究人員提出了一個(gè)新基準(zhǔn)Long-Range Arena (LRA),用來對(duì)長(zhǎng)語境場(chǎng)景下的序列模型進(jìn)行基準(zhǔn)測(cè)試。該基準(zhǔn)包括合成任務(wù)和現(xiàn)實(shí)任務(wù),研究人員在此基準(zhǔn)上對(duì)比了十個(gè)近期提出的高效 Transformer 模型,包括 Sparse Transformers、 Reformer 、Linformer、Longformer、Sinkhorn Transformer、 Performer 、Synthesizer、Linear Transformer 和 BigBird 模型。

該基準(zhǔn)主要關(guān)注模型在長(zhǎng)語境場(chǎng)景下的能力,不過研究人員對(duì) xformer 架構(gòu)在不同數(shù)據(jù)類型和條件下的能力也很感興趣。因此,該基準(zhǔn)選擇了具備特定先驗(yàn)結(jié)構(gòu)的數(shù)據(jù)集和任務(wù)。例如,這些架構(gòu)可以建模層級(jí)結(jié)構(gòu)長(zhǎng)序列或包含某種空間結(jié)構(gòu)形式的長(zhǎng)序列嗎?這些任務(wù)的序列長(zhǎng)度從 1K 到 16K token 不等,還包括大量數(shù)據(jù)類型和模態(tài),如文本、自然圖像、合成圖像,以及需要類似度、結(jié)構(gòu)和視覺 - 空間推理的數(shù)學(xué)表達(dá)式。該基準(zhǔn)主要面向高效 Transformer,但也可作為長(zhǎng)程序列建模的基準(zhǔn)。

除了對(duì)比模型質(zhì)量以外,該研究還進(jìn)行了大量效率和內(nèi)存使用分析。研究者認(rèn)為,并行性能基準(zhǔn)測(cè)試對(duì)于社區(qū)是有益且珍貴的,能夠幫助大家深入了解這些方法的實(shí)際效率。總之,該研究提出了一個(gè)統(tǒng)一框架,既能對(duì)高效 Transformer 模型進(jìn)行簡(jiǎn)單的并行對(duì)比分析,還能對(duì)長(zhǎng)程序列模型進(jìn)行基準(zhǔn)測(cè)試。該框架使用 JAX/FLAX1 編寫。

高效 Transformer 評(píng)估新基準(zhǔn):Long-Range Arena (LRA)

基準(zhǔn)需求

在創(chuàng)建 LRA基準(zhǔn)之前,研究者先列舉了一些需求:

  • 1. 通用性:適用于所有高效 Transformer 模型。例如,并非所有 xformer 模型都能執(zhí)行自回歸解碼,因此該基準(zhǔn)中的任務(wù)僅需要編碼。

  • 2. 簡(jiǎn)潔性:任務(wù)設(shè)置應(yīng)簡(jiǎn)單,移除所有令模型對(duì)比復(fù)雜化的因素,這可以鼓勵(lì)簡(jiǎn)單模型而不是笨重的 pipeline 方法。

  • 3. 挑戰(zhàn)性:任務(wù)應(yīng)該對(duì)目前模型有一定難度,以確保未來該方向的研究有足夠的進(jìn)步空間。

  • 4. 長(zhǎng)輸入:輸入序列長(zhǎng)度應(yīng)該足夠長(zhǎng),因?yàn)樵u(píng)估不同模型如何捕獲長(zhǎng)程依賴是 LRA基準(zhǔn)的核心關(guān)注點(diǎn)。

  • 5. 探索不同方面的能力:任務(wù)集合應(yīng)當(dāng)評(píng)估模型的不同能力,如建模關(guān)系和層級(jí) / 空間結(jié)構(gòu)、泛化能力等。

  • 6. 非資源密集、方便使用:基準(zhǔn)應(yīng)該是輕量級(jí)的,方便不具備工業(yè)級(jí)計(jì)算資源的研究者使用。

任務(wù)

LRA基準(zhǔn)包含多項(xiàng)任務(wù),旨在評(píng)估高效 Transformer 模型的不同能力。具體而言,這些任務(wù)包括:Long ListOps、比特級(jí)文本分類、比特級(jí)文檔檢索、基于像素序列的圖像分類、Pathfinder(長(zhǎng)程空間依賴性)、Pathfinder-X(極端長(zhǎng)度下的長(zhǎng)程空間依賴性)。

LRA 任務(wù)所需的注意力 范圍

LRA基準(zhǔn)的主要目標(biāo)之一是評(píng)估高效 Transformer 模型捕獲長(zhǎng)程依賴的能力。為了對(duì)注意力機(jī)制在編碼輸入時(shí)需要考慮的空間范圍進(jìn)行量化估計(jì),該研究提出了「所需注意力范圍」(required attention span)。給出一個(gè)注意力模型和輸入 token 序列,注意力模塊的所需注意力范圍是 query token 和 attended token 間的平均距離。

圖 2 總結(jié)了 LRA基準(zhǔn)中每項(xiàng)任務(wù)的所需注意力范圍,從圖中可以看出每項(xiàng)任務(wù)的所需注意力范圍都很高。這表明,Transformer 模型不僅僅涉及局部信息,在很多任務(wù)和數(shù)據(jù)集中,注意力機(jī)制通常需要結(jié)合鄰近位置的信息。

實(shí)驗(yàn)

量化結(jié)果

實(shí)驗(yàn)結(jié)果表明,LRA 中的所有任務(wù)都具備一定的挑戰(zhàn)性,不同 xformer 模型的性能存在一定程度的差異。具體結(jié)果參見下表 1:

效率基準(zhǔn)

表 2 展示了 xformer 模型的效率基準(zhǔn)測(cè)試結(jié)果:

從中可以看出,低秩模型和基于核的模型通常速度最快。整體最快的模型是 Performer,在 4k 序列長(zhǎng)度上的速度是 Transformer 的 5.7 倍,Linformer 和 Linear Transformer 緊隨其后。最慢的模型是 Reformer,在 4k 序列長(zhǎng)度上的速度是 Transformer 的 80%,在 1k 序列長(zhǎng)度上的速度是 Transformer 的一半。

此外,研究者還評(píng)估了這些模型的內(nèi)存消耗情況。結(jié)果顯示,內(nèi)存占用最少的模型是 Linformer,在 4k 序列長(zhǎng)度上只使用了 0.99GB per TPU,而原版 Transformer 使用了 9.48GB per TPU,內(nèi)存占用減少了約 90%。

整體結(jié)果:不存在萬能模型

根據(jù)研究人員的分析,在 LRA 所有任務(wù)中整體性能最好(LRA 分?jǐn)?shù)最高)的模型是 BigBird。但是,BigBird 在每項(xiàng)任務(wù)中的性能均不是最好,它只是在所有任務(wù)上都能取得不錯(cuò)的性能。Performer 和 Linear Transformer 在一些任務(wù)中表現(xiàn)搶眼,但其平均分被 ListOps 任務(wù)拖累。

下圖 3 展示了模型性能、速度和內(nèi)存占用之間的權(quán)衡情況。BigBird 性能最好,但速度幾乎與原版 Transformer 相同。而 Local Attention 模型速度很快,但性能較低。在這些模型中,基于核的模型(如 Performer、Linformer 和 Linear Transformer)能夠在速度和性能之間獲得更好的折中效果,同時(shí)內(nèi)存占用也較為合理。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-07-05 15:06:00

2011-07-01 15:32:58

Qt 數(shù)據(jù)類型

2010-09-14 21:47:05

2012-04-29 11:24:09

iPhone

2010-09-26 09:04:44

2010-08-31 15:03:18

網(wǎng)絡(luò)釣魚

2025-01-06 15:00:00

Python裝飾器代碼

2021-10-14 09:43:59

人工智能AI機(jī)器人

2024-01-03 14:07:06

技術(shù)ChatGPTIT

2015-10-21 13:10:49

2017-02-06 07:41:12

2021-08-19 16:08:24

高級(jí)威脅網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2016-09-02 14:38:55

物聯(lián)網(wǎng)

2020-05-19 10:20:19

物聯(lián)網(wǎng)新商業(yè)技術(shù)

2024-03-04 13:23:34

數(shù)據(jù)模型

2021-04-14 10:59:28

JavaScript 前端this

2016-09-30 10:30:12

2010-05-26 17:05:48

MySQL數(shù)據(jù)類型

2009-02-05 10:13:00

局域網(wǎng)流量控制數(shù)據(jù)流量

2017-04-25 14:12:13

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)