自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="gsyup"></pre>

<thead id="gsyup"><span id="gsyup"><strong id="gsyup"></strong></span></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

六項(xiàng)任務(wù)、多種數(shù)據(jù)類型，谷歌、DeepMind提出高效Transformer評(píng)估基準(zhǔn)

作者：機(jī)器之心 2020-11-29 20:24:13

Transformer 在多個(gè)模態(tài)（語言、圖像、蛋白質(zhì)序列）中獲得了 SOTA 結(jié)果，但它存在一個(gè)缺點(diǎn)：自注意力機(jī)制的平方級(jí)復(fù)雜度限制了其在長(zhǎng)序列領(lǐng)域中的應(yīng)用。

基準(zhǔn)項(xiàng)目地址：https://github.com/google-research/long-range-arena
論文地址：https://arxiv.org/pdf/2011.04006.pdf

Transformer 在多個(gè)模態(tài)（語言、圖像、蛋白質(zhì)序列）中獲得了 SOTA 結(jié)果，但它存在一個(gè)缺點(diǎn)：自注意力機(jī)制的平方級(jí)復(fù)雜度限制了其在長(zhǎng)序列領(lǐng)域中的應(yīng)用。目前，研究人員提出大量高效 Transformer 模型（「xformer」），試圖解決該問題。其中很多展示出了媲美原版 Transformer 的性能，同時(shí)還能有效降低自注意力機(jī)制的內(nèi)存復(fù)雜度。

谷歌和DeepMind的研究人員對(duì)比了這些論文的評(píng)估和實(shí)驗(yàn)設(shè)置，得到了以下幾點(diǎn)發(fā)現(xiàn)：

首先，高效 Transformer 缺少統(tǒng)一的基準(zhǔn)測(cè)試，使用的任務(wù)類型也多種多樣：每個(gè)模型在不同的任務(wù)和數(shù)據(jù)集上進(jìn)行評(píng)估。
其次，評(píng)估所用基準(zhǔn)通常是隨意選擇的，未充分考慮該任務(wù)是否適用于長(zhǎng)程建模評(píng)估。
第三，很多論文將歸納偏置的效果和預(yù)訓(xùn)練的優(yōu)點(diǎn)混為一談，這會(huì)模糊模型的真正價(jià)值：預(yù)訓(xùn)練本身是計(jì)算密集型的，將歸納偏置和預(yù)訓(xùn)練分離開來可降低 xformer 研究的門檻。

于是，谷歌和DeepMind的研究人員提出了一個(gè)新基準(zhǔn)Long-Range Arena (LRA)，用來對(duì)長(zhǎng)語境場(chǎng)景下的序列模型進(jìn)行基準(zhǔn)測(cè)試。該基準(zhǔn)包括合成任務(wù)和現(xiàn)實(shí)任務(wù)，研究人員在此基準(zhǔn)上對(duì)比了十個(gè)近期提出的高效 Transformer 模型，包括 Sparse Transformers、 Reformer 、Linformer、Longformer、Sinkhorn Transformer、 Performer 、Synthesizer、Linear Transformer 和 BigBird 模型。

該基準(zhǔn)主要關(guān)注模型在長(zhǎng)語境場(chǎng)景下的能力，不過研究人員對(duì) xformer 架構(gòu)在不同數(shù)據(jù)類型和條件下的能力也很感興趣。因此，該基準(zhǔn)選擇了具備特定先驗(yàn)結(jié)構(gòu)的數(shù)據(jù)集和任務(wù)。例如，這些架構(gòu)可以建模層級(jí)結(jié)構(gòu)長(zhǎng)序列或包含某種空間結(jié)構(gòu)形式的長(zhǎng)序列嗎？這些任務(wù)的序列長(zhǎng)度從 1K 到 16K token 不等，還包括大量數(shù)據(jù)類型和模態(tài)，如文本、自然圖像、合成圖像，以及需要類似度、結(jié)構(gòu)和視覺 - 空間推理的數(shù)學(xué)表達(dá)式。該基準(zhǔn)主要面向高效 Transformer，但也可作為長(zhǎng)程序列建模的基準(zhǔn)。

除了對(duì)比模型質(zhì)量以外，該研究還進(jìn)行了大量效率和內(nèi)存使用分析。研究者認(rèn)為，并行性能基準(zhǔn)測(cè)試對(duì)于社區(qū)是有益且珍貴的，能夠幫助大家深入了解這些方法的實(shí)際效率。總之，該研究提出了一個(gè)統(tǒng)一框架，既能對(duì)高效 Transformer 模型進(jìn)行簡(jiǎn)單的并行對(duì)比分析，還能對(duì)長(zhǎng)程序列模型進(jìn)行基準(zhǔn)測(cè)試。該框架使用 JAX/FLAX1 編寫。

高效 Transformer 評(píng)估新基準(zhǔn)：Long-Range Arena (LRA)

基準(zhǔn)需求

在創(chuàng)建 LRA基準(zhǔn)之前，研究者先列舉了一些需求：

1. 通用性：適用于所有高效 Transformer 模型。例如，并非所有 xformer 模型都能執(zhí)行自回歸解碼，因此該基準(zhǔn)中的任務(wù)僅需要編碼。
2. 簡(jiǎn)潔性：任務(wù)設(shè)置應(yīng)簡(jiǎn)單，移除所有令模型對(duì)比復(fù)雜化的因素，這可以鼓勵(lì)簡(jiǎn)單模型而不是笨重的 pipeline 方法。
3. 挑戰(zhàn)性：任務(wù)應(yīng)該對(duì)目前模型有一定難度，以確保未來該方向的研究有足夠的進(jìn)步空間。
4. 長(zhǎng)輸入：輸入序列長(zhǎng)度應(yīng)該足夠長(zhǎng)，因?yàn)樵u(píng)估不同模型如何捕獲長(zhǎng)程依賴是 LRA基準(zhǔn)的核心關(guān)注點(diǎn)。
5. 探索不同方面的能力：任務(wù)集合應(yīng)當(dāng)評(píng)估模型的不同能力，如建模關(guān)系和層級(jí) / 空間結(jié)構(gòu)、泛化能力等。
6. 非資源密集、方便使用：基準(zhǔn)應(yīng)該是輕量級(jí)的，方便不具備工業(yè)級(jí)計(jì)算資源的研究者使用。

任務(wù)

LRA基準(zhǔn)包含多項(xiàng)任務(wù)，旨在評(píng)估高效 Transformer 模型的不同能力。具體而言，這些任務(wù)包括：Long ListOps、比特級(jí)文本分類、比特級(jí)文檔檢索、基于像素序列的圖像分類、Pathfinder（長(zhǎng)程空間依賴性）、Pathfinder-X（極端長(zhǎng)度下的長(zhǎng)程空間依賴性）。

LRA 任務(wù)所需的注意力范圍

LRA基準(zhǔn)的主要目標(biāo)之一是評(píng)估高效 Transformer 模型捕獲長(zhǎng)程依賴的能力。為了對(duì)注意力機(jī)制在編碼輸入時(shí)需要考慮的空間范圍進(jìn)行量化估計(jì)，該研究提出了「所需注意力范圍」(required attention span)。給出一個(gè)注意力模型和輸入 token 序列，注意力模塊的所需注意力范圍是 query token 和 attended token 間的平均距離。

圖 2 總結(jié)了 LRA基準(zhǔn)中每項(xiàng)任務(wù)的所需注意力范圍，從圖中可以看出每項(xiàng)任務(wù)的所需注意力范圍都很高。這表明，Transformer 模型不僅僅涉及局部信息，在很多任務(wù)和數(shù)據(jù)集中，注意力機(jī)制通常需要結(jié)合鄰近位置的信息。

實(shí)驗(yàn)

量化結(jié)果

實(shí)驗(yàn)結(jié)果表明，LRA 中的所有任務(wù)都具備一定的挑戰(zhàn)性，不同 xformer 模型的性能存在一定程度的差異。具體結(jié)果參見下表 1：

效率基準(zhǔn)

表 2 展示了 xformer 模型的效率基準(zhǔn)測(cè)試結(jié)果：

從中可以看出，低秩模型和基于核的模型通常速度最快。整體最快的模型是 Performer，在 4k 序列長(zhǎng)度上的速度是 Transformer 的 5.7 倍，Linformer 和 Linear Transformer 緊隨其后。最慢的模型是 Reformer，在 4k 序列長(zhǎng)度上的速度是 Transformer 的 80%，在 1k 序列長(zhǎng)度上的速度是 Transformer 的一半。

此外，研究者還評(píng)估了這些模型的內(nèi)存消耗情況。結(jié)果顯示，內(nèi)存占用最少的模型是 Linformer，在 4k 序列長(zhǎng)度上只使用了 0.99GB per TPU，而原版 Transformer 使用了 9.48GB per TPU，內(nèi)存占用減少了約 90%。

整體結(jié)果：不存在萬能模型

根據(jù)研究人員的分析，在 LRA 所有任務(wù)中整體性能最好（LRA 分?jǐn)?shù)最高）的模型是 BigBird。但是，BigBird 在每項(xiàng)任務(wù)中的性能均不是最好，它只是在所有任務(wù)上都能取得不錯(cuò)的性能。Performer 和 Linear Transformer 在一些任務(wù)中表現(xiàn)搶眼，但其平均分被 ListOps 任務(wù)拖累。

下圖 3 展示了模型性能、速度和內(nèi)存占用之間的權(quán)衡情況。BigBird 性能最好，但速度幾乎與原版 Transformer 相同。而 Local Attention 模型速度很快，但性能較低。在這些模型中，基于核的模型（如 Performer、Linformer 和 Linear Transformer）能夠在速度和性能之間獲得更好的折中效果，同時(shí)內(nèi)存占用也較為合理。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)谷歌 DeepMind

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="riozc"></style>

^{<thead id="riozc"></thead>}

<cite id="riozc"></cite>