AI圈炸了!微軟解封Transformer,序列長度擴(kuò)展10億+
大數(shù)據(jù)文摘出品
AI圈炸了!微軟推出的 LONGNET 成功將Transformer的Token處理能力擴(kuò)展到了10億+。
圖片
要知道,之前大家一直夸Transformer的理解能力和短序列生成能力,對長序列一直“有心無力”。
微軟這一次操作相當(dāng)于讓一個短跑冠軍擁有了極速跑馬拉松的能力。畢竟,處理長序列的同時,處理短序列任務(wù)時依然保持優(yōu)秀的性能。
LONGNET is a Transformer variant that can scale sequence length to more than 1 billion tokens, with no loss in shorter sequences.
圖片
對此,網(wǎng)友評論:這是一場革命!
因為,這項工作為建模長序列提供了新的思路和可能,未來,甚至有望將整個互聯(lián)網(wǎng)語料視為一個Token。同時,意味著更復(fù)雜的 AI 互動成為可能。
LONGNET解封序列長度
Transformer 模型是許多AI系統(tǒng)的核心架構(gòu),工作原理是處理由Tokens組成的信息序列,從而理解或生成文本。
注:Token可以是簡短的單詞或者完整的句子。
全局注意力機(jī)制
全局注意力(global attention)是Transformer理解能力的關(guān)鍵所在,它允許一個Token與其他所有Token進(jìn)行“互動”。序列一旦變得越長,互動次數(shù)呈指數(shù)級增長,大大增加了計算復(fù)雜性。
上段內(nèi)容有點抽象,解釋一下:想象一下,你試圖與房間里的每一個人分別進(jìn)行對話。如果只有幾個人,這是可以應(yīng)對的。但隨著人數(shù)的增加,很快就變得難以承受。
ChatGPT就是 OpenAI 基于Transformer開發(fā)的,大家在使用它進(jìn)行上下文對話的時候,會發(fā)現(xiàn)它會經(jīng)?!巴绷四阒敖o他說過的話。
以后,有了LONGNET 就解鎖了ChatGPT無限對話能力,它會記起你最開始的提問。
LONGNET的核心:擴(kuò)張注意力的力量
圖片
在LONGNET這項工作中,微軟的研究員將一種稱為“擴(kuò)張注意力”(dilated attention)的新穎概念引入到Transformer 模型中,從根本上改變了模型處理序列的方式。
擴(kuò)張注意力的妙用在于,距離增大時能夠關(guān)注更多的Token,而無需讓每個序列與其他所有序列互動。
就像,在人群中既能關(guān)注到附近的人,也能關(guān)注到遠(yuǎn)離的人,但不需要與每個人單獨交談。
圖注:擴(kuò)張注意力在 LONGNET 中使用的構(gòu)建模塊。包括一系列用于建模短程和長程依賴關(guān)系的注意力模式。注意力模式的數(shù)量可以根據(jù)序列長度進(jìn)行擴(kuò)展。
這和稀疏注意力模式很像,但借鑒了線段樹的思想。能讓與序列長度成指數(shù)關(guān)系增長的互動次數(shù)變?yōu)榫€性增長。話句話說,隨著序列變得越來越長,計算工作量的增加變得更容易應(yīng)對。
擴(kuò)張注意力不僅讓 LONGNET 更高效,還讓其更具靈活性。因為不需要與每個序列互動,還可以根據(jù)任務(wù)調(diào)整關(guān)注焦點,這使得它能夠有效處理短序列和長序列。
LONGNET在通用語言任務(wù)方面也表現(xiàn)出色。這意味著它不僅是一種專門用于長序列的工具,而且是一種能夠處理許多任務(wù)的穩(wěn)健且靈活的模型。
圖注:不同方法之間計算復(fù)雜性的比較。N 是序列長度,d 是隱藏層的維度。
此外,研究人員將 LONGNET 與傳統(tǒng)的 Transformer 和稀疏 Transformer 進(jìn)行了對比。為了進(jìn)行比較,他們將這些模型的序列長度從 2,000 個標(biāo)記(2K)擴(kuò)展到 32,000 個標(biāo)記(32K)。為了確保比較的公平性,他們調(diào)整了各模型的參數(shù)。盡管在計算上有一定限制,但實驗結(jié)果仍然非常出色。
同時,增加模型參數(shù)從1.2億到27億,隨著LongNet的計算量增加,在測試集上的PPL也隨之降低。這體現(xiàn)出,LongNet同樣滿足scaling law。訓(xùn)練更大的語言模型可能能取得更好的表現(xiàn)。
LONGNET并非沒有局限,例如雖然擴(kuò)張注意力機(jī)制將計算復(fù)雜性降低到低于標(biāo)準(zhǔn) Transformer 模型的水平,但處理超過 10 億個標(biāo)記的序列仍然需要大量資源。此外,雖然有強(qiáng)大的性能,但可能仍需要進(jìn)行更多的測試和驗證。
微軟也提出了關(guān)于LONGNET的未來研究方向:如何進(jìn)一步優(yōu)化擴(kuò)張注意力機(jī)制?是否有其他序列處理技術(shù)可以與擴(kuò)張注意力相輔相成?如何將LONGNET 有效地整合到現(xiàn)有的 AI 系統(tǒng)(如 ChatGPT)中?
論文地址:
https://arxiv.org/abs/2307.02486