自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer的無限之路:位置編碼視角下的長度外推綜述

人工智能 新聞
哈爾濱工業(yè)大學(xué)的研究者們從位置編碼(Position Encoding, PE)的角度出發(fā),全面地總結(jié)了 Transformer 模型在長度外推方面的研究進(jìn)展,系統(tǒng)地回顧了各種旨在增強(qiáng) Transformer 長度外推能力的方法,主要包括可外推的位置編碼和基于這些位置編碼的拓展方法。

在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,Transformer 模型因其在序列建模中的卓越性能而受到廣泛關(guān)注。然而,Transformer 及在其基礎(chǔ)之上的大語言模型(Large Language Models,LLMs)都不具備有效長度外推(Length Extrapolation)的能力。這意味著,受限于其訓(xùn)練時預(yù)設(shè)的上下文長度限制,大模型無法有效處理超過該長度限制的序列。

文本續(xù)寫和語言延展是人類語言的核心能力之一,與之相對的,長度外推是語言模型智能進(jìn)化的重要方向,也是在大模型時代最為高效的將模型的能力遷移到長序列數(shù)據(jù)的重要方法,對該問題的研究兼具理論價值和應(yīng)用價值。因此,大量的相關(guān)工作持續(xù)涌現(xiàn),在不斷擴(kuò)展語言模型能力邊界的同時,也呼喚一篇系統(tǒng)性的綜述來對這一領(lǐng)域進(jìn)行概覽。

基于此,哈爾濱工業(yè)大學(xué)的研究者們從位置編碼(Position Encoding, PE)的角度出發(fā),全面地總結(jié)了 Transformer 模型在長度外推方面的研究進(jìn)展,系統(tǒng)地回顧了各種旨在增強(qiáng) Transformer 長度外推能力的方法,主要包括可外推的位置編碼和基于這些位置編碼的拓展方法。

圖片

論文鏈接:https://arxiv.org/abs/2312.17044

可外推的位置編碼

由于 Transformer 自身具有置換不變性(Permutation Invariance),無法直接捕獲每個詞在序列中的位置信息,因此使用位置編碼將序列中元素順序信息融入Transformer成為一種常見做法。根據(jù)位置編碼表示的是序列中元素的絕對位置信息還是相對位置信息,業(yè)界將位置編碼分為絕對位置編碼(Absolute Position Encoding,APE)和相對位置編碼(Relative Position Encoding,RPE),其主要區(qū)別如下圖所示(左圖表示 APE,右圖表示 RPE)。

圖片

考慮到現(xiàn)有研究表明這一分類對模型的外推能力有重要影響,我們根據(jù)這一分類來對本節(jié)內(nèi)容進(jìn)行劃分。

絕對位置編碼

在原始的 Transformer 論文中,位置編碼是通過正弦和余弦函數(shù)生成的,這些函數(shù)將位置映射到模型的表示空間中。Transformer 的作者猜想這種正弦位置編碼可以有效外推,但是后來的研究成果否定了這一猜想。盡管如此,作為 Transformer 的第一個 PE,正弦 APE 對之后的 PE 產(chǎn)生了重大影響。

為了增強(qiáng) Transformer 模型的外推能力,研究人員要么通過隨機(jī)位移將位移不變性融入正弦 APE 中,要么生成隨位置平滑變化的位置嵌入并期望模型能夠?qū)W會推斷這一變化函數(shù)?;谶@些思想的方法展現(xiàn)出比正弦 APE 更強(qiáng)的外推能力,但仍無法達(dá)到 RPE 的水平。原因之一是,APE 將不同的位置映射到不同的位置嵌入,外推意味著模型必須推斷出不曾見過的位置嵌入。然而,這對于模型來說是一項(xiàng)艱巨的任務(wù)。因?yàn)樵趶V泛的預(yù)訓(xùn)練過程中重復(fù)出現(xiàn)的位置嵌入數(shù)量有限,特別是在 LLM 的情況下,模型極易對這些位置編碼過擬合。

相對位置編碼

由于 APE 在長度外推上的表現(xiàn)難以令人滿意,而 RPE 天然地由于其位移不變性具備更好的外推能力,并且人們普遍認(rèn)為上下文中單詞的相對順序更重要。近年來,RPE 已成為編碼位置信息的主要方法。

早期的 RPE 來自于對正弦位置編碼的簡單修改,并常常結(jié)合裁剪或分箱策略來避免出現(xiàn)分布外的位置嵌入,這些策略被認(rèn)為有利于外推。此外,由于 RPE 解耦了位置和位置表示之間的一對一對應(yīng)關(guān)系,因此將偏差項(xiàng)直接添加到注意力公式中成為將位置信息集成到 Transformer 中的一種可行甚至更好的方法。這種方法要簡單得多,并且自然地解開了值(value)向量和位置信息的糾纏。然而,盡管這些偏置方法具有很強(qiáng)的外推性,但它們無法表示 RoPE(Rotary Position Embedding,旋轉(zhuǎn)位置編碼)中那樣復(fù)雜的距離函數(shù)。因此,盡管 RoPE 的外推性較差,但由于其優(yōu)異的綜合性能,成為近來 LLMs 最主流的的位置編碼。論文中介紹的全部可外推 PE 如表 1 所示。

圖片

大模型時代的外推方法

為了增強(qiáng) LLMs 的長度外推能力,研究者們基于現(xiàn)有的位置編碼提出了多種方法,主要分為位置插值(Position Interpolation)和隨機(jī)化位置編碼(Randomized Position Encoding)兩大類別。

位置插值方法

位置插值方法通過在推理時對位置編碼進(jìn)行縮放,使得原本超出模型訓(xùn)練長度的位置編碼在插值后落入已訓(xùn)練位置區(qū)間。由于其卓越的外推性能和極低的開銷,位置插值方法引起了研究界的廣泛興趣。此外,與其他外推方法不同,位置插值方法已經(jīng)廣泛出現(xiàn)在開源模型中,例如 Code Llama、Qwen-7B 和 Llama2。然而,目前的插值方法僅僅關(guān)注 RoPE,如何通過插值使采用其他 PE 的 LLM 具備更好的外推能力仍需探索。

隨機(jī)化位置編碼

簡單來說,隨機(jī)化 PE 只是通過在訓(xùn)練期間引入隨機(jī)位置來將預(yù)訓(xùn)練的上下文窗口與較長的推理長度解耦,從而提高了較長上下文窗口中所有位置的曝光度。值得注意的是,隨機(jī)化 PE 的思想與位置插值方法有很大不同,前者旨在使模型在訓(xùn)練過程中觀察到所有可能的位置,而后者試圖在推理過程中對位置進(jìn)行插值,使它們落入既定的位置范圍內(nèi)。出于同樣的原因,位置插值方法大多是即插即用的,而隨機(jī)化 PE 通常需要進(jìn)一步微調(diào),這使得位置插值更具吸引力。然而,這兩類方法并不互斥,因此可以結(jié)合它們來進(jìn)一步增強(qiáng)模型的外推能力。

挑戰(zhàn)與未來方向

評測與基準(zhǔn)數(shù)據(jù)集:在早期研究中,對 Transformer 外推能力的評估來自各下游任務(wù)的性能評價指標(biāo),如機(jī)器翻譯的 BLEU;隨著 T5、GPT2 等語言模型逐漸統(tǒng)一自然語言處理任務(wù),語言建模所使用的困惑度成為外推的評價指標(biāo)。然而,最新的研究已經(jīng)表明困惑度無法揭示下游任務(wù)的性能表現(xiàn),因而亟需專用的基準(zhǔn)數(shù)據(jù)集與評測指標(biāo)來推動長度外推領(lǐng)域的進(jìn)一步發(fā)展。

理論解釋:目前的長度外推相關(guān)工作大都是實(shí)證性的,盡管有一些解釋模型成功外推的初步嘗試,但堅(jiān)實(shí)的理論基礎(chǔ)仍未建立,究竟有哪些因素影響且如何影響長度外推性能仍然是一個懸而未決的問題。

其他方法:正如本文所述,現(xiàn)有的長度外推工作大多集中在位置編碼視角下,但不難理解,長度外推需要系統(tǒng)性設(shè)計(jì)。位置編碼是其中一個關(guān)鍵的組成部分,但絕非唯一的組成部分,更廣闊的視野將進(jìn)一步為這一問題帶來激勵。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-10-12 13:30:00

2023-06-03 20:51:09

2022-12-29 08:00:00

Transforme架構(gòu)深度學(xué)習(xí)

2022-02-24 16:32:26

OpenHarmon壓縮編碼鴻蒙

2024-11-27 13:30:00

2021-09-06 14:53:15

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-12-21 09:44:06

Google Transforme技術(shù)

2023-11-23 07:41:54

因果推斷大模型

2024-09-03 09:46:51

2024-10-10 08:33:06

2024-05-13 10:38:08

2023-09-13 18:59:40

SRE視角藍(lán)綠發(fā)布

2023-07-26 07:59:28

2019-09-29 09:18:11

中科創(chuàng)達(dá)操作系統(tǒng)工程AIoT

2023-08-10 14:03:42

數(shù)據(jù)中心IT設(shè)備

2023-03-31 09:02:37

前端客服通信

2022-01-26 06:57:33

Web3區(qū)塊鏈互聯(lián)網(wǎng)

2016-12-22 23:27:49

數(shù)據(jù)數(shù)據(jù)科學(xué)家變量

2016-12-23 14:56:49

數(shù)據(jù)科學(xué)商業(yè)視角思維

2023-08-24 12:13:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號