自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌提出Transformer架構(gòu)中,表示崩塌、過度壓縮的五個(gè)解決方法

人工智能 新聞
谷歌DeepMind 和牛津大學(xué)的研究人員發(fā)布了一篇論文,深度研究了在解碼器Transformer架構(gòu)中的“表示崩塌”和“過度壓縮”兩大難題,同時(shí)提供了幾個(gè)簡(jiǎn)單的解決方案。

Transformer架構(gòu)的出現(xiàn)極大推動(dòng)了生成式AI的發(fā)展,在此基礎(chǔ)之上開發(fā)出了ChatGPT、Copilot、訊飛星火、文心一言、Midjourney等一大批知名產(chǎn)品。

但Transformer架構(gòu)并非完美還存在不少問題,例如,在執(zhí)行需要計(jì)數(shù)或復(fù)制輸入序列元素的任務(wù)經(jīng)常會(huì)出錯(cuò)。而這些操作是推理的基本組件,對(duì)于解決日常任務(wù)至關(guān)重要。

所以,谷歌DeepMind和牛津大學(xué)的研究人員發(fā)布了一篇論文,深度研究了在解碼器Transformer架構(gòu)中的“表示崩塌”和“過度壓縮”兩大難題,同時(shí)提供了幾個(gè)簡(jiǎn)單的解決方案。

圖片

表示崩塌

表示崩潰是指在某些情況下,輸入給大模型的不同序列在經(jīng)過處理后,會(huì)生成非常相似甚至幾乎相同的表示,并導(dǎo)致模型無法具體區(qū)分它們。

這是因?yàn)門ransformer架構(gòu)中的自注意力機(jī)制和位置編碼的設(shè)計(jì),使得隨著序列的增長(zhǎng),信息的表示越來越集中,從而導(dǎo)致信息的損失。

圖片

為了更好地解釋這種表示崩潰,研究人員定義了兩個(gè)序列的表示差異,并在Gemma 7B大語(yǔ)言模型中進(jìn)行了實(shí)驗(yàn)。

圖片

一組是逐漸增長(zhǎng)的1的序列,另一組是在1的序列末尾添加了一個(gè)額外的1。通過觀察這兩組序列在Transformer模型中的表示。

研究人員發(fā)現(xiàn),隨著序列長(zhǎng)度的增加,兩組序列的表示差異逐漸減小,直至低于機(jī)器的浮點(diǎn)精度,這時(shí)大模型已經(jīng)無法精準(zhǔn)區(qū)分這兩個(gè)序列了。

過度壓縮

過度壓縮現(xiàn)象的出現(xiàn)與表示崩塌有很大關(guān)系。在Transformer模型中,過度壓縮的表現(xiàn)為早期輸入的token在模型的最終表示中的影響力減弱,特別是當(dāng)這些token距離序列的末尾較遠(yuǎn)時(shí)。

圖片

由于Transformer模型的自注意力機(jī)制和層疊結(jié)構(gòu),數(shù)據(jù)在每一層都會(huì)經(jīng)過多次的壓縮和重新分配,這可能導(dǎo)致一些重要的信息在傳播過程中被稀釋或變得非常不明顯。

圖片

為了展示過度壓縮在Transformer中的詳細(xì)表現(xiàn),研究人員深度分析了如何通過模型的每一層傳遞并最終影響下一個(gè)token的預(yù)測(cè)。

研究人員發(fā)現(xiàn),對(duì)于序列中較早的token,由于它們可以通過更多的路徑影響最終的表示,因此它們的影響力會(huì)隨著序列長(zhǎng)度的增加而減少。這種影響力隨著token在序列中的位置而變化,序列開始的token比序列末尾的token更容易在模型的表示中保留其信息。

圖片

同樣為了驗(yàn)證該現(xiàn)象的存在,研究人員在Gemini 1.5和Gemma 7B模型中進(jìn)行了復(fù)制和計(jì)數(shù)任務(wù)實(shí)驗(yàn)。

結(jié)果顯示,當(dāng)序列長(zhǎng)度增加時(shí),模型在復(fù)制序列末尾的token時(shí)表現(xiàn)不佳,而在復(fù)制序列開始的token時(shí)表現(xiàn)較好,這基本驗(yàn)證了過度壓縮的現(xiàn)象確實(shí)存在。

五個(gè)解決方案

為了解決Transformer架構(gòu)中的表示崩塌和過度壓縮兩大難題,研究人員提出了5個(gè)簡(jiǎn)單有效的解決方法。

  • 改進(jìn)注意力機(jī)制:最直接的方法就是改進(jìn)Transformer架構(gòu)中的自注意力機(jī)制。通過調(diào)整注意力權(quán)重的分配,可以增強(qiáng)模型對(duì)序列中早期token的關(guān)注。這可以通過修改注意力分?jǐn)?shù)的計(jì)算方式來實(shí)現(xiàn),例如,通過增加對(duì)早期token的權(quán)重,或者重新設(shè)計(jì)一種機(jī)制,使得模型在處理長(zhǎng)序列時(shí)不會(huì)忽略這些token。
  • 改進(jìn)位置編碼:位置編碼是Transformer模型中用于捕捉序列中token位置信息的關(guān)鍵組件??梢愿倪M(jìn)這個(gè)模塊,例如,使用相對(duì)位置編碼或可學(xué)習(xí)的動(dòng)態(tài)位置編碼,有助于模型更好地保持序列中各個(gè)token的獨(dú)特性,從而減少表示崩潰的發(fā)生。
  • 增加大模型深度和寬度:增加模型的深度和寬度可以提供更多的參數(shù)來學(xué)習(xí)復(fù)雜的表示,有助于模型更好地區(qū)分不同的輸入序列。但是對(duì)AI算力的需求也非常大,不適合小型企業(yè)和個(gè)人開發(fā)者。
  • 使用正則化:例如,使用權(quán)重衰減可以幫助模型避免過擬合,有助于減少表示崩潰現(xiàn)象。通過在訓(xùn)練過程中引入噪聲或限制權(quán)重的大小,能抵抗輸入序列的微小變化。
  • 引入外部記憶組件:可以使用外部記憶組件,例如,差分記憶或指針網(wǎng)絡(luò),可以幫助模型存儲(chǔ)和檢索長(zhǎng)序列中的信息。這種外部記憶可以作為模型內(nèi)部表示的補(bǔ)充,提供一種機(jī)制來保持序列中關(guān)鍵信息的活躍度。

圖片

為了驗(yàn)證方法的有效性,研究人員在谷歌的Gemini 1.5和Gemma 7B大語(yǔ)言模型中行了綜合評(píng)測(cè)。結(jié)果顯示,改進(jìn)注意力機(jī)制和引入外部記憶組件等方法,確實(shí)能有效緩解這兩大難題。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2022-04-06 10:09:17

云服務(wù)云計(jì)算

2013-06-20 09:14:43

2009-08-24 10:37:11

Silverlight

2020-06-09 10:15:21

模型人工智能自然語(yǔ)言

2021-07-13 17:59:13

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-11-03 10:32:58

物聯(lián)網(wǎng)IOT

2010-07-15 14:01:12

telnet亂碼

2021-03-26 11:38:29

云計(jì)算

2021-03-25 11:25:43

云計(jì)算云計(jì)算產(chǎn)業(yè)云應(yīng)用

2011-12-02 14:00:21

JavaOOM

2016-09-23 20:46:53

2009-12-25 10:01:23

WinForm程序

2010-07-29 15:44:54

Flex安全沙箱

2020-10-04 13:29:00

SQL數(shù)據(jù)庫(kù)工具

2011-03-01 13:40:45

500 OOPS

2009-09-10 09:35:25

Linq語(yǔ)句

2009-07-03 18:14:27

Servlet線程安全

2010-04-20 16:46:41

Oracle數(shù)據(jù)庫(kù)密碼

2010-10-13 17:22:12

MySQL查詢亂碼

2011-07-05 09:44:31

QT Mysql 亂碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)