自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

人工智能
為了更好地理解transformer的工作原理,Anthropic AI的研究人員簡化了transformer的結構,去除了所有的神經元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現了transformer和他們已經完全理解的更簡單模型之間的聯(lián)系。

在過去的兩年里,基于Transformer架構開發(fā)的大規(guī)模語言模型在性能(如語言流暢度)上達到了令人嘆為觀止的效果。

但是,Transformer對單詞的處理方法是什么?學術界仍未有確定的答案。普遍的理解是,transformer模型能夠以某種方式同時關注多個單詞,以便立即進行“全局”分析。但它到底是如何工作的,或者這是否是transformer模型的真正處理方式,仍舊撲朔迷離。

換言之,我們知道菜品的配料,但不知道配方。

針對這一問題,一家叫做 Anthropic AI 公司的研究人員進行了兩項研究,希望從根本上理清transformer在處理和生成文本時的工作內容是什么。

他們發(fā)現,少于兩層、且只有注意力塊的transformer在某些方面也能達到復雜transformer的效果,且能夠幫助理解背后的工作機制。

1、少于兩層的Transformer

在12月發(fā)布的第一篇論文(如下)中, Anthropic AI 公司的科研人員研究了transformer的簡化版本,并全面解釋了它們的功能。

這個工作得到了以色列理工學院 Yonatan Belinkov 的高度評價:“這篇論文很好地講述了transformer架構在非常簡單的情況下是如何工作的?!薄拔曳浅?春眠@項工作,它既有趣又有前途,并且有些獨特和新穎?!?/p>

論文地址:https://transformer-circuits.pub/2021/framework/index.html

根據論文內容,他們所研究的簡化版transformer是先學習基本語言模式,再獲得語言處理的通用能力。哈佛大學的 Martin Wattenberg 教授評價,他們的研究使得transformer的競爭力得到大幅躍升,同時揭露transformer背后的工作原理。

在3月8日發(fā)布的第二篇論文中,研究人員發(fā)現,他們所提出的簡化版transformer的能力在最復雜的transformer模型中也發(fā)揮了作用。他們在簡單模型中的發(fā)現可以應用到規(guī)模更大的模型中。雖然這些簡化模型的數學原理仍然高深莫測,但其結果為深入理解transformers提供了一條新途徑。

論文地址:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 transformer 的難點在于其抽象性。傳統(tǒng)的程序遵循一個合乎情理的過程,例如,每當看到“green”(綠色的)這個詞,它們就會輸出“grass”(草)這個詞,而transformer將“green”這個詞轉換為數字,然后將它們乘以某些值。這些值(也稱為參數)決定了下一個單詞是什么。參數在訓練過程中得到了微調,模型會學習如何生成最佳輸出,但不清楚模型具體在學習什么。

大多數機器學習程序將其數學部分封裝成模塊化要素,并稱之為“神經元”。transformer加入了另外一種要素,稱為attention head(注意頭),它們成組分層排列,就像神經元一樣。但head執(zhí)行的操作與神經元不同。一般認為,head允許程序記住輸入的多個單詞,但這僅是一知半解。

為了更好地理解transformer的工作原理,Anthropic AI的研究人員簡化了transformer的結構,去除了所有的神經元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現了transformer和他們已經完全理解的更簡單模型之間的聯(lián)系。

我們可以看最簡單的語言模型——二元模型,它再現了基本的語言模式。例如,在對大量文本進行訓練時,二元模型會注意到“green”一詞后面最常出現的單詞(例如“grass”)并記住它。然后,在生成文本時,它會重現相同的模式。通過為每個輸入單詞記憶一個相關的后續(xù)單詞,它可以獲得非?;镜恼Z言知識。

研究人員表明,具有一層attention head的 transformer 模型也具備同樣的能力:它再現了所記憶的內容。假設給定一個特定的輸入,比如“Doctor Smith went to the store because Doctor X…”(史密斯博士去商店是因為X博士)這個輸入被稱為提示或上下文。對我們來說,下一個詞X指向“Smith”是顯而易見的。

在經過訓練的單層模型中,attention head可以通過兩個步驟進行預測。首先,它查看上下文中的最后一個單詞(Doctor),并在上下文中搜索它已經學習(在訓練期間)與最后一個單詞相關聯(lián)的特定單詞。然后,對于它找到的任意單詞,從中查找另一個它已經學會與找到的單詞相關聯(lián)的單詞,就像在二元模型中一樣,這可以是同一個詞。再將這個關聯(lián)的單詞作為模型的輸出。

在上述例子中,研究人員表明,根據最后一個單詞“Doctor”,head通過訓練知道如何搜索一個常用名稱。在句子的前面找到“Smith”這個名字后,head會查看所學的與“Smith”關聯(lián)的內容,并將該單詞作為輸出。在這種情況下,模型已經學會將同一個詞“Smith”與找到的詞“Smith”相關聯(lián)。整個過程的最終效果是模型將“Smith”一詞從上下文復制到輸出。

圖注:從左到右分別為 Chris Olah、Catherine Olsson 與 Nelson Elhage

不過,到目前為止,記憶只能采用一種模式。不妨想一下,當Smith的名字變成了一個虛構的名字,比如“Gigamuru”時會發(fā)生什么。對我們而言,預測下一個單詞輕而易舉,但模型在訓練期間不會識別出虛構的詞,因此不可能記住它與其他詞之間的任何關系,也不會生成它。

2、引入歸納頭

Anthropic 團隊還發(fā)現,當他們研究一個更復雜的模型時,比如一個有兩層attention head的模型,出現了一種解決方案。它依賴于attention head獨有的能力:不僅可以將信息移動到輸出,還可以移動到上下文中的其他位置。這種能力可以使第一層的head利用前面單詞的信息,學習注釋上下文中的每個單詞。然后,第二個head可以搜索“Doctor”(在本例中為“Gigamuru”)之前的單詞,并像單層模型中的head一樣,將其移動到輸出。

研究人員將后一層與前一層協(xié)作的attention head稱為induction head(歸納頭)。它不僅僅起到記憶的作用。根據Nelson Elhage的解釋,它還可以做一些看起來更像是抽象推理或算法實現的工作。

induction head可以讓兩層模型發(fā)揮更大的作用,但它們與全尺度transformer的相關性尚不清楚,因為全尺度transformer有數百個attention head協(xié)同工作。在他們的第二篇論文中,研究人員表示這些發(fā)現得到了延續(xù):induction head似乎對一些最復雜、多層結構的行為起到了關鍵作用。

在這些行為中,算術能力尤為突出,因為模型只接受了完成文本的訓練。例如,如果給出重復提示:“問:48+76是多少?答:124,問:48+76是多少?答:“全尺度模型會得到正確答案。”。在給出充足的非重復性示例后,它將能夠正確回答從未見過的算術問題。這種從語境中學習新能力的現象被稱為上下文學習。

這種現象令人費解,因為從上下文中學習是不可能的。這是因為決定模型性能的參數只在訓練期間調整,而不是在模型處理輸入上下文時調整。

induction head至少解決了部分難題。它們解釋了如何使上下文學習的簡單和重復形式成為可能,并且提供了所需的功能:能夠復制模型沒有訓練過的新單詞(如“Gigamuru”或“124”)。

另一位來自Anthropic的合著者Catherine Olsson說:“induction head更有可能執(zhí)行任何模式,即使它有些奇異或新穎。”

研究人員進一步在多層次模型中識別出induction head,并表明它們參與了更新穎的上下文學習形式,比如學習語言間的翻譯。

“這并不是要解釋整個機制,”O(jiān)penAI 的 Jacob Hilton 說。“只是induction head似乎參與其中?!?/p>

這些結果為我們理解transformer模型提供了一個立足點。它們不僅在獲取知識,還在學習如何處理他們根本沒有學到的事物。也許通過了解其工作機制,我們可以對“大放異彩”的transformer少些驚訝與感嘆。

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

責任編輯:未麗燕 來源: 雷鋒網
相關推薦

2024-02-19 00:12:00

模型數據

2024-10-31 10:00:39

注意力機制核心組件

2023-06-12 09:57:22

AIChatGPT

2023-03-09 08:15:56

GPT-3系統(tǒng)數據

2022-02-08 15:43:08

AITransforme模型

2023-12-04 13:38:55

模型3D可視化

2023-04-18 16:07:11

人工智能

2024-12-04 09:25:00

2010-09-14 14:44:21

sql server安

2024-12-17 14:39:16

2024-07-01 12:17:54

2024-09-19 10:07:41

2023-11-24 12:36:00

模型訓練

2023-01-01 13:31:47

模型訓練

2018-08-26 22:25:36

自注意力機制神經網絡算法

2023-03-01 16:15:16

2018-12-12 10:04:33

CIO信息化數字化

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2024-12-04 15:55:21

點贊
收藏

51CTO技術棧公眾號