自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

少于兩層的transformer，且只有注意力塊，GPT-3：你怕不是搞事情？

作者：我在思考中 2022-05-05 11:40:12

為了更好地理解transformer的工作原理，Anthropic AI的研究人員簡化了transformer的結構，去除了所有的神經元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現了transformer和他們已經完全理解的更簡單模型之間的聯(lián)系。

在過去的兩年里，基于Transformer架構開發(fā)的大規(guī)模語言模型在性能(如語言流暢度)上達到了令人嘆為觀止的效果。

但是，Transformer對單詞的處理方法是什么?學術界仍未有確定的答案。普遍的理解是，transformer模型能夠以某種方式同時關注多個單詞，以便立即進行“全局”分析。但它到底是如何工作的，或者這是否是transformer模型的真正處理方式，仍舊撲朔迷離。

換言之，我們知道菜品的配料，但不知道配方。

針對這一問題，一家叫做 Anthropic AI 公司的研究人員進行了兩項研究，希望從根本上理清transformer在處理和生成文本時的工作內容是什么。

他們發(fā)現，少于兩層、且只有注意力塊的transformer在某些方面也能達到復雜transformer的效果，且能夠幫助理解背后的工作機制。

1、少于兩層的Transformer

在12月發(fā)布的第一篇論文(如下)中， Anthropic AI 公司的科研人員研究了transformer的簡化版本，并全面解釋了它們的功能。

這個工作得到了以色列理工學院 Yonatan Belinkov 的高度評價：“這篇論文很好地講述了transformer架構在非常簡單的情況下是如何工作的?！薄拔曳浅？春眠@項工作，它既有趣又有前途，并且有些獨特和新穎?！?/p>

論文地址：https://transformer-circuits.pub/2021/framework/index.html

根據論文內容，他們所研究的簡化版transformer是先學習基本語言模式，再獲得語言處理的通用能力。哈佛大學的 Martin Wattenberg 教授評價，他們的研究使得transformer的競爭力得到大幅躍升，同時揭露transformer背后的工作原理。

在3月8日發(fā)布的第二篇論文中，研究人員發(fā)現，他們所提出的簡化版transformer的能力在最復雜的transformer模型中也發(fā)揮了作用。他們在簡單模型中的發(fā)現可以應用到規(guī)模更大的模型中。雖然這些簡化模型的數學原理仍然高深莫測，但其結果為深入理解transformers提供了一條新途徑。

論文地址：https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 transformer 的難點在于其抽象性。傳統(tǒng)的程序遵循一個合乎情理的過程，例如，每當看到“green”(綠色的)這個詞，它們就會輸出“grass”(草)這個詞，而transformer將“green”這個詞轉換為數字，然后將它們乘以某些值。這些值(也稱為參數)決定了下一個單詞是什么。參數在訓練過程中得到了微調，模型會學習如何生成最佳輸出，但不清楚模型具體在學習什么。

大多數機器學習程序將其數學部分封裝成模塊化要素，并稱之為“神經元”。transformer加入了另外一種要素，稱為attention head(注意頭)，它們成組分層排列，就像神經元一樣。但head執(zhí)行的操作與神經元不同。一般認為，head允許程序記住輸入的多個單詞，但這僅是一知半解。

為了更好地理解transformer的工作原理，Anthropic AI的研究人員簡化了transformer的結構，去除了所有的神經元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現了transformer和他們已經完全理解的更簡單模型之間的聯(lián)系。

我們可以看最簡單的語言模型——二元模型，它再現了基本的語言模式。例如，在對大量文本進行訓練時，二元模型會注意到“green”一詞后面最常出現的單詞(例如“grass”)并記住它。然后，在生成文本時，它會重現相同的模式。通過為每個輸入單詞記憶一個相關的后續(xù)單詞，它可以獲得非?；镜恼Z言知識。

研究人員表明，具有一層attention head的 transformer 模型也具備同樣的能力：它再現了所記憶的內容。假設給定一個特定的輸入，比如“Doctor Smith went to the store because Doctor X…”(史密斯博士去商店是因為X博士)這個輸入被稱為提示或上下文。對我們來說，下一個詞X指向“Smith”是顯而易見的。

在經過訓練的單層模型中，attention head可以通過兩個步驟進行預測。首先，它查看上下文中的最后一個單詞(Doctor)，并在上下文中搜索它已經學習(在訓練期間)與最后一個單詞相關聯(lián)的特定單詞。然后，對于它找到的任意單詞，從中查找另一個它已經學會與找到的單詞相關聯(lián)的單詞，就像在二元模型中一樣，這可以是同一個詞。再將這個關聯(lián)的單詞作為模型的輸出。

在上述例子中，研究人員表明，根據最后一個單詞“Doctor”，head通過訓練知道如何搜索一個常用名稱。在句子的前面找到“Smith”這個名字后，head會查看所學的與“Smith”關聯(lián)的內容，并將該單詞作為輸出。在這種情況下，模型已經學會將同一個詞“Smith”與找到的詞“Smith”相關聯(lián)。整個過程的最終效果是模型將“Smith”一詞從上下文復制到輸出。

圖注：從左到右分別為 Chris Olah、Catherine Olsson 與 Nelson Elhage

不過，到目前為止，記憶只能采用一種模式。不妨想一下，當Smith的名字變成了一個虛構的名字，比如“Gigamuru”時會發(fā)生什么。對我們而言，預測下一個單詞輕而易舉，但模型在訓練期間不會識別出虛構的詞，因此不可能記住它與其他詞之間的任何關系，也不會生成它。

2、引入歸納頭

Anthropic 團隊還發(fā)現，當他們研究一個更復雜的模型時，比如一個有兩層attention head的模型，出現了一種解決方案。它依賴于attention head獨有的能力：不僅可以將信息移動到輸出，還可以移動到上下文中的其他位置。這種能力可以使第一層的head利用前面單詞的信息，學習注釋上下文中的每個單詞。然后，第二個head可以搜索“Doctor”(在本例中為“Gigamuru”)之前的單詞，并像單層模型中的head一樣，將其移動到輸出。

研究人員將后一層與前一層協(xié)作的attention head稱為induction head(歸納頭)。它不僅僅起到記憶的作用。根據Nelson Elhage的解釋，它還可以做一些看起來更像是抽象推理或算法實現的工作。

induction head可以讓兩層模型發(fā)揮更大的作用，但它們與全尺度transformer的相關性尚不清楚，因為全尺度transformer有數百個attention head協(xié)同工作。在他們的第二篇論文中，研究人員表示這些發(fā)現得到了延續(xù)：induction head似乎對一些最復雜、多層結構的行為起到了關鍵作用。

在這些行為中，算術能力尤為突出，因為模型只接受了完成文本的訓練。例如，如果給出重復提示：“問:48+76是多少?答:124，問:48+76是多少?答:“全尺度模型會得到正確答案。”。在給出充足的非重復性示例后，它將能夠正確回答從未見過的算術問題。這種從語境中學習新能力的現象被稱為上下文學習。

這種現象令人費解，因為從上下文中學習是不可能的。這是因為決定模型性能的參數只在訓練期間調整，而不是在模型處理輸入上下文時調整。

induction head至少解決了部分難題。它們解釋了如何使上下文學習的簡單和重復形式成為可能，并且提供了所需的功能：能夠復制模型沒有訓練過的新單詞(如“Gigamuru”或“124”)。

另一位來自Anthropic的合著者Catherine Olsson說：“induction head更有可能執(zhí)行任何模式，即使它有些奇異或新穎。”

研究人員進一步在多層次模型中識別出induction head，并表明它們參與了更新穎的上下文學習形式，比如學習語言間的翻譯。

“這并不是要解釋整個機制，”O(jiān)penAI 的 Jacob Hilton 說。“只是induction head似乎參與其中?！?/p>

這些結果為我們理解transformer模型提供了一個立足點。它們不僅在獲取知識，還在學習如何處理他們根本沒有學到的事物。也許通過了解其工作機制，我們可以對“大放異彩”的transformer少些驚訝與感嘆。

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

責任編輯：未麗燕來源：雷鋒網

語言模型工作原理神經元層

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="uluco"><track id="uluco"></track></legend><sub id="uluco"></sub>