AI研究的主要推動力會是什么？ChatGPT團(tuán)隊(duì)研究科學(xué)家：算力成本下降

作者：機(jī)器之心 2024-06-17 12:37:40

近日，斯坦福大學(xué)《CS25: Transformers United V4》課程迎來了一位我們熟悉的技術(shù)牛人：Hyung Won Chung。

AI 研究發(fā)展的主要推動力是什么？在最近的一次演講中，OpenAI 研究科學(xué)家 Hyung Won Chung 給出了自己的答案。

近日，斯坦福大學(xué)《CS25: Transformers United V4》課程迎來了一位我們熟悉的技術(shù)牛人：Hyung Won Chung。

Chung 是 OpenAI ChatGPT 團(tuán)隊(duì)的研究科學(xué)家，博士畢業(yè)于麻省理工學(xué)院，之后曾在谷歌從事了三年多的研究工作，參與了 PaLM、Flan-T5 和 BLOOM 等多個重要項(xiàng)目。機(jī)器之心之前曾報(bào)道過他的另一個熱門演講：《OpenAI 科學(xué)家最新大語言模型演講火了，洞見 LLM 成功的關(guān)鍵》。

在這次演講中，他將闡述 AI 研究的主要推動力并嘗試通過 Transformer 的發(fā)展（尤其是編碼器 - 解碼器 Transformer 和僅解碼器 Transformer 的比較）來理解這個主要推動力。因此，這并不是一次關(guān)注技術(shù)細(xì)節(jié)的演講，而是側(cè)重于分享觀點(diǎn)。

演講開篇，Chung 向來聽講的學(xué)生表示了鼓勵：「這間教室中的某些人將會塑造 AI 的未來?！?/span>

而要洞見未來，我們必須了解歷史。這就引出這次演講的核心：Transformer 的早期歷史以及一些 Transformer 架構(gòu)。

眾所周知，AI 領(lǐng)域發(fā)展很快，讓人難以追趕，而且就算是經(jīng)驗(yàn)豐富的研究者，也不可能了解所有最新進(jìn)展；與此同時，人們對過去的關(guān)注卻不夠，因?yàn)樗鼈兛雌饋硭坪跻呀?jīng)過時無用了。

但 Chung 認(rèn)為回首過去是很重要的，當(dāng)然他所指的并不是去研究過去的技術(shù)，而是研究「變化（change）」本身，也就是通過了解過去來理解現(xiàn)在，從而洞見從過去到現(xiàn)在的發(fā)展之路，然后基于此展望未來。

具體來說，為了研究「變化」，我們可以按以下三步進(jìn)行：

首先，我們需要找到這一變化背后的主要推動力。當(dāng)然，變化的推動力往往很多，這里關(guān)注的是主要推動力。然后，理解這些主要推動力。之后便可以基于這些理解來預(yù)測未來的發(fā)展方向。

為了佐證自己的觀點(diǎn)，Chung 在現(xiàn)場做了一個小實(shí)驗(yàn)：丟筆。

首先，找到導(dǎo)致筆落下的主要推動力：重力。這里忽略摩擦力等其它因素。

接下來理解重力：牛頓力學(xué)能提供一個很好的模型。

之后，基于該模型，我們就能預(yù)測這支筆的未來運(yùn)動軌跡。

當(dāng)然，這個示例非常簡單。在日常生活和工作中，一般意義上的預(yù)測未來卻非常困難，因?yàn)槠渖婕按罅繌?fù)雜驅(qū)動力的互相交織，以至于我們幾乎無法辦到。如下圖所示，預(yù)測難度會隨主要推動力的數(shù)量增長而大幅提升。

那這和 AI 領(lǐng)域有什么關(guān)系呢？

如今的 AI 領(lǐng)域堪稱百花齊放，幾乎每天都有新技術(shù)、新模型、新智能體、新基準(zhǔn)、新產(chǎn)品等等出現(xiàn)，人們已經(jīng)無力緊跟每一項(xiàng)最新進(jìn)展了，那么我們該如何預(yù)測 AI 研究的未來呢？

AI 研究的主要推動力是什么？

類似地，我們首先需要找到 AI 研究的主要推動力。Chung 認(rèn)為確實(shí)存在著一個推動大量甚至全部 AI 研究的主要推動力，而且這個推動力可能比我們之前預(yù)想的更簡單一些 —— 也就是更靠近以上圖表的左側(cè)。

那么這個主要推動力是什么呢？

首先來看 Rich Sutton 做的一張圖。其中，y 軸是 1 美元所能買到的算力（請注意這是對數(shù)刻度）, x 軸是時間。

可以看到，其變化趨勢幾乎就是指數(shù)級的 —— 每隔 5 年，算力成本就會降低 10 倍。這是一個非常強(qiáng)大且已經(jīng)持續(xù)了 100 多年的趨勢。這種趨勢是無可抗拒的；我們需要思考該如何去利用這樣的趨勢。事實(shí)上，這正是 AI 研究的主要推動力，是 AI 實(shí)現(xiàn) scaling（規(guī)模擴(kuò)展）的基礎(chǔ)。

算力成本指數(shù)級下降如何推動了 AI 研究呢？

這要從 AI 研究者的工作談起。AI 研究者的工作是教會機(jī)器學(xué)會普適性的思考，而人們通常采用的方式以某種數(shù)學(xué)方式建模我們自身思考的方式，然后將其集成到機(jī)器之中。

但問題來了：我們并不完全理解我們自身的思考方式。因此，AI 研究者其實(shí)是在建模一種他們根本不了解的東西。這種方法自然存在根本性缺陷。

如果采用這種范式，也確實(shí)能得到一些解決問題的結(jié)構(gòu)，然后 AI 研究者可以基于此寫出一些研究論文并開發(fā)出一些工具，但之后這就會變成一個瓶頸，限制進(jìn)一步的擴(kuò)展。更根本的問題是，這會限制給予機(jī)器的自由度，進(jìn)而在某個時候造成適得其反的結(jié)果。

Chung 表示，這種情況已經(jīng)持續(xù)了幾十年。他談到了 Rich Sutton 寫的一篇文章《苦澀的教訓(xùn)》，他也認(rèn)為這是「AI 領(lǐng)域最重要的一篇文章」。

簡單總結(jié)起來，這篇文章寫到過去 70 年 AI 領(lǐng)域的發(fā)展可總結(jié)成使用越來越弱的建模假設(shè)來開發(fā)越來越通用的方法，同時使用更多數(shù)據(jù)和計(jì)算量（即規(guī)模擴(kuò)展）。舉個例子，從技術(shù)角度看，2000 年左右的 AI 的設(shè)計(jì)方法就比現(xiàn)在 AI 的更困難。

這是 AI 研究領(lǐng)域一直以來的范式，并沒有什么新奇的地方。

但現(xiàn)在的 AI 卻遠(yuǎn)比 2000 年的 AI 強(qiáng)大。Chung 在此給出了自己的關(guān)鍵洞見：計(jì)算成本的下降是指數(shù)級的，這就意味著成本降低的速度超過了 AI 研究者精進(jìn)自身的速度，而 AI 研究者不應(yīng)該去對抗這種大勢，而應(yīng)當(dāng)盡力去利用它。

接下來 Chung 通過一張圖表進(jìn)行了說明。

圖中，x 軸是計(jì)算量，y 軸是性能，兩條線則各自表示一種范式。More structure（更多結(jié)構(gòu)）是指采用更多建模假設(shè)、更精妙的數(shù)學(xué)形式等復(fù)雜設(shè)計(jì)的范式，相對的就是 Less structure（更少結(jié)構(gòu)）范式。

可以看到，當(dāng)計(jì)算量較少時，更多結(jié)構(gòu)范式的表現(xiàn)通常更好，但是由于某種結(jié)構(gòu)上的瓶頸，就算增大計(jì)算量，其性能也難再進(jìn)一步提升。而對于更少結(jié)構(gòu)范式，由于模型的自由度更高，因此一開始其效果不佳，而隨著其獲得的計(jì)算量增長，它也開始有效果了并還越來越好。因此這種范式更具擴(kuò)展性。

這就意味著我們應(yīng)該直接選擇結(jié)構(gòu)最少、模型最自由的方法嗎？

答案當(dāng)然是否定的。

我們可以思考一下結(jié)構(gòu)還要進(jìn)一步更少的情況，如下圖中的紅線所示。此時要讓模型有效，所需的計(jì)算量將大幅增長。

因此，結(jié)構(gòu)的多少取決于我們現(xiàn)在的實(shí)際情況。我們不可能什么都不做，只是無限地等待下去，直到出現(xiàn)最通用的情況。

假設(shè)我們現(xiàn)在處于圖中豎直虛線的位置，那么選擇「更少結(jié)構(gòu)」就比選擇「進(jìn)一步更少結(jié)構(gòu)」更好，因?yàn)楹笳邔ΜF(xiàn)在的我們毫無用處。

但關(guān)鍵需要記?。禾砑右恍┙Y(jié)構(gòu)的原因是算力不夠。之后算力足夠時，我們可以移除這些結(jié)構(gòu)。

也就是說，在給定的計(jì)算量、數(shù)據(jù)、算法和架構(gòu)下，存在一個最優(yōu)的歸納偏置或結(jié)構(gòu)。這實(shí)際上也是當(dāng)前 AI 領(lǐng)域各種進(jìn)展的原因。但是，這些歸納偏置或結(jié)構(gòu)會阻礙未來進(jìn)一步的規(guī)模擴(kuò)展，因此當(dāng)未來有更多算力或更少的算法等時，就需要將它們移除。

Chung 表示，AI 研究社區(qū)在添加結(jié)構(gòu)方面做得很好，因?yàn)檫@能用來發(fā)論文；但在移除結(jié)構(gòu)方面做得還不夠，因?yàn)檫@沒多少好處。他呼吁 AI 研究社區(qū)更多關(guān)注這一方面。他說這也是一個苦澀的教訓(xùn)，并表示：「長期來看更好的東西在短期來看幾乎必定更糟糕?！?/span>

他認(rèn)為這算是 AI 研究領(lǐng)域的一個特有現(xiàn)象，因?yàn)楫?dāng)前的 AI 研究范式是基于學(xué)習(xí)的方法，也就是說讓模型自由地選擇學(xué)到什么。而正因?yàn)槟Ｐ瞳@得了學(xué)習(xí)的自由，所以早期的時候情況顯得很混亂，效果也不好。然后，隨著投入的算力增多，模型也越來越好。

總結(jié)一下：AI 研究背后的主要推動力是：成本指數(shù)級下降的算力和相關(guān)的規(guī)模擴(kuò)展。

用 Transformer 的發(fā)展歷程理解 AI 研究的主要推動力

找到了 AI 研究的主要推動力，接下來我們就需要理解它，這也是 Chung 這次演講的重點(diǎn)。為此，Chung 將帶我們一道回顧 Transformer 的發(fā)展歷史，分析不同時期研究者做出的關(guān)鍵結(jié)構(gòu)選擇及其原因 —— 這些結(jié)構(gòu)選擇在當(dāng)時是否為最優(yōu)的可能已經(jīng)不重要，我們現(xiàn)在或許也應(yīng)該移除它們了。

現(xiàn)在稍微加點(diǎn)技術(shù)內(nèi)容：Transformer 架構(gòu)是怎樣的？

Transformer 有多種變體。Chung 將探討其中三種：編碼器 - 解碼器、僅編碼器、僅解碼器。其中編碼器 - 解碼器 Transformer 是原始版本的 Transformer，其結(jié)構(gòu)也更多；僅編碼器 Transformer 的代表是 BERT；而僅解碼器 Transformer 家族則包括 GPT-3 等語言模型，其結(jié)構(gòu)遠(yuǎn)少于編碼器 - 解碼器版本。

僅編碼器 Transformer 雖然有些用途，但實(shí)際上在大多數(shù)情況下并不很有用，因此 Chung 先簡單談了談它，然后重點(diǎn)比較了編碼器 - 解碼器 Transformer 與僅解碼器 Transformer。

我們首先在一個非常高的層級上看看 Transformer：Transformer 是一種序列模型，而序列模型的輸入為一個序列，而序列中的元素可以是詞或圖像等等。這是一個普適的概念。

在下圖的示例中，序列元素是詞，而詞構(gòu)成的序列就是句子：「Unicode characters like emojis may be split.」。

首先，第一步是 token 化。這需要某種編碼方案，從而以計(jì)算機(jī)能理解的方式表示詞。這里是將序列 token 化為一定數(shù)量的整數(shù)，從而得到一個整數(shù)序列。

然后，現(xiàn)在的主導(dǎo)范式是將每個序列元素表示成一個向量，從而得到一個向量序列。

最后就要用到序列模型了，其目標(biāo)是建模序列元素之間的交互關(guān)系，具體的做法就是計(jì)算這些向量元素之間的點(diǎn)積。如果點(diǎn)積較高，則可以說它們關(guān)聯(lián)得更緊密。

Transformer 這類特殊的序列模型使用了所謂的注意力（attention）來建模這種交互關(guān)系。

編碼器 - 解碼器 Transformer

下面深入原始的編碼器 - 解碼器 Transformer 的細(xì)節(jié)：

可以看到，它有很多組件，而它在這里需要執(zhí)行一個機(jī)器翻譯任務(wù)：將英語「That is good」翻譯成德語。

我們先看向左側(cè)，這是其中的編碼器。首先，它需要將那句英語編碼成密集向量（圖中表示成了大小為 3 的向量）。然后，執(zhí)行點(diǎn)積，也就是圖中的線 —— 可以看到，這里的每個 token 都連接了所有其它 token。這被稱為雙向自注意力（bidirectional self-attention）。

之后是一些 MLP 或前向?qū)?。它們不進(jìn)行交互，只是為各個 token 執(zhí)行一些乘法。

而這只是其中一層，實(shí)際的 Transformer 編碼器會重復(fù) N 層。

最后會得到一個向量序列，其中每個向量都表示一個序列元素（這里是詞）。這就是編碼器的輸出。

然后看向右側(cè)的解碼器。同樣這也會堆疊很多層。

訓(xùn)練時，向解碼器輸入應(yīng)該得到的答案：[BOS] Das ist gut。其中 [BOS] 是指「序列開始」。

同樣，將其編碼成密集向量，只是之后使用的注意力是因果自注意力（causal self-attention），也就是說時間步驟 t 的 token 只能關(guān)注 t 以及之前的 token，因?yàn)楫?dāng)模型開始生成翻譯結(jié)果時，它無法看到未來的 token。在訓(xùn)練時，這可以通過掩碼（masking）方法來實(shí)現(xiàn)。

之后，同樣的重復(fù) N 層，最后得到輸出序列：Das ist gut [EOS]。其中 [EOS] 是指「序列結(jié)束」。因此這是一種序列到序列的映射。

這就是編碼器 - 解碼器 Transformer 的總體概況。接下來 Chung 指出了某個重要的注意力模式，也就是將解碼器和編碼器連接起來的跨注意力機(jī)制（cross-attention mechanism）。具體來說，對于編碼器輸出的序列中的每個向量表征，解碼器應(yīng)該關(guān)注其中一些。有趣的是，解碼器中的所有層關(guān)注的都是解碼器最終層的輸出。

僅編碼器 Transformer

暫時請記住這一設(shè)計(jì)，后面會用。我們先看另一種架構(gòu)：僅編碼器 Transformer。

可以看到，僅編碼器 Transformer 與編碼器 - 解碼器架構(gòu)的編碼器部分基本一樣。

以同樣的輸入為例（前面增加了一個特殊 token [CLS]），經(jīng)過編碼器處理后，這里會得到表示整個序列的單個向量（而不是一個序列）。

假如這里的任務(wù)是情緒分析，就需要在后面增加針對該特定任務(wù)的層，以將這個向量映射成分類標(biāo)簽（這里是積極和消極）的概率。

這類架構(gòu)的杰出代表是 BERT。2018 年 BERT 剛問世就在語言理解任務(wù)基準(zhǔn) GLUE 上刷榜了，因?yàn)榇蠖嗲闆r都可以將序列放入分類標(biāo)簽中。

Chung 表示這就是當(dāng)時 AI 領(lǐng)域取得的進(jìn)步。在我們考慮解決問題時，我們通常希望簡化問題，然后向問題添加結(jié)構(gòu)來取得進(jìn)展，但這里新增的結(jié)構(gòu)其實(shí)是放棄生成部分。這樣一來，問題就簡單多了：不再是序列到序列，而是序列到分類標(biāo)簽。

基于此，在 2018 和 2019 年那兩年，涌現(xiàn)了很多研究 BERT 的論文。Chung 打趣地說：「我們稱之為 BERT 工程?！箤?shí)際上就是對 BERT 做一些細(xì)微的修改，使之在 GLUE 基準(zhǔn)上提升一點(diǎn)點(diǎn)，然后寫一篇論文。那時候很混亂，但如果高屋建瓴地看，放棄生成序列的做法確實(shí)能帶來很大的性能增益，但難以長期持續(xù)，所以實(shí)際上用處不大。因此，后面也不會過多談及僅編碼器 Transformer。

僅解碼器 Transformer

Chung 表示僅解碼器 Transformer 是他的最愛。乍一看這似乎很復(fù)雜，但那其實(shí)都是注意力，這個架構(gòu)實(shí)際上很簡單。

對于僅解碼器 Transformer，有的人有一個誤解：該架構(gòu)的作用是語言建模的下一 token 預(yù)測，不能用來監(jiān)督學(xué)習(xí)。但實(shí)際上可以做到，其訣竅就是將輸入與目標(biāo)輸出連接起來。這樣一來，就變成了簡單的序列到序列。

其中因果自注意力機(jī)制的作用有兩個：處理目標(biāo)序列和輸入序列之間的交叉注意力以及實(shí)現(xiàn)每個序列之中的自注意力學(xué)習(xí)。這里的關(guān)鍵設(shè)計(jì)是自注意力也能作為跨注意力，并且輸入和目標(biāo)在一定程度上共享參數(shù)。

將編碼器 - 解碼器變成僅解碼器

接下來，通過將結(jié)構(gòu)更多的編碼器 - 解碼器 Transformer 變成僅解碼器 Transformer，Chung 將帶我們看到并理解這兩種架構(gòu)之間的差異。

首先在跨注意力方面，如上圖所示，左側(cè)的編碼器 - 解碼器有粉色標(biāo)記的跨注意力，而右側(cè)的僅解碼器沒有。如果我們想把左側(cè)架構(gòu)變成右側(cè)的，那么就需要去掉這些跨注意力。注意力機(jī)制大概有 4 個投射矩陣，并且自注意力和跨注意力實(shí)際上有同樣的參數(shù)量和形狀，因此可以選擇共享它們。這樣一來，它們就變成了基本一樣的注意力。

第二個差異是參數(shù)共享，也就是說在輸入和目標(biāo)序列之間，編碼器 - 解碼器架構(gòu)使用了不同的參數(shù)，而僅解碼器只有一個堆棧，也就是使用了共享參數(shù)。因此，如果要將左邊變成右邊，就需要共享左邊的編碼器參數(shù)。

第三個差異是目標(biāo)到輸入的注意力模式。在編碼器 - 解碼器架構(gòu)中，這是通過跨注意力實(shí)現(xiàn)的；而在僅解碼器架構(gòu)中，都是自注意力。差異在于，在編碼器 - 解碼器架構(gòu)中，解碼器中的每一層都關(guān)注編碼器的最終層輸出；而在僅解碼器架構(gòu)中，則是在各層本身之中。為了將左側(cè)變成右側(cè)，就需要將注意力帶回各層之中。

最后一個差異是輸入注意力。編碼器 - 解碼器架構(gòu)有雙向注意力，而僅解碼器有單向注意力。為了讓它們匹配，這里的做法很簡單：直接去掉編碼器 - 解碼器架構(gòu)中的一個方向。

這樣一來，這兩種架構(gòu)就幾乎一模一樣了，只在跨注意力有一點(diǎn)差異，但它們的參數(shù)量是一樣的。Chung 表示，如果使用同樣的方法和數(shù)據(jù)針對同樣的任務(wù)訓(xùn)練它們，那么得到的結(jié)果也會差不多，因此可以說它們是一樣的。

下表總結(jié)了這四項(xiàng)差異：

那么相比于僅解碼器 Transformer，編碼器 - 解碼器架構(gòu)多了哪些結(jié)構(gòu)呢？

首先，在編碼器 - 解碼器架構(gòu)中，輸入序列和目標(biāo)序列足夠不同，因此對該架構(gòu)而言，分開使用不同的參數(shù)是有效的。

Chung 繼續(xù)以機(jī)器翻譯為例進(jìn)行了說明。在 2017 年 Transformer 剛誕生的時候，翻譯是一個非常受歡迎的任務(wù)，因?yàn)槠潆y度還很大；而且這還是一個序列到序列任務(wù)，可以通過一個 GLUE 分?jǐn)?shù)來度量，從而為研究者提供一個優(yōu)化基準(zhǔn)。

在機(jī)器翻譯任務(wù)中，輸入和目標(biāo)是不同語言的序列。如果模型的學(xué)習(xí)目標(biāo)就只是執(zhí)行翻譯，那么讓編碼器中的參數(shù)處理英語并讓解碼器中的參數(shù)用于德語就是非常合理的做法，也是很自然的做法。

但現(xiàn)在的語言模型就不只是執(zhí)行翻譯了，甚至都可以說不只是關(guān)于語言的，而是為了學(xué)習(xí)知識。Chung 表示這些能力都是「下一 token 預(yù)測的副產(chǎn)品」。那么，在這種情況下，對于同樣的知識，如果只是語言不同，再將參數(shù)分開還合理嗎？Chung 認(rèn)為這并不合理，也不自然。而且也正是因?yàn)闆]有分開，現(xiàn)代語言模型所能做的事情要多得多。

Chung 又給出了另一個例子。這是他兩年前還在谷歌時做的一項(xiàng)有關(guān)指令微調(diào)的研究《Scaling Instruction-Finetuned Language Models》。簡單來說，該研究就是使用學(xué)術(shù)數(shù)據(jù)集來微調(diào)已經(jīng)完成預(yù)訓(xùn)練的模型。

這里我們來看看對兩個不同的架構(gòu)進(jìn)行指令微調(diào)所獲得的增益。如下圖所示，上面五個數(shù)據(jù)基于模型 Flan T5，這是一種編碼器 - 解碼器架構(gòu)的模型；下面的 PaLM 則是僅解碼器架構(gòu)。

Chung 表示，他們花了大量時間來優(yōu)化 PaLM，而對于 T5 則僅僅用了三天，結(jié)果 T5 獲得性能增益卻要大得多。

Chung 說：「我當(dāng)時對此深感困惑?！挂虼嗽谶@篇論文發(fā)表之后，他又做了進(jìn)一步的研究，希望找到這一現(xiàn)象背后的原因。他的假設(shè)是這與長度有關(guān)。

他們使用的學(xué)術(shù)數(shù)據(jù)集包含 1832 個任務(wù)。這些任務(wù)基本都有一個特點(diǎn)：輸入長但目標(biāo)輸出短。輸入長的原因是讓任務(wù)變得復(fù)雜和困難，而目標(biāo)短則是為了方便評估。因此，輸入序列的長度分布就如以上上圖所示，目標(biāo)序列的長度分布則是以上下圖那樣。對于編碼器 - 解碼器架構(gòu)，就是編碼器和解碼器分別處理一種不同類型的序列，而它也正好擅長這種情況 —— 適合處理這個學(xué)術(shù)數(shù)據(jù)集。Chung 說：「我認(rèn)為這就是一個意外?！?/span>

現(xiàn)在，越來越多用例涉及到生成更長的目標(biāo)序列，并且像是聊天這樣的應(yīng)用還涉及到將這一輪的輸出用作下一輪的輸入，編碼器 - 解碼器架構(gòu)的這種針對非常特定數(shù)據(jù)集的優(yōu)勢就沒有了。畢竟如果下一輪的輸入和上一輪的輸出一樣，那么為輸入和目標(biāo)分開配置參數(shù)就沒有道理了。

這是編碼器 - 解碼器中的第一個歸納偏置或結(jié)構(gòu)，另一個結(jié)構(gòu)則是其目標(biāo)元素只能關(guān)注已經(jīng)完全編碼的元素，即編碼器的最終輸出。

通常而言，在深度神經(jīng)網(wǎng)絡(luò)中，較低層和較高層編碼信息的層級是不一樣的。比如在計(jì)算機(jī)視覺模型中，較低層編碼的是線條、點(diǎn)、顏色等基礎(chǔ)特征，而更高層會將這些特征組合起來，編碼更復(fù)雜的信息，比如貓臉。因此，這種深度學(xué)習(xí)也被稱為分層表征學(xué)習(xí)。

那問題就來了：如果解碼器的第 1 層也是關(guān)注編碼器的最終層（它們可能有非常不同的信息層級），那么這是否會成為一個信息瓶頸呢？

當(dāng)然，Chung 也指出在實(shí)踐中，這還不成問題，因?yàn)?T5 的編碼器層也不過 20 多層，但如果編碼器的層數(shù)再多十倍乃至百倍呢？

然后就是編碼器 - 解碼器架構(gòu)比僅解碼器多的最后一個結(jié)構(gòu)：雙向的輸入注意力。

2018 年誕生的 BERT 中的「B」便是指雙向（bidirectional）。那時候，人們在競相解決問答 SQuAD 任務(wù) —— 這是一個非常困難的任務(wù)。這種新增的技巧能帶來很大收益。雙向?qū)τ诖祟惾蝿?wù)還是很用的，大概將 SQuAD 分?jǐn)?shù)提升了大約 20 點(diǎn) —— 很大的進(jìn)步。

但是，Chung 表示，一旦規(guī)模變得足夠大，這種增加雙向性質(zhì)的技巧就不重要了。他及團(tuán)隊(duì)用 Flan 2 嘗試了雙向和單向微調(diào)，結(jié)果性能差異不大；但對于多輪聊天等應(yīng)用，開發(fā)雙向注意力的難度很大。

原因也很容易理解。對于每一輪對話，都必須重新編碼新的輸入。對于單向架構(gòu)來說，編碼新輸入的消息就夠了。但對于雙向架構(gòu)，每一輪都需要再次編碼新輸入，如下圖的例子所示。

也就是說，在 2018 年表現(xiàn)很好的雙向注意力已經(jīng)被規(guī)模擴(kuò)展接替了，而且由于雙向注意力的工程開發(fā)難度更大，我們也不需要它了。

結(jié)語

最后，Chung 簡單總結(jié)了這次演講的內(nèi)容：

找到了 AI 研究的主要推動力，即計(jì)算成本呈指數(shù)級下降以及相關(guān)的規(guī)模擴(kuò)展；
為了理解這種主要推動力，分析了編碼器 - 解碼器 Transformer 比僅解碼器 Transformer 多的結(jié)構(gòu)并從規(guī)模擴(kuò)展角度思考了其意義。

他表示，分析過去的架構(gòu)并非毫無用處，這能為我們提供一個更加統(tǒng)一的視角，幫助我們了解有哪些結(jié)構(gòu)其實(shí)最終可能被規(guī)模擴(kuò)展接替。他說：「我們能很好地共同塑造 AI 的未來?！?/span>

責(zé)任編輯：張燕妮來源：機(jī)器之心