自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI研究的主要推動力會是什么?ChatGPT團(tuán)隊(duì)研究科學(xué)家:算力成本下降

人工智能 新聞
近日,斯坦福大學(xué)《CS25: Transformers United V4》課程迎來了一位我們熟悉的技術(shù)牛人:Hyung Won Chung。

AI 研究發(fā)展的主要推動力是什么?在最近的一次演講中,OpenAI 研究科學(xué)家 Hyung Won Chung 給出了自己的答案。

近日,斯坦福大學(xué)《CS25: Transformers United V4》課程迎來了一位我們熟悉的技術(shù)牛人:Hyung Won Chung。

Chung 是 OpenAI ChatGPT 團(tuán)隊(duì)的研究科學(xué)家,博士畢業(yè)于麻省理工學(xué)院,之后曾在谷歌從事了三年多的研究工作,參與了 PaLM、Flan-T5 和 BLOOM 等多個重要項(xiàng)目。機(jī)器之心之前曾報(bào)道過他的另一個熱門演講:《OpenAI 科學(xué)家最新大語言模型演講火了,洞見 LLM 成功的關(guān)鍵》。

在這次演講中,他將闡述 AI 研究的主要推動力并嘗試通過 Transformer 的發(fā)展(尤其是編碼器 - 解碼器 Transformer 和僅解碼器 Transformer 的比較)來理解這個主要推動力。因此,這并不是一次關(guān)注技術(shù)細(xì)節(jié)的演講,而是側(cè)重于分享觀點(diǎn)。

圖片

演講開篇,Chung 向來聽講的學(xué)生表示了鼓勵:「這間教室中的某些人將會塑造 AI 的未來?!?/span>

而要洞見未來,我們必須了解歷史。這就引出這次演講的核心:Transformer 的早期歷史以及一些 Transformer 架構(gòu)。

圖片

眾所周知,AI 領(lǐng)域發(fā)展很快,讓人難以追趕,而且就算是經(jīng)驗(yàn)豐富的研究者,也不可能了解所有最新進(jìn)展;與此同時,人們對過去的關(guān)注卻不夠,因?yàn)樗鼈兛雌饋硭坪跻呀?jīng)過時無用了。

圖片

但 Chung 認(rèn)為回首過去是很重要的,當(dāng)然他所指的并不是去研究過去的技術(shù),而是研究「變化(change)」本身,也就是通過了解過去來理解現(xiàn)在,從而洞見從過去到現(xiàn)在的發(fā)展之路,然后基于此展望未來。

具體來說,為了研究「變化」,我們可以按以下三步進(jìn)行:

圖片

首先,我們需要找到這一變化背后的主要推動力。當(dāng)然,變化的推動力往往很多,這里關(guān)注的是主要推動力。然后,理解這些主要推動力。之后便可以基于這些理解來預(yù)測未來的發(fā)展方向。

為了佐證自己的觀點(diǎn),Chung 在現(xiàn)場做了一個小實(shí)驗(yàn):丟筆。

圖片

首先,找到導(dǎo)致筆落下的主要推動力:重力。這里忽略摩擦力等其它因素。

接下來理解重力:牛頓力學(xué)能提供一個很好的模型。

之后,基于該模型,我們就能預(yù)測這支筆的未來運(yùn)動軌跡。

當(dāng)然,這個示例非常簡單。在日常生活和工作中,一般意義上的預(yù)測未來卻非常困難,因?yàn)槠渖婕按罅繌?fù)雜驅(qū)動力的互相交織,以至于我們幾乎無法辦到。如下圖所示,預(yù)測難度會隨主要推動力的數(shù)量增長而大幅提升。

圖片

那這和 AI 領(lǐng)域有什么關(guān)系呢?

如今的 AI 領(lǐng)域堪稱百花齊放,幾乎每天都有新技術(shù)、新模型、新智能體、新基準(zhǔn)、新產(chǎn)品等等出現(xiàn),人們已經(jīng)無力緊跟每一項(xiàng)最新進(jìn)展了,那么我們該如何預(yù)測 AI 研究的未來呢?

AI 研究的主要推動力是什么?

類似地,我們首先需要找到 AI 研究的主要推動力。Chung 認(rèn)為確實(shí)存在著一個推動大量甚至全部 AI 研究的主要推動力,而且這個推動力可能比我們之前預(yù)想的更簡單一些 —— 也就是更靠近以上圖表的左側(cè)。

那么這個主要推動力是什么呢?

首先來看 Rich Sutton 做的一張圖。其中,y 軸是 1 美元所能買到的算力(請注意這是對數(shù)刻度), x 軸是時間。

圖片

可以看到,其變化趨勢幾乎就是指數(shù)級的 —— 每隔 5 年,算力成本就會降低 10 倍。這是一個非常強(qiáng)大且已經(jīng)持續(xù)了 100 多年的趨勢。這種趨勢是無可抗拒的;我們需要思考該如何去利用這樣的趨勢。事實(shí)上,這正是 AI 研究的主要推動力,是 AI 實(shí)現(xiàn) scaling(規(guī)模擴(kuò)展)的基礎(chǔ)。

算力成本指數(shù)級下降如何推動了 AI 研究呢?

這要從 AI 研究者的工作談起。AI 研究者的工作是教會機(jī)器學(xué)會普適性的思考,而人們通常采用的方式以某種數(shù)學(xué)方式建模我們自身思考的方式,然后將其集成到機(jī)器之中。

圖片

但問題來了:我們并不完全理解我們自身的思考方式。因此,AI 研究者其實(shí)是在建模一種他們根本不了解的東西。這種方法自然存在根本性缺陷。

如果采用這種范式,也確實(shí)能得到一些解決問題的結(jié)構(gòu),然后 AI 研究者可以基于此寫出一些研究論文并開發(fā)出一些工具,但之后這就會變成一個瓶頸,限制進(jìn)一步的擴(kuò)展。更根本的問題是,這會限制給予機(jī)器的自由度,進(jìn)而在某個時候造成適得其反的結(jié)果。

Chung 表示,這種情況已經(jīng)持續(xù)了幾十年。他談到了 Rich Sutton 寫的一篇文章《苦澀的教訓(xùn)》,他也認(rèn)為這是「AI 領(lǐng)域最重要的一篇文章」。

圖片

簡單總結(jié)起來,這篇文章寫到過去 70 年 AI 領(lǐng)域的發(fā)展可總結(jié)成使用越來越弱的建模假設(shè)來開發(fā)越來越通用的方法,同時使用更多數(shù)據(jù)和計(jì)算量(即規(guī)模擴(kuò)展)。舉個例子,從技術(shù)角度看,2000 年左右的 AI 的設(shè)計(jì)方法就比現(xiàn)在 AI 的更困難。

這是 AI 研究領(lǐng)域一直以來的范式,并沒有什么新奇的地方。

但現(xiàn)在的 AI 卻遠(yuǎn)比 2000 年的 AI 強(qiáng)大。Chung 在此給出了自己的關(guān)鍵洞見:計(jì)算成本的下降是指數(shù)級的,這就意味著成本降低的速度超過了 AI 研究者精進(jìn)自身的速度,而 AI 研究者不應(yīng)該去對抗這種大勢,而應(yīng)當(dāng)盡力去利用它。

接下來 Chung 通過一張圖表進(jìn)行了說明。

圖片

圖中,x 軸是計(jì)算量,y 軸是性能,兩條線則各自表示一種范式。More structure(更多結(jié)構(gòu))是指采用更多建模假設(shè)、更精妙的數(shù)學(xué)形式等復(fù)雜設(shè)計(jì)的范式,相對的就是 Less structure(更少結(jié)構(gòu))范式。

可以看到,當(dāng)計(jì)算量較少時,更多結(jié)構(gòu)范式的表現(xiàn)通常更好,但是由于某種結(jié)構(gòu)上的瓶頸,就算增大計(jì)算量,其性能也難再進(jìn)一步提升。而對于更少結(jié)構(gòu)范式,由于模型的自由度更高,因此一開始其效果不佳,而隨著其獲得的計(jì)算量增長,它也開始有效果了并還越來越好。因此這種范式更具擴(kuò)展性。

這就意味著我們應(yīng)該直接選擇結(jié)構(gòu)最少、模型最自由的方法嗎?

答案當(dāng)然是否定的。

我們可以思考一下結(jié)構(gòu)還要進(jìn)一步更少的情況,如下圖中的紅線所示。此時要讓模型有效,所需的計(jì)算量將大幅增長。

 圖片

因此,結(jié)構(gòu)的多少取決于我們現(xiàn)在的實(shí)際情況。我們不可能什么都不做,只是無限地等待下去,直到出現(xiàn)最通用的情況。

假設(shè)我們現(xiàn)在處于圖中豎直虛線的位置,那么選擇「更少結(jié)構(gòu)」就比選擇「進(jìn)一步更少結(jié)構(gòu)」更好,因?yàn)楹笳邔ΜF(xiàn)在的我們毫無用處。

但關(guān)鍵需要記?。禾砑右恍┙Y(jié)構(gòu)的原因是算力不夠。之后算力足夠時,我們可以移除這些結(jié)構(gòu)。

圖片

也就是說,在給定的計(jì)算量、數(shù)據(jù)、算法和架構(gòu)下,存在一個最優(yōu)的歸納偏置或結(jié)構(gòu)。這實(shí)際上也是當(dāng)前 AI 領(lǐng)域各種進(jìn)展的原因。但是,這些歸納偏置或結(jié)構(gòu)會阻礙未來進(jìn)一步的規(guī)模擴(kuò)展,因此當(dāng)未來有更多算力或更少的算法等時,就需要將它們移除。

Chung 表示,AI 研究社區(qū)在添加結(jié)構(gòu)方面做得很好,因?yàn)檫@能用來發(fā)論文;但在移除結(jié)構(gòu)方面做得還不夠,因?yàn)檫@沒多少好處。他呼吁 AI 研究社區(qū)更多關(guān)注這一方面。他說這也是一個苦澀的教訓(xùn),并表示:「長期來看更好的東西在短期來看幾乎必定更糟糕?!?/span>

圖片

他認(rèn)為這算是 AI 研究領(lǐng)域的一個特有現(xiàn)象,因?yàn)楫?dāng)前的 AI 研究范式是基于學(xué)習(xí)的方法,也就是說讓模型自由地選擇學(xué)到什么。而正因?yàn)槟P瞳@得了學(xué)習(xí)的自由,所以早期的時候情況顯得很混亂,效果也不好。然后,隨著投入的算力增多,模型也越來越好。

總結(jié)一下:AI 研究背后的主要推動力是:成本指數(shù)級下降的算力和相關(guān)的規(guī)模擴(kuò)展。

圖片

用 Transformer 的發(fā)展歷程理解 AI 研究的主要推動力

找到了 AI 研究的主要推動力,接下來我們就需要理解它,這也是 Chung 這次演講的重點(diǎn)。為此,Chung 將帶我們一道回顧 Transformer 的發(fā)展歷史,分析不同時期研究者做出的關(guān)鍵結(jié)構(gòu)選擇及其原因 —— 這些結(jié)構(gòu)選擇在當(dāng)時是否為最優(yōu)的可能已經(jīng)不重要,我們現(xiàn)在或許也應(yīng)該移除它們了。

現(xiàn)在稍微加點(diǎn)技術(shù)內(nèi)容:Transformer 架構(gòu)是怎樣的?

圖片

Transformer 有多種變體。Chung 將探討其中三種:編碼器 - 解碼器、僅編碼器、僅解碼器。其中編碼器 - 解碼器 Transformer 是原始版本的 Transformer,其結(jié)構(gòu)也更多;僅編碼器 Transformer 的代表是 BERT;而僅解碼器 Transformer 家族則包括 GPT-3 等語言模型,其結(jié)構(gòu)遠(yuǎn)少于編碼器 - 解碼器版本。

僅編碼器 Transformer 雖然有些用途,但實(shí)際上在大多數(shù)情況下并不很有用,因此 Chung 先簡單談了談它,然后重點(diǎn)比較了編碼器 - 解碼器 Transformer 與僅解碼器 Transformer。

我們首先在一個非常高的層級上看看 Transformer:Transformer 是一種序列模型,而序列模型的輸入為一個序列,而序列中的元素可以是詞或圖像等等。這是一個普適的概念。

在下圖的示例中,序列元素是詞,而詞構(gòu)成的序列就是句子:「Unicode characters like emojis may be split.」。

圖片

首先,第一步是 token 化。這需要某種編碼方案,從而以計(jì)算機(jī)能理解的方式表示詞。這里是將序列 token 化為一定數(shù)量的整數(shù),從而得到一個整數(shù)序列。

然后,現(xiàn)在的主導(dǎo)范式是將每個序列元素表示成一個向量,從而得到一個向量序列。

最后就要用到序列模型了,其目標(biāo)是建模序列元素之間的交互關(guān)系,具體的做法就是計(jì)算這些向量元素之間的點(diǎn)積。如果點(diǎn)積較高,則可以說它們關(guān)聯(lián)得更緊密。

Transformer 這類特殊的序列模型使用了所謂的注意力(attention)來建模這種交互關(guān)系。

編碼器 - 解碼器 Transformer

下面深入原始的編碼器 - 解碼器 Transformer 的細(xì)節(jié):

圖片

可以看到,它有很多組件,而它在這里需要執(zhí)行一個機(jī)器翻譯任務(wù):將英語「That is good」翻譯成德語。

我們先看向左側(cè),這是其中的編碼器。首先,它需要將那句英語編碼成密集向量(圖中表示成了大小為 3 的向量)。然后,執(zhí)行點(diǎn)積,也就是圖中的線 —— 可以看到,這里的每個 token 都連接了所有其它 token。這被稱為雙向自注意力(bidirectional self-attention)。

之后是一些 MLP 或前向?qū)?。它們不進(jìn)行交互,只是為各個 token 執(zhí)行一些乘法。

而這只是其中一層,實(shí)際的 Transformer 編碼器會重復(fù) N 層。

最后會得到一個向量序列,其中每個向量都表示一個序列元素(這里是詞)。這就是編碼器的輸出。

然后看向右側(cè)的解碼器。同樣這也會堆疊很多層。

訓(xùn)練時,向解碼器輸入應(yīng)該得到的答案:[BOS] Das ist gut。其中 [BOS] 是指「序列開始」。

同樣,將其編碼成密集向量,只是之后使用的注意力是因果自注意力(causal self-attention),也就是說時間步驟 t 的 token 只能關(guān)注 t 以及之前的 token,因?yàn)楫?dāng)模型開始生成翻譯結(jié)果時,它無法看到未來的 token。在訓(xùn)練時,這可以通過掩碼(masking)方法來實(shí)現(xiàn)。

之后,同樣的重復(fù) N 層,最后得到輸出序列:Das ist gut [EOS]。其中 [EOS] 是指「序列結(jié)束」。因此這是一種序列到序列的映射。

這就是編碼器 - 解碼器 Transformer 的總體概況。接下來 Chung 指出了某個重要的注意力模式,也就是將解碼器和編碼器連接起來的跨注意力機(jī)制(cross-attention mechanism)。具體來說,對于編碼器輸出的序列中的每個向量表征,解碼器應(yīng)該關(guān)注其中一些。有趣的是,解碼器中的所有層關(guān)注的都是解碼器最終層的輸出。

僅編碼器 Transformer

暫時請記住這一設(shè)計(jì),后面會用。我們先看另一種架構(gòu):僅編碼器 Transformer。

圖片

可以看到,僅編碼器 Transformer 與編碼器 - 解碼器架構(gòu)的編碼器部分基本一樣。

以同樣的輸入為例(前面增加了一個特殊 token [CLS]),經(jīng)過編碼器處理后,這里會得到表示整個序列的單個向量(而不是一個序列)。

假如這里的任務(wù)是情緒分析,就需要在后面增加針對該特定任務(wù)的層,以將這個向量映射成分類標(biāo)簽(這里是積極和消極)的概率。

這類架構(gòu)的杰出代表是 BERT。2018 年 BERT 剛問世就在語言理解任務(wù)基準(zhǔn) GLUE 上刷榜了,因?yàn)榇蠖嗲闆r都可以將序列放入分類標(biāo)簽中。

Chung 表示這就是當(dāng)時 AI 領(lǐng)域取得的進(jìn)步。在我們考慮解決問題時,我們通常希望簡化問題,然后向問題添加結(jié)構(gòu)來取得進(jìn)展,但這里新增的結(jié)構(gòu)其實(shí)是放棄生成部分。這樣一來,問題就簡單多了:不再是序列到序列,而是序列到分類標(biāo)簽。

基于此,在 2018 和 2019 年那兩年,涌現(xiàn)了很多研究 BERT 的論文。Chung 打趣地說:「我們稱之為 BERT 工程?!箤?shí)際上就是對 BERT 做一些細(xì)微的修改,使之在 GLUE 基準(zhǔn)上提升一點(diǎn)點(diǎn),然后寫一篇論文。那時候很混亂,但如果高屋建瓴地看,放棄生成序列的做法確實(shí)能帶來很大的性能增益,但難以長期持續(xù),所以實(shí)際上用處不大。因此,后面也不會過多談及僅編碼器 Transformer。

僅解碼器 Transformer

圖片

Chung 表示僅解碼器 Transformer 是他的最愛。乍一看這似乎很復(fù)雜,但那其實(shí)都是注意力,這個架構(gòu)實(shí)際上很簡單。

對于僅解碼器 Transformer,有的人有一個誤解:該架構(gòu)的作用是語言建模的下一 token 預(yù)測,不能用來監(jiān)督學(xué)習(xí)。但實(shí)際上可以做到,其訣竅就是將輸入與目標(biāo)輸出連接起來。這樣一來,就變成了簡單的序列到序列。

其中因果自注意力機(jī)制的作用有兩個:處理目標(biāo)序列和輸入序列之間的交叉注意力以及實(shí)現(xiàn)每個序列之中的自注意力學(xué)習(xí)。這里的關(guān)鍵設(shè)計(jì)是自注意力也能作為跨注意力,并且輸入和目標(biāo)在一定程度上共享參數(shù)。

將編碼器 - 解碼器變成僅解碼器

圖片

接下來,通過將結(jié)構(gòu)更多的編碼器 - 解碼器 Transformer 變成僅解碼器 Transformer,Chung 將帶我們看到并理解這兩種架構(gòu)之間的差異。

圖片

首先在跨注意力方面,如上圖所示,左側(cè)的編碼器 - 解碼器有粉色標(biāo)記的跨注意力,而右側(cè)的僅解碼器沒有。如果我們想把左側(cè)架構(gòu)變成右側(cè)的,那么就需要去掉這些跨注意力。注意力機(jī)制大概有 4 個投射矩陣,并且自注意力和跨注意力實(shí)際上有同樣的參數(shù)量和形狀,因此可以選擇共享它們。這樣一來,它們就變成了基本一樣的注意力。

第二個差異是參數(shù)共享,也就是說在輸入和目標(biāo)序列之間,編碼器 - 解碼器架構(gòu)使用了不同的參數(shù),而僅解碼器只有一個堆棧,也就是使用了共享參數(shù)。因此,如果要將左邊變成右邊,就需要共享左邊的編碼器參數(shù)。

第三個差異是目標(biāo)到輸入的注意力模式。在編碼器 - 解碼器架構(gòu)中,這是通過跨注意力實(shí)現(xiàn)的;而在僅解碼器架構(gòu)中,都是自注意力。差異在于,在編碼器 - 解碼器架構(gòu)中,解碼器中的每一層都關(guān)注編碼器的最終層輸出;而在僅解碼器架構(gòu)中,則是在各層本身之中。為了將左側(cè)變成右側(cè),就需要將注意力帶回各層之中。

最后一個差異是輸入注意力。編碼器 - 解碼器架構(gòu)有雙向注意力,而僅解碼器有單向注意力。為了讓它們匹配,這里的做法很簡單:直接去掉編碼器 - 解碼器架構(gòu)中的一個方向。

這樣一來,這兩種架構(gòu)就幾乎一模一樣了,只在跨注意力有一點(diǎn)差異,但它們的參數(shù)量是一樣的。Chung 表示,如果使用同樣的方法和數(shù)據(jù)針對同樣的任務(wù)訓(xùn)練它們,那么得到的結(jié)果也會差不多,因此可以說它們是一樣的。

圖片

下表總結(jié)了這四項(xiàng)差異:

 圖片

那么相比于僅解碼器 Transformer,編碼器 - 解碼器架構(gòu)多了哪些結(jié)構(gòu)呢?

 圖片


首先,在編碼器 - 解碼器架構(gòu)中,輸入序列和目標(biāo)序列足夠不同,因此對該架構(gòu)而言,分開使用不同的參數(shù)是有效的。


Chung 繼續(xù)以機(jī)器翻譯為例進(jìn)行了說明。在 2017 年 Transformer 剛誕生的時候,翻譯是一個非常受歡迎的任務(wù),因?yàn)槠潆y度還很大;而且這還是一個序列到序列任務(wù),可以通過一個 GLUE 分?jǐn)?shù)來度量,從而為研究者提供一個優(yōu)化基準(zhǔn)。


圖片

在機(jī)器翻譯任務(wù)中,輸入和目標(biāo)是不同語言的序列。如果模型的學(xué)習(xí)目標(biāo)就只是執(zhí)行翻譯,那么讓編碼器中的參數(shù)處理英語并讓解碼器中的參數(shù)用于德語就是非常合理的做法,也是很自然的做法。

但現(xiàn)在的語言模型就不只是執(zhí)行翻譯了,甚至都可以說不只是關(guān)于語言的,而是為了學(xué)習(xí)知識。Chung 表示這些能力都是「下一 token 預(yù)測的副產(chǎn)品」。那么,在這種情況下,對于同樣的知識,如果只是語言不同,再將參數(shù)分開還合理嗎?Chung 認(rèn)為這并不合理,也不自然。而且也正是因?yàn)闆]有分開,現(xiàn)代語言模型所能做的事情要多得多。

Chung 又給出了另一個例子。這是他兩年前還在谷歌時做的一項(xiàng)有關(guān)指令微調(diào)的研究《Scaling Instruction-Finetuned Language Models》。簡單來說,該研究就是使用學(xué)術(shù)數(shù)據(jù)集來微調(diào)已經(jīng)完成預(yù)訓(xùn)練的模型。

 圖片

這里我們來看看對兩個不同的架構(gòu)進(jìn)行指令微調(diào)所獲得的增益。如下圖所示,上面五個數(shù)據(jù)基于模型 Flan T5,這是一種編碼器 - 解碼器架構(gòu)的模型;下面的 PaLM 則是僅解碼器架構(gòu)。

圖片

Chung 表示,他們花了大量時間來優(yōu)化 PaLM,而對于 T5 則僅僅用了三天,結(jié)果 T5 獲得性能增益卻要大得多。

Chung 說:「我當(dāng)時對此深感困惑?!挂虼嗽谶@篇論文發(fā)表之后,他又做了進(jìn)一步的研究,希望找到這一現(xiàn)象背后的原因。他的假設(shè)是這與長度有關(guān)。

圖片

他們使用的學(xué)術(shù)數(shù)據(jù)集包含 1832 個任務(wù)。這些任務(wù)基本都有一個特點(diǎn):輸入長但目標(biāo)輸出短。輸入長的原因是讓任務(wù)變得復(fù)雜和困難,而目標(biāo)短則是為了方便評估。因此,輸入序列的長度分布就如以上上圖所示,目標(biāo)序列的長度分布則是以上下圖那樣。對于編碼器 - 解碼器架構(gòu),就是編碼器和解碼器分別處理一種不同類型的序列,而它也正好擅長這種情況 —— 適合處理這個學(xué)術(shù)數(shù)據(jù)集。Chung 說:「我認(rèn)為這就是一個意外?!?/span>

現(xiàn)在,越來越多用例涉及到生成更長的目標(biāo)序列,并且像是聊天這樣的應(yīng)用還涉及到將這一輪的輸出用作下一輪的輸入,編碼器 - 解碼器架構(gòu)的這種針對非常特定數(shù)據(jù)集的優(yōu)勢就沒有了。畢竟如果下一輪的輸入和上一輪的輸出一樣,那么為輸入和目標(biāo)分開配置參數(shù)就沒有道理了。

圖片

這是編碼器 - 解碼器中的第一個歸納偏置或結(jié)構(gòu),另一個結(jié)構(gòu)則是其目標(biāo)元素只能關(guān)注已經(jīng)完全編碼的元素,即編碼器的最終輸出。

圖片

通常而言,在深度神經(jīng)網(wǎng)絡(luò)中,較低層和較高層編碼信息的層級是不一樣的。比如在計(jì)算機(jī)視覺模型中,較低層編碼的是線條、點(diǎn)、顏色等基礎(chǔ)特征,而更高層會將這些特征組合起來,編碼更復(fù)雜的信息,比如貓臉。因此,這種深度學(xué)習(xí)也被稱為分層表征學(xué)習(xí)。

圖片

那問題就來了:如果解碼器的第 1 層也是關(guān)注編碼器的最終層(它們可能有非常不同的信息層級),那么這是否會成為一個信息瓶頸呢?

當(dāng)然,Chung 也指出在實(shí)踐中,這還不成問題,因?yàn)?T5 的編碼器層也不過 20 多層,但如果編碼器的層數(shù)再多十倍乃至百倍呢?

圖片

然后就是編碼器 - 解碼器架構(gòu)比僅解碼器多的最后一個結(jié)構(gòu):雙向的輸入注意力。

圖片

2018 年誕生的 BERT 中的「B」便是指雙向(bidirectional)。那時候,人們在競相解決問答 SQuAD 任務(wù) —— 這是一個非常困難的任務(wù)。這種新增的技巧能帶來很大收益。雙向?qū)τ诖祟惾蝿?wù)還是很用的,大概將 SQuAD 分?jǐn)?shù)提升了大約 20 點(diǎn) —— 很大的進(jìn)步。

但是,Chung 表示,一旦規(guī)模變得足夠大,這種增加雙向性質(zhì)的技巧就不重要了。他及團(tuán)隊(duì)用 Flan 2 嘗試了雙向和單向微調(diào),結(jié)果性能差異不大;但對于多輪聊天等應(yīng)用,開發(fā)雙向注意力的難度很大。

圖片

原因也很容易理解。對于每一輪對話,都必須重新編碼新的輸入。對于單向架構(gòu)來說,編碼新輸入的消息就夠了。但對于雙向架構(gòu),每一輪都需要再次編碼新輸入,如下圖的例子所示。

圖片

也就是說,在 2018 年表現(xiàn)很好的雙向注意力已經(jīng)被規(guī)模擴(kuò)展接替了,而且由于雙向注意力的工程開發(fā)難度更大,我們也不需要它了。

結(jié)語

圖片

最后,Chung 簡單總結(jié)了這次演講的內(nèi)容:

  • 找到了 AI 研究的主要推動力,即計(jì)算成本呈指數(shù)級下降以及相關(guān)的規(guī)模擴(kuò)展;
  • 為了理解這種主要推動力,分析了編碼器 - 解碼器 Transformer 比僅解碼器 Transformer 多的結(jié)構(gòu)并從規(guī)模擴(kuò)展角度思考了其意義。

他表示,分析過去的架構(gòu)并非毫無用處,這能為我們提供一個更加統(tǒng)一的視角,幫助我們了解有哪些結(jié)構(gòu)其實(shí)最終可能被規(guī)模擴(kuò)展接替。他說:「我們能很好地共同塑造 AI 的未來?!?/span>

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2015-04-16 10:46:24

2013-08-15 08:56:11

虛擬化云計(jì)算備份

2013-09-02 11:02:21

虛擬化云計(jì)算備份

2019-10-18 15:07:14

數(shù)據(jù)科學(xué)職業(yè)生涯萬努克

2013-02-18 09:41:33

內(nèi)存科學(xué)家宕機(jī)

2023-05-23 09:34:16

科學(xué)家AI

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2017-04-12 10:15:21

大數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)分析

2024-09-11 15:00:00

2012-12-06 15:36:55

CIO

2019-07-30 11:47:29

數(shù)據(jù)科學(xué)云計(jì)算機(jī)器學(xué)習(xí)

2020-02-12 16:49:49

數(shù)據(jù)科學(xué)技能云計(jì)算

2023-07-26 14:00:47

模型研究

2015-08-06 10:21:55

2014-10-14 16:41:32

保險(xiǎn)IT技術(shù)

2024-09-24 19:45:13

數(shù)據(jù)飛輪數(shù)據(jù)驅(qū)動數(shù)據(jù)倉庫

2024-09-28 11:11:28

數(shù)據(jù)飛輪數(shù)據(jù)倉庫數(shù)據(jù)驅(qū)動

2021-01-08 15:41:43

谷歌研究技術(shù)

2023-11-02 13:35:00

訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號