自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

思維鏈提出者Jason Wei:關(guān)于大模型的六個直覺

人工智能 新聞
近日, Jason Wei以客座講師的身份為斯坦福的 CS 330 深度多任務(wù)學(xué)習(xí)與元學(xué)習(xí)課程講了一堂課,分享了他對大型語言模型的一些直觀認識。目前斯坦福尚未公布其演講視頻,但他本人已經(jīng)在自己的博客上總結(jié)了其中的主要內(nèi)容。

還記得 Jason Wei 嗎?這位思維鏈的提出者還曾共同領(lǐng)導(dǎo)了指令調(diào)優(yōu)的早期工作,并和 Yi Tay、Jeff Dean 等人合著了關(guān)于大模型涌現(xiàn)能力的論文。目前他正在 OpenAI 參與 ChatGPT 的開發(fā)工作。機器之心曾經(jīng)報道過他為年輕 AI 研究者提供的一些建議。

圖片

近日,他以客座講師的身份為斯坦福的 CS 330 深度多任務(wù)學(xué)習(xí)與元學(xué)習(xí)課程講了一堂課,分享了他對大型語言模型的一些直觀認識。目前斯坦福尚未公布其演講視頻,但他本人已經(jīng)在自己的博客上總結(jié)了其中的主要內(nèi)容。

當(dāng)今的 AI 領(lǐng)域有一個仍待解答的問題:大型語言模型的表現(xiàn)為何如此之好?對此,Jason Wei 談到了六個直覺認識。這些直覺認識中許多都是通過人工檢查數(shù)據(jù)得到的,Jason Wei 表示這是一種非常有幫助的實踐措施,值得推薦。

語言模型的預(yù)訓(xùn)練目標(biāo)就只是預(yù)測文本語料的下一個詞,而它們卻從中學(xué)到了許多東西,著實讓人驚訝。它們從下一個詞預(yù)測任務(wù)中學(xué)到了什么呢?下面有一些例子。

直覺 1:基于大規(guī)模自監(jiān)督數(shù)據(jù)的下一個詞預(yù)測是大規(guī)模多任務(wù)學(xué)習(xí)

盡管下一個詞預(yù)測是非常簡單的任務(wù),但當(dāng)數(shù)據(jù)集規(guī)模很大時,就會迫使模型學(xué)會很多任務(wù)。比如下面的傳統(tǒng) NLP 任務(wù)就可以通過預(yù)測語料文本的下一個詞來學(xué)習(xí)。

上述任務(wù)很明確,但有點理想化。在現(xiàn)實情況中,預(yù)測下一個詞還會涉及到很多的「古怪」任務(wù)。以下列句子為例:

當(dāng)以這樣的方式看待這些數(shù)據(jù)時,很明顯下一個詞預(yù)測會促使模型學(xué)到很多有關(guān)語言的東西,而不只是句法和語義,還包括標(biāo)點符號預(yù)測、事實預(yù)測、甚至是推理。這些例子能夠佐證這一觀點:簡單目標(biāo)加上復(fù)雜數(shù)據(jù)可以帶來高度智能的行為(如果你認同語言模型是智能的)。

直覺 2:學(xué)習(xí)輸入 - 輸出關(guān)系的任務(wù)可以被視為下一個詞預(yù)測任務(wù),這也被稱為上下文學(xué)習(xí)

過去幾十年,機器學(xué)習(xí)領(lǐng)域的重點就是學(xué)習(xí) < 輸入,輸出 > 對的關(guān)系。由于下一個詞預(yù)測非常普適,因此我們可以輕松地把機器學(xué)習(xí)視為下一個詞預(yù)測。我們把這稱為上下文學(xué)習(xí)(也稱少樣本學(xué)習(xí)或少樣本提示工程)。這一領(lǐng)域的先驅(qū)研究是 GPT-3 論文,其中提出在自然語言指令后面加上 < 輸入,輸出 > 對。如下左圖所示。

而在上圖右側(cè),則可以看到增加上下文中的示例數(shù)量可以提升 GPT-3 論文中任務(wù)的性能。這意味著,為模型提供 < 輸入,輸出 > 示例是有好處的。

上下文學(xué)習(xí)是使用大型語言模型的一種標(biāo)準(zhǔn)形式,而且很方便,因為 < 輸入,輸出 > 對就是過去幾十年人們執(zhí)行機器學(xué)習(xí)的方式。但是,我們?yōu)槭裁磻?yīng)當(dāng)繼續(xù)采用 < 輸入,輸出 > 對呢?我們還沒有第一性原理的原因。當(dāng)我們與人類交流時,我們也會向他們提供指示和解釋,并以互動方式教導(dǎo)他們。

直覺 3:token 可能有非常不同的信息密度,所以請給模型思考的時間

不同 token 的信息量也不同,這是一個基本事實。

一些 token 很容易預(yù)測下一個,基本沒多少信息。舉個例子,如果有句子「I’m Jason Wei, a researcher at OpenAI working on large language 」,不難預(yù)測下一個詞是「models」。這個 token 的預(yù)測是如此得容易,就算是省略它,這句話也不會丟失什么信息。

另一些 token 則極難預(yù)測;它們的信息量很大。比如句子「Jason Wei’s favorite color is 」就基本不可能預(yù)測正確。因為這個 token 包含大量新信息。

某些 token 也可能很難以計算。比如,在句子「Question:What is the square of ((8-2×3+4)^3/8?(A) 1,483,492; (B) 1,395,394; (C) 1,771,561; Answer: (」中,預(yù)測下一個 token 就需要不少工作(計算數(shù)學(xué)式)。

可以想象一下,如果你是 ChatGPT,你必須一看到 prompt 就馬上開始打字回復(fù),那就很難答對這個問題。

對此的解決方案是為語言模型提供更多計算,讓其執(zhí)行推理,然后再給出最終答案。這可以通過一個簡單技巧來實現(xiàn),即思維鏈提示工程,其可以通過提供少樣本「思維鏈」示例來鼓勵模型執(zhí)行推理,如下圖藍色高亮部分。

這項技術(shù)可用于提升在人類也需要些時間來處理的復(fù)雜推理任務(wù)上的性能。對于比上面的算術(shù)問題更復(fù)雜的問題,它可以幫助語言模型將 prompt 首先分解成子問題,然后再按順序解決這些子問題(從最少到最多提示工程)。

這種范式非常強大,因為我們希望 AI 最終能解決人類面臨的最困難的問題(例如貧困、氣候變化等),而推理能力是解決此類問題的基本組成部分。

上面的下一詞預(yù)測任務(wù)之所以有效,關(guān)鍵原因是規(guī)模,這就意味著要在更多數(shù)據(jù)上訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)。很顯然,訓(xùn)練前沿語言模型需要花費很多資金,而我們之所以還這么做,是因為我們有信心使用更大的神經(jīng)網(wǎng)絡(luò)和更多數(shù)據(jù)就能得到更好的模型(即增大模型和數(shù)據(jù)規(guī)模時性能不會飽和)。

直覺 4:預(yù)計增大語言模型規(guī)模(模型大小和數(shù)據(jù))會改善損失

規(guī)模擴展可以提升模型性能這一現(xiàn)象被稱為 scaling laws,即擴展律;如下左圖所示,隨著計算量增長,測試損失也會平穩(wěn)地下降。

右圖則是另一個證據(jù):通過跟蹤較小模型的損失曲線,你可以使用少一萬倍的計算量來預(yù)測 GPT-4 的損失。

擴展規(guī)模為何有用還有待解答,但這里有兩個尚待證明的原因。一是小語言模型的參數(shù)無法記憶那么多的知識,而大模型可以記憶大量有關(guān)世界的事實信息。第二個猜測是小語言模型能力有限,可能只能學(xué)習(xí)數(shù)據(jù)中的一階相關(guān)性。而大型語言模型則可以學(xué)習(xí)數(shù)據(jù)中的復(fù)雜啟發(fā)式知識。

直覺 5:盡管總體損失會平穩(wěn)地擴展,但單個下游任務(wù)的擴展情況則可能發(fā)生突變

我們來看看當(dāng)損失降低時究竟會發(fā)生什么。我們可以將總體損失看作是在所學(xué)習(xí)的大量任務(wù)上的加權(quán)平均。

現(xiàn)在假設(shè)你的損失從 4 降到了 3。那么你的任務(wù)都會變好嗎?可能不會。也許損失 = 4 的模型的語法就已經(jīng)完美了,因此已經(jīng)飽和了,但當(dāng)損失 = 3 時模型的數(shù)學(xué)能力提升了很多。

研究表明,如果觀察模型在 200 個下游任務(wù)上的性能,你會看到盡管某些任務(wù)會平穩(wěn)地提升,但其它一些任務(wù)完全不會提升,還有一些任務(wù)則會突然提升。下圖給出了 8 個這類任務(wù)的例子,其中模型較小時性能是隨機的,而一旦模型規(guī)模到達一定閾值,性能就會顯著超越隨機。

對于這種由量變引起的質(zhì)變現(xiàn)象,人們稱之為「涌現(xiàn)(emergence)」。更具體而言,如果一個能力在更小的模型中沒有,但更大的模型有,我們就說這個能力是涌現(xiàn)的能力。在這樣的任務(wù)中,我們往往可以看到小模型的能力是大致隨機的,而超過一定閾值規(guī)模的模型則會顯著超越隨機,如下圖所示。

涌現(xiàn)現(xiàn)象具有三個重要含義:

  1. 不能簡單地通過外推更小模型的擴展曲線來預(yù)測涌現(xiàn)。
  2. 涌現(xiàn)能力不是語言模型的訓(xùn)練者明確指定的。
  3. 由于規(guī)模擴展會解鎖涌現(xiàn)能力,因此可以預(yù)期進一步擴展還能進一步產(chǎn)生更多能力。

直覺 6:確實是有真正的上下文學(xué)習(xí),但只有足夠大的語言模型才行

GPT-3 論文已經(jīng)告訴我們,增加上下文中的示例數(shù)量可以提升性能。盡管我們希望這是因為模型真的從其上下文示例中學(xué)習(xí)到了 < 輸入,輸出 > 映射關(guān)系,但性能的提升還可能會有其它原因,比如示例告訴了模型有關(guān)格式或可能標(biāo)簽的信息。

事實上,論文《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》表明,即使為上下文示例使用隨機標(biāo)簽,GPT-3 的性能也幾乎不會下降。其中認為,性能的提升并非由于學(xué)習(xí)到了 < 輸入,輸出 > 映射關(guān)系,而是由于上下文讓模型了解了格式或可能的標(biāo)簽。

但是,相比于當(dāng)今最強大的模型,GPT-3 并非一個「超級」語言模型。如果我們對翻轉(zhuǎn)標(biāo)簽(即正表示負,負表示正)采取更極端的設(shè)置,那么我們會發(fā)現(xiàn)語言模型會更嚴格地遵守翻轉(zhuǎn)標(biāo)簽,而小模型則完全不會受到影響。如下圖所示,大型語言模型(PaLM-540B、code-davinci-002 和 text-davinci-002)的能力下降了。

這表明語言模型確實會考慮 < 輸入,輸出 > 映射,但前提是語言模型要足夠大。

在博客最后,Jason Wei 表示,他希望這些直覺是有用的,盡管它們看起來非?;A(chǔ)。此外,他發(fā)現(xiàn),通過手動查看數(shù)據(jù)可以學(xué)到很多東西,這是他最近很喜歡做的一件事情,推薦大家也嘗試一下。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-05-27 12:45:53

2025-01-06 07:05:00

2018-04-12 21:02:21

2015-07-30 14:43:04

導(dǎo)航欄iOS開發(fā)

2022-03-26 09:32:54

Python編程映射

2024-08-30 16:18:44

2023-02-15 14:07:03

2013-12-05 09:37:06

2021-10-21 08:00:00

開發(fā)技能技術(shù)

2019-02-13 15:49:00

2023-05-09 07:09:02

2024-12-02 08:20:00

2020-11-20 14:57:37

人工智能Gartner學(xué)習(xí)

2009-06-04 10:20:34

Hibernate持久化Java

2019-07-05 09:00:00

軟件開發(fā)數(shù)據(jù)

2020-10-10 11:37:04

區(qū)塊鏈5G技術(shù)

2020-04-20 10:10:20

IT領(lǐng)導(dǎo)者首席信息官CIO

2023-12-07 16:57:42

2022-08-30 13:48:28

IT領(lǐng)導(dǎo)者放權(quán)

2010-05-31 09:12:09

點贊
收藏

51CTO技術(shù)棧公眾號