Just keep scaling!思維鏈作者Jason Wei 40分鐘講座剖析LLM擴(kuò)展范式
關(guān)注 AI 領(lǐng)域的人對(duì) Jason Wei 這個(gè)名字一定不陌生。他是 OpenAI 的一位資深研究科學(xué)家,也常在 OpenAI 的發(fā)布活動(dòng)中露臉。更重要的是,他是思維鏈概念開(kāi)山之作《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的第一作者。
圖片
他本科畢業(yè)就加入了谷歌。在那里,他推廣了思維鏈提示概念,共同領(lǐng)導(dǎo)了指令微調(diào)的早期工作,并和 Yi Tay、Jeff Dean 等人合著了關(guān)于大模型涌現(xiàn)能力的論文。2023 年初,他加入了 OpenAI,參與了 ChatGPT 的構(gòu)建以及 o1 等重大項(xiàng)目。他的工作使思維鏈提示、指令微調(diào)和涌現(xiàn)現(xiàn)象等技術(shù)和概念變得廣為人知。
去年 11 月 20 日,Jason Wei 在賓夕法尼亞大學(xué)計(jì)算機(jī)與信息科學(xué)系 Mayur Naik 教授的「CIS 7000:大型語(yǔ)言模型(2024 秋季)」課程中進(jìn)行了一場(chǎng)約 40 分鐘的客座講座,主題為「大型語(yǔ)言模型的擴(kuò)展范式」。Jason Wei 從擴(kuò)展(scaling)的定義談起,介紹了 LLM 的擴(kuò)展范式從規(guī)模擴(kuò)展到以思維鏈和強(qiáng)化學(xué)習(xí)為代表的推理擴(kuò)展的轉(zhuǎn)變。真可謂內(nèi)容豐富、干貨滿滿!
近日,Naik 教授在自己的 YouTube 頻道放出了 Jason Wei 的演講視頻和幻燈片。機(jī)器之心整理了其中的主要內(nèi)容。
- 視頻地址:https://www.youtube.com/watch?v=yhpjpNXJDco
- 幻燈片:https://llm-class.github.io/slides/Jason_Wei.pdf
以下是演講內(nèi)容的概要:
一、擴(kuò)展的定義與重要性
- 擴(kuò)展一般是指通過(guò)增加模型規(guī)模、數(shù)據(jù)量和 GPU 數(shù)量來(lái)持續(xù)改進(jìn) AI 能力。不過(guò),Jason Wei 給出了一個(gè)更具體的定義:擴(kuò)展就是你把自己放在一個(gè)可以沿著連續(xù)軸移動(dòng)并期望獲得持續(xù)改進(jìn)的情況下。
- 雖然擴(kuò)展需要克服技術(shù)和心理挑戰(zhàn),但它是 AI 進(jìn)步的關(guān)鍵引擎,并將繼續(xù)主導(dǎo)這個(gè)領(lǐng)域的發(fā)展方向。
二、擴(kuò)展范式一:下一詞預(yù)測(cè)(2018 年至今)
- 下一詞預(yù)測(cè)實(shí)際上是一個(gè)大規(guī)模多任務(wù)學(xué)習(xí)過(guò)程。
- 通過(guò)預(yù)測(cè)下一詞,模型可以學(xué)習(xí)語(yǔ)法、世界知識(shí)、情感分析、翻譯等多種能力。
- 你可以把下一詞預(yù)測(cè)的準(zhǔn)確率看作多個(gè)子任務(wù)的加權(quán)和,這樣你就能理解為什么會(huì)有所謂的「涌現(xiàn)」現(xiàn)象。
- 僅僅通過(guò)下一詞預(yù)測(cè)也許可以實(shí)現(xiàn) AGI,但會(huì)非常困難,我們需要繼續(xù)大量擴(kuò)展。
三、擴(kuò)展范式二:基于思維鏈擴(kuò)展強(qiáng)化學(xué)習(xí)
- 純粹的下一詞預(yù)測(cè)在處理復(fù)雜任務(wù)時(shí)存在局限性。
- 思維鏈(CoT)讓模型能夠像人類一樣展示推理過(guò)程。
- OpenAI 通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化了模型的思維鏈能力,使其能更好地解決復(fù)雜問(wèn)題。
四、AI 文化的變革
- 研究重點(diǎn)從改進(jìn)算法轉(zhuǎn)向改進(jìn)數(shù)據(jù)質(zhì)量。
- 基準(zhǔn)測(cè)試被「飽和」的速度太快。
- 從單任務(wù)模型朝著高度多任務(wù)模型(highly multi-task models)的方向轉(zhuǎn)變。
- 智能和用戶體驗(yàn)是兩個(gè)可以分別改進(jìn)的維度。
- 需要更大的團(tuán)隊(duì)合作來(lái)推進(jìn) AI 發(fā)展。
五、未來(lái)展望
- AI 在科學(xué)和醫(yī)療健康方面的應(yīng)用前景。
- 提高事實(shí)準(zhǔn)確性,減少虛假信息。
- 發(fā)展多模態(tài) AI 能力。
- 增強(qiáng)工具使用能力。
- 擴(kuò)大 AI 應(yīng)用范圍。
Jason Wei 強(qiáng)調(diào),盡管 AI 在過(guò)去五年取得了巨大進(jìn)步,但通過(guò)持續(xù)擴(kuò)展,未來(lái)五年還會(huì)有更大的發(fā)展空間。他用「just keep scaling」(繼續(xù)擴(kuò)展)作為演講的結(jié)束語(yǔ),表達(dá)了對(duì)擴(kuò)展策略的信心。
以下是 Jason Wei 的演講內(nèi)容圖文版。
擴(kuò)展是 AI 進(jìn)步的引擎
并且還將發(fā)揮主導(dǎo)作用
今天的主題是大型語(yǔ)言模型的擴(kuò)展范式。首先我想說(shuō),在過(guò)去五年里,AI 取得了驚人的進(jìn)步。就在 5 年前的 2019 年,AI 幾乎無(wú)法寫(xiě)出連貫的段落,也無(wú)法進(jìn)行任何推理。而今天,AI 可以寫(xiě)出幾乎任何主題的文章,也成為了競(jìng)賽級(jí)別的程序員和數(shù)學(xué)家。那么我們是如何如此快速地達(dá)到這一步的呢?
我今天要闡述的觀點(diǎn)是擴(kuò)展一直是推動(dòng) AI 進(jìn)步的引擎,并將繼續(xù)主導(dǎo)這個(gè)領(lǐng)域的發(fā)展方向。
這里是一個(gè)簡(jiǎn)短的大綱 —— 我會(huì)講大約 40 分鐘,之后很樂(lè)意回答問(wèn)題。首先我會(huì)講什么是擴(kuò)展以及為什么要做擴(kuò)展。然后我會(huì)講第一個(gè)擴(kuò)展范式,即下一詞預(yù)測(cè)。我會(huì)講這個(gè)范式面臨的挑戰(zhàn)。接著我會(huì)講我們最近進(jìn)入的第二個(gè)范式,即在思維鏈上進(jìn)行強(qiáng)化學(xué)習(xí)。最后我會(huì)總結(jié) AI 文化是如何被擴(kuò)展改變的,以及我們接下來(lái)想看到什么。
我想先花幾分鐘講講在第一個(gè)擴(kuò)展范式之前我們?cè)谧鍪裁?。原因是,除非你研究過(guò)歷史,否則你可能不會(huì)意識(shí)到當(dāng)前時(shí)刻有什么特別之處。
我認(rèn)為從 2010 年到 2017 年,也就是在 Transformer 之前的深度學(xué)習(xí)時(shí)代,AI 進(jìn)展是這樣的:你會(huì)有一個(gè)基準(zhǔn)測(cè)試,比如 ImageNet,然后你會(huì)嘗試各種方法來(lái)改進(jìn)基線表現(xiàn)。比如可能添加更好的架構(gòu),添加一些歸納偏置,構(gòu)建更好的優(yōu)化器,進(jìn)行超參數(shù)調(diào)優(yōu)。所有這些東西疊加在一起,讓你能夠提升在基準(zhǔn)測(cè)試上的表現(xiàn)。
比如你有一些要學(xué)習(xí)的 XY 關(guān)系,目標(biāo)就是盡可能好地學(xué)習(xí)這個(gè)關(guān)系。在 2017 年之前,我們可能這樣描述一項(xiàng)成功的研究:「在 ImageNet 數(shù)據(jù)集上,我們的方法用一半的計(jì)算量就把基線性能提升了 5%。」
但是隨著 Transformer 的出現(xiàn),我們有了一個(gè)很好的方法來(lái)學(xué)習(xí)各種不同類型的 XY 關(guān)系。如果我們不再受限于學(xué)習(xí)本身,那我們?cè)撟鍪裁茨兀?/p>
事實(shí)證明,答案就是擴(kuò)展。擴(kuò)展簡(jiǎn)單來(lái)說(shuō)就是訓(xùn)練更大的模型,使用更多的數(shù)據(jù)和更多的 GPU。但我這里有一個(gè)更具體的定義:擴(kuò)展就是你把自己放在一個(gè)可以沿著連續(xù)軸移動(dòng)并期望獲得持續(xù)改進(jìn)的情況下。
這個(gè)定義中有一個(gè)重要的部分,即擴(kuò)展是一個(gè)主動(dòng)的過(guò)程。你必須把自己放在這個(gè)情況下,這通常涉及解決一些瓶頸或了解你的設(shè)置的一些細(xì)節(jié),才能真正讓擴(kuò)展發(fā)揮作用。
這是一個(gè)典型的擴(kuò)展圖表。你的 x 軸通常是計(jì)算量、數(shù)據(jù)量或模型大小,y 軸是你試圖改進(jìn)的某種能力。你想看到的是這條藍(lán)線,隨著你沿 x 軸移動(dòng),性能持續(xù)提升。你想避免的是這條紅線,在 x 軸的某個(gè)閾值之后,性能就飽和了,不再提升。
簡(jiǎn)單來(lái)說(shuō),就是這樣:
如果你看大語(yǔ)言模型領(lǐng)域的論文,你會(huì)發(fā)現(xiàn)擴(kuò)展無(wú)處不在。這里有一些來(lái)自 OpenAI、Google Brain、DeepMind 的論文,你可以在這些不同的論文中找到這些擴(kuò)展圖表。有時(shí)你需要把圖表上下翻轉(zhuǎn)才能找到它,因?yàn)楫?huà)的是損失而不是性能。這些圖表真的是擴(kuò)展的標(biāo)志,它們可以非常有力。至少在 OpenAI,如果你帶著這樣一個(gè)圖表走進(jìn)會(huì)議室,會(huì)議結(jié)束時(shí)你會(huì)得到你想要的。
需要注意的是,我們現(xiàn)在把擴(kuò)展范式視為理所當(dāng)然,但在當(dāng)時(shí)擴(kuò)展是非常不明顯的。它之所以不明顯有很多原因。
首先是伴隨著規(guī)模而來(lái)的技術(shù)和運(yùn)營(yíng)挑戰(zhàn)。首先,分布式訓(xùn)練需要大量專業(yè)知識(shí),你需要雇傭很多基礎(chǔ)設(shè)施工程師來(lái)構(gòu)建這個(gè)分布式訓(xùn)練系統(tǒng)。其次,你需要機(jī)器學(xué)習(xí)研究人員來(lái)對(duì)抗可能出現(xiàn)的損失發(fā)散和硬件故障。第三點(diǎn)是計(jì)算非常昂貴。
除了技術(shù)挑戰(zhàn)之外,還有一些心理挑戰(zhàn),這讓擴(kuò)展在當(dāng)時(shí)變得相當(dāng)困難。一個(gè)心理挑戰(zhàn)是研究人員喜歡歸納偏置。對(duì)于如何改進(jìn)算法有一個(gè)假設(shè),然后真的看到任務(wù)性能提升,這其中有一種固有的快樂(lè)。所以研究人員喜歡做那種改變算法的工作。
第二,總是有一種論點(diǎn)說(shuō)人類學(xué)習(xí)比擴(kuò)展效率高得多。你知道,一個(gè)人不需要讀 GPT-3 訓(xùn)練時(shí)讀過(guò)的那么多文本就能學(xué)會(huì)寫(xiě)一段英語(yǔ)。所以有一個(gè)問(wèn)題是:如果人類能做到,為什么機(jī)器需要從這么多數(shù)據(jù)中學(xué)習(xí)?
第三,長(zhǎng)期以來(lái),科學(xué)研究的激勵(lì)機(jī)制和擴(kuò)展所需的工程工作并不完全匹配。你知道,當(dāng)你向會(huì)議提交論文時(shí),他們想看到一些「創(chuàng)新」,而不僅僅是你把數(shù)據(jù)集做得更大或者用了更多 GPU。
那么,既然擴(kuò)展如此具有挑戰(zhàn)性,我們?yōu)槭裁匆鰯U(kuò)展呢?
我想說(shuō),如果你不依賴擴(kuò)展范式,那么幾乎每一個(gè)改進(jìn)都需要新的創(chuàng)造力。你必須投入研究人員來(lái)實(shí)現(xiàn)模型的進(jìn)步,而且不一定能成功,這需要一定程度的創(chuàng)造力。
第二個(gè)挑戰(zhàn)是,我們希望 AI 能做很多任務(wù),如果你想在每個(gè)任務(wù)上單獨(dú)訓(xùn)練 AI,那將是很大的挑戰(zhàn)。
而在以擴(kuò)展為中心的 AI 中,從定義上來(lái)說(shuō),你有一個(gè)可靠的方法來(lái)提升模型的能力?,F(xiàn)在重要的是要注意,這通常非常昂貴。你會(huì)看到很多擴(kuò)展圖表中 x 軸是對(duì)數(shù)刻度的,所以提升性能實(shí)際上是極其昂貴的。但好消息是,如果你的能力度量(也就是 y 軸)非常通用,那么這種極端的財(cái)務(wù)投資通??梢宰C明是合理的。
當(dāng)然,談到擴(kuò)展就不能不提 Rich Sutton 的這篇文章《The Bitter Lesson》。如果你還沒(méi)讀過(guò),我推薦閱讀,寫(xiě)得非常好。文章的主要觀點(diǎn)是利用計(jì)算能力的通用方法是最有效的,能擴(kuò)展的方法最終會(huì)勝出。
擴(kuò)展范式一:預(yù)測(cè)下一詞
現(xiàn)在我想談?wù)劦谝粋€(gè)擴(kuò)展范式,也就是預(yù)測(cè)下一詞。這個(gè)范式始于 2018 年,我們今天仍在繼續(xù),它非常簡(jiǎn)單 —— 就是在預(yù)測(cè)下一詞方面變得非常非常擅長(zhǎng)。
我認(rèn)為要完全理解這一點(diǎn)并不簡(jiǎn)單。問(wèn)題是為什么僅僅通過(guò)預(yù)測(cè)下一詞就能得到這么多?我的答案是:預(yù)測(cè)下一詞實(shí)際上是一個(gè)大規(guī)模的多任務(wù)學(xué)習(xí)。
讓我們快速回顧一下下一詞預(yù)測(cè)是如何工作的。你有一個(gè)句子,比如「 On weekends, Dartmouth students like to ___ 」。然后語(yǔ)言模型對(duì)詞匯表中的每個(gè)詞 —— 從「a」、「aardvark」一直到「zucchini」—— 都分配一個(gè)概率。然后模型的好壞取決于其對(duì)實(shí)際下一詞的預(yù)測(cè)有多接近 1.0。
在這個(gè)例子中,假設(shè)「drink」是實(shí)際的下一詞。當(dāng)語(yǔ)言模型從中學(xué)習(xí)時(shí),它會(huì)試圖增加「drink」的概率,并降低其他所有詞的概率。
我想展示一些例子來(lái)說(shuō)明僅僅通過(guò)在足夠大的數(shù)據(jù)庫(kù)上做下一詞預(yù)測(cè)就能學(xué)到什么。
首先,模型肯定會(huì)很好地學(xué)習(xí)語(yǔ)法。比如在預(yù)訓(xùn)練數(shù)據(jù)中有一句話說(shuō)「In my free time, I like to {code, banana} 」,下一詞是「code」而不是「banana」,所以語(yǔ)言模型學(xué)會(huì)了在這里動(dòng)詞應(yīng)該比名詞有更高的權(quán)重。
模型會(huì)學(xué)到世界知識(shí)。比如互聯(lián)網(wǎng)上可能有一句話說(shuō)「The capital of Azerbaijan is {Baku, London} 」,然后模型學(xué)會(huì)了給「Baku」比「London」更高的權(quán)重,所以模型學(xué)到了一些關(guān)于這個(gè)世界的知識(shí)。
模型可以學(xué)習(xí)經(jīng)典的自然語(yǔ)言處理任務(wù),比如情感分析?;ヂ?lián)網(wǎng)上某處可能有一句話說(shuō)「I was engaged and on the edge of my seat the whole time. The movie was {good, bad} 」,然后通過(guò)學(xué)會(huì)給「good」比「bad」更高的權(quán)重,語(yǔ)言模型學(xué)到了一些關(guān)于情感分析的東西。
模型可以學(xué)習(xí)如何翻譯。預(yù)訓(xùn)練中可能有一句話說(shuō)「The word for “neural network” in Russian is {нейронная сеть, привет} 」,然后通過(guò)給正確的俄語(yǔ)單詞更高的權(quán)重,模型學(xué)到了一些關(guān)于俄語(yǔ)的知識(shí)。
模型可以學(xué)習(xí)空間推理?;ヂ?lián)網(wǎng)上可能有一句話說(shuō)「Iroh went into the kitchen to make tea. Standing next to Iroh, Zuko pondered his destiny. Zuko left the {kitchen, store} 」,然后通過(guò)給「kitchen」比「store」更高的權(quán)重,模型學(xué)到了一些關(guān)于 Zuko 在哪里的空間推理。
最后,模型甚至可以期望學(xué)習(xí)數(shù)學(xué)這樣的東西。訓(xùn)練中可能有一句「Arithmetic exam answer key: 3 + 8 + 4 = {15, 11} 」,然后通過(guò)學(xué)會(huì)正確預(yù)測(cè) 15,模型學(xué)到了一些數(shù)學(xué)知識(shí)。
你可以想象,還有數(shù)百萬(wàn)種類似的任務(wù)。通過(guò)在龐大的語(yǔ)料庫(kù)上僅訓(xùn)練下一詞的預(yù)測(cè),模型實(shí)際上是在進(jìn)行極其大量的多任務(wù)學(xué)習(xí)。
在 2020 年,Kaplan 等人發(fā)表的一篇論文普及了這種擴(kuò)展范式。它普及了 scaling law 這個(gè)概念,這個(gè)概念主要是說(shuō),語(yǔ)言模型預(yù)測(cè)下一詞的能力或性能會(huì)隨著我們?cè)黾幽P痛笮?、?shù)據(jù)集大小和訓(xùn)練計(jì)算量而平滑提升。
這里 x 軸是訓(xùn)練計(jì)算量,也就是你訓(xùn)練的數(shù)據(jù)量乘以模型大小,你可以看到模型預(yù)測(cè)下一詞的能力在提升。
之所以稱之為 scaling law,是因?yàn)樗麄兛梢钥吹竭@個(gè)趨勢(shì)跨越了 7 個(gè)數(shù)量級(jí)。他們用 7 個(gè)數(shù)量級(jí)的計(jì)算量訓(xùn)練語(yǔ)言模型,發(fā)現(xiàn)這個(gè)趨勢(shì)一直持續(xù)。
這里最重要的是它不會(huì)飽和。這點(diǎn)之所以重要,是因?yàn)槿绻銛U(kuò)大計(jì)算量,你可以期望得到一個(gè)更好的語(yǔ)言模型。這某種程度上給了研究人員繼續(xù)擴(kuò)大規(guī)模的信心。
這里有一個(gè)自然的問(wèn)題:為什么擴(kuò)展效果這么好?作為一個(gè)領(lǐng)域,我認(rèn)為我們還沒(méi)有一個(gè)很好的答案,但我可以給出一個(gè)大致的解釋,說(shuō)明擴(kuò)展可以帶來(lái)的兩個(gè)優(yōu)勢(shì)。
首先,如果是一個(gè)小型語(yǔ)言模型,那它的記憶是非常昂貴的。因?yàn)閰?shù)很少,你必須非常謹(jǐn)慎地選擇要在參數(shù)中編碼什么樣的知識(shí)。而大型語(yǔ)言模型有很多參數(shù),所以在學(xué)習(xí)長(zhǎng)尾知識(shí)和記憶大量事實(shí)方面可以更慷慨。
其次,如果是一個(gè)小型語(yǔ)言模型,它在單次前向傳播中的能力要低得多。所以它可能主要學(xué)習(xí)一階相關(guān)性。而如果是一個(gè)大型語(yǔ)言模型,它在單次前向傳播中會(huì)獲得更多的計(jì)算能力,當(dāng)它有額外的計(jì)算能力時(shí),學(xué)習(xí)復(fù)雜性要容易得多。
現(xiàn)在你可能會(huì)說(shuō),如果 scaling law 如此可預(yù)測(cè),為什么這么多人對(duì) ChatGPT 在擴(kuò)展范式中的成功感到驚訝?我的回答是,下一詞預(yù)測(cè)實(shí)際上是大規(guī)模的多任務(wù)處理,而且在不同任務(wù)上的性能提升速度各不相同,所以一些能力的涌現(xiàn)可能會(huì)讓人感到驚訝。
我建議你這樣看待下一詞預(yù)測(cè)的準(zhǔn)確率:它是很多個(gè)體子任務(wù)的加權(quán)和。這些數(shù)字是我編的,但你可以把總體準(zhǔn)確率計(jì)算為:某個(gè)小系數(shù)乘以語(yǔ)法準(zhǔn)確率,加上某個(gè)小系數(shù)乘以世界知識(shí)準(zhǔn)確率,加上情感分析、數(shù)學(xué)能力、推理等等。
當(dāng)你這樣看時(shí),你可以問(wèn)自己這個(gè)問(wèn)題:如果準(zhǔn)確率從 70% 提升到比如 80%,是所有任務(wù)都均勻提升嗎?比如語(yǔ)法從 70 提升到 80,數(shù)學(xué)也從 70 提升到 80?
我認(rèn)為可能不是這樣。你可以這樣看:總體能力在平滑提升。對(duì)于一些簡(jiǎn)單的任務(wù),在某個(gè)點(diǎn)之后你實(shí)際上并沒(méi)有提升性能。例如,GPT-3.5 基本上已經(jīng)有完美的語(yǔ)法了,所以當(dāng)你訓(xùn)練 GPT-4 時(shí),你可能實(shí)際上并沒(méi)有優(yōu)化語(yǔ)法方面的損失。
另一方面,你可能有一些任務(wù)出現(xiàn)了能力的大幅提升。比如,你可以說(shuō) GPT-3 和 GPT-2 的數(shù)學(xué)能力都很差,甚至不能做算術(shù),但 GPT-4 真的很擅長(zhǎng)數(shù)學(xué)。所以你可能會(huì)看到數(shù)學(xué)能力以這種方式提升。
人們經(jīng)常用「涌現(xiàn)能力」或「相變」這兩個(gè)術(shù)語(yǔ)來(lái)描述這種現(xiàn)象。
可以看到,這里有兩個(gè)階段:在閾值之前,模型的性能不佳或增長(zhǎng)平緩;而一旦超過(guò)某個(gè)閾值,模型的性能就會(huì)迅速提升。下面展示了一個(gè)簡(jiǎn)單示例。
這里的提示詞是想要把一句話翻譯成西班牙語(yǔ)??梢钥吹剑瑘D中展示了三個(gè)模型的輸出結(jié)果。ada 和 babbage 只是重復(fù)了輸入,因?yàn)樗鼈儾⒉徽嬲斫膺@里應(yīng)該執(zhí)行翻譯。而最大的模型 curie 突然就學(xué)會(huì)了完美地完成這個(gè)任務(wù)。
重點(diǎn)在于,如果你只訓(xùn)練了 ada 和 babbage,并試圖預(yù)測(cè) curie 能否完成這個(gè)任務(wù),那么你可能會(huì)得到消極的答案,認(rèn)為 curie 也無(wú)法做到。但實(shí)際情況卻并非如此。
因此,我們可以繪制一張我們希望 AI 完成的任務(wù)圖譜。一開(kāi)始是最基礎(chǔ)的任務(wù)(比如返回基本事實(shí)或保證語(yǔ)法正確),到翻譯、寫(xiě)代碼和寫(xiě)詩(shī)等中等難度任務(wù),再到寫(xiě)小說(shuō)或做科研等最難的任務(wù)。
隨著模型增大,它們能完成的任務(wù)也越來(lái)越多,比如 GPT-2 只能做這些任務(wù)中的一小部分,GPT-3 能做更多任務(wù),而 GPT-4 則涌現(xiàn)出了更多能力,比如調(diào)試代碼、寫(xiě)詩(shī)等。
于是,問(wèn)題來(lái)了:既然下一詞預(yù)測(cè)效果這么好,那么能否僅僅通過(guò)擴(kuò)展下一詞預(yù)測(cè)就達(dá)到 AGI 呢?
我的回答是:也許可以,但會(huì)非常困難,我們需要繼續(xù)大量擴(kuò)展。
僅僅做下一詞預(yù)測(cè)確實(shí)存在一個(gè)根本性的瓶頸:有些詞非常難預(yù)測(cè),需要大量工作。
比如下圖左側(cè)就給出了一個(gè)下一詞預(yù)測(cè)效果很好的例子,這里很容易預(yù)測(cè)出最后一個(gè)詞是 models。而對(duì)于右側(cè)的數(shù)學(xué)題,僅僅通過(guò)下一詞預(yù)測(cè)很難得到正確答案是 A、B、C 中的哪一個(gè)。
這里要強(qiáng)調(diào)的是,任務(wù)是有難度區(qū)分的。如果單純使用下一詞預(yù)測(cè),那就是使用相同的計(jì)算量來(lái)解決非常簡(jiǎn)單的任務(wù)和非常困難的任務(wù)。
而我們想要的實(shí)際上是:對(duì)于簡(jiǎn)單的問(wèn)題使用少量計(jì)算,對(duì)于困難的問(wèn)題則使用大量計(jì)算(比如得到競(jìng)賽數(shù)學(xué)多選題的答案)。
一個(gè)方法是思維鏈提示,這是我們?cè)谶^(guò)去幾年一直在做的事情。這個(gè)方法很簡(jiǎn)單:只需要提示語(yǔ)言模型給出推理鏈,就像你向老師展示你的解題過(guò)程一樣。然后語(yǔ)言模型就可以在給出最終答案之前實(shí)際輸出這個(gè)推理鏈。
事實(shí)證明該方法的效果相當(dāng)不錯(cuò)。如果你有一個(gè)數(shù)學(xué)應(yīng)用題基準(zhǔn)測(cè)試,你會(huì)看到如果使用思維鏈而不是直接回答,隨著模型增大,性能會(huì)有巨大的提升。
另一個(gè)角度是基于這本書(shū)《思考,快與慢》,其中分出了所謂的 System 1 和 System 2 思維。
System 1 思維就是下一詞預(yù)測(cè),它是自動(dòng)的、不費(fèi)力的、直覺(jué)式的,比如重復(fù)一個(gè)基本事實(shí)或認(rèn)出一張臉。
思維鏈則屬于 System 2 思維,這是有意識(shí)的、費(fèi)力的、受控的。
不過(guò),思維鏈提示也有一個(gè)關(guān)鍵問(wèn)題:當(dāng)你在大多數(shù)互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練模型時(shí),模型訓(xùn)練的推理大多看起來(lái)是下圖左側(cè)這樣的。這個(gè)例子來(lái)自一個(gè)大學(xué)數(shù)學(xué)作業(yè),你可以需要花一個(gè)小時(shí)做題,然后再用 10 分鐘將其轉(zhuǎn)錄成 LaTeX。格式上,可以看到,其一開(kāi)始就給出了答案,之后是進(jìn)行證明。所以這實(shí)際上是對(duì)內(nèi)部推理過(guò)程的事后總結(jié)。
這是我的一個(gè)大學(xué)數(shù)學(xué)作業(yè)解答的例子。你會(huì)注意到,如果你想想這是從哪里來(lái)的,我可能花了一個(gè)小時(shí)在紙上做這個(gè)問(wèn)題,然后花了 10 分鐘把它轉(zhuǎn)錄成 LaTeX。你可以看到,你知道,證明在開(kāi)頭,答案在開(kāi)頭等等。所以它實(shí)際上是對(duì)實(shí)際內(nèi)部推理過(guò)程的事后總結(jié)。
但實(shí)際上,思維鏈?zhǔn)窍胍P拖裎覀兊膬?nèi)心獨(dú)白一樣思考。如上右圖所示,我們希望模型說(shuō):「讓我們先看看應(yīng)該采用什么方法;我要試試這個(gè);這個(gè)實(shí)際上不對(duì),我再試試別的……」
擴(kuò)展范式二:基于思維鏈擴(kuò)展強(qiáng)化學(xué)習(xí)
這就引出了第二個(gè)范式:基于思維鏈擴(kuò)展強(qiáng)化學(xué)習(xí)。這種范式的思路是訓(xùn)練語(yǔ)言模型,使之在給出答案之前會(huì)進(jìn)行思考。
研究者發(fā)現(xiàn),除了擴(kuò)大訓(xùn)練的計(jì)算規(guī)模之外(這是過(guò)去幾十年的主流做法),還有另一個(gè)可能性:延長(zhǎng)語(yǔ)言模型在執(zhí)行推理時(shí)的思考時(shí)間。
基于此思路,OpenAI 打造了 o1。其相關(guān)博客已經(jīng)介紹了相關(guān)技術(shù),值得一讀,這里總結(jié)了其中幾個(gè)關(guān)鍵點(diǎn)。
這篇博客展示了一些 o1 給出的思維鏈,從中我們可以學(xué)到不少東西。
如上圖所示,o1 正在解決一個(gè)化學(xué)問(wèn)題。首先它會(huì)說(shuō):「讓我們理解一下問(wèn)題是什么」,這是它在嘗試正確理解問(wèn)題。然后它會(huì)嘗試確定有哪些離子以及哪些離子會(huì)對(duì) pH 值產(chǎn)生影響。結(jié)果發(fā)現(xiàn),其中既有弱酸,也有弱堿。于是 o1 又想出了一個(gè)策略,通過(guò) Ka、Kb 值來(lái)計(jì)算 pH 值。然后它進(jìn)行了一些回溯,發(fā)現(xiàn)使用 Kb 更好。它再繼續(xù)思考:正確的公式是什么,如何計(jì)算它。最后,它得到了最終答案。
思維鏈大有作用的另一類問(wèn)題是存在驗(yàn)證不對(duì)稱的問(wèn)題,即驗(yàn)證一個(gè)解比生成一個(gè)解容易得多的情況,比如填字游戲、數(shù)獨(dú)或?qū)懸皇追夏承┘s束條件的詩(shī)。下圖給出了一個(gè)填字游戲例子。
另外,如果有些問(wèn)題需要大量思考,思維鏈也會(huì)很有用,比如競(jìng)賽數(shù)學(xué)或競(jìng)賽編程。事實(shí)上,思維鏈帶來(lái)的效果非常明顯,GPT-4o 在競(jìng)賽數(shù)學(xué)和競(jìng)賽編程上只能達(dá)到百分之十幾的水平,而 o1-preview 和 o1 能夠解決大部分問(wèn)題。所以這是「基本上不能完成任務(wù)」與「能夠解決大多數(shù)問(wèn)題」的差異。
o1 博客中還提到了在競(jìng)賽數(shù)學(xué)數(shù)據(jù)集上的一次通過(guò)準(zhǔn)確率。隨著訓(xùn)練計(jì)算量增多,一次通過(guò)準(zhǔn)確率也會(huì)提升。而第二張圖表明,如果給模型更多時(shí)間思考推理,那么在數(shù)學(xué)基準(zhǔn)測(cè)試上也能有一個(gè)正向的擴(kuò)展趨勢(shì)。
現(xiàn)在我想談?wù)劄槭裁催@種范式如此特別。我認(rèn)為,對(duì)許多人來(lái)說(shuō),我們對(duì) AI 如此興奮的原因是,我們希望有一天 AI 能夠幫助我們解決人類面臨的最具挑戰(zhàn)性的問(wèn)題,比如醫(yī)療、疾病、環(huán)境等等。
因此,理想情況下,未來(lái)的方向是:你可以提出一個(gè)非常具有挑戰(zhàn)性的問(wèn)題(比如撰寫(xiě)一篇關(guān)于如何制造 AI 的研究論文),然后語(yǔ)言模型可以在推理時(shí)花費(fèi)大量的計(jì)算資源來(lái)嘗試解決這個(gè)問(wèn)題。也許你提出問(wèn)題后,成千上萬(wàn)的 GPU 運(yùn)行一個(gè)月,最終它會(huì)返回一個(gè)完整的答案,比如這是關(guān)于如何制造 AI 的一整套研究成果。
我們想要推斷的是,目前 AI 可能只能思考幾秒或幾分鐘,但最終我們希望 AI 能夠思考幾小時(shí)、幾天、幾周甚至幾個(gè)月,以幫助我們解決一些最具挑戰(zhàn)性的問(wèn)題。
擴(kuò)展如何改變了 AI 研究文化
接下來(lái),我想談?wù)剶U(kuò)展如何改變了 AI 研究文化。其中一個(gè)重要的轉(zhuǎn)變是對(duì)數(shù)據(jù)的重視。
過(guò)去,從 2010 年到 2017 年,甚至更早,目標(biāo)是讓神經(jīng)網(wǎng)絡(luò)盡可能好地學(xué)習(xí)某種 X 和 Y 的關(guān)系,也就是追求最佳的性能。而如今,目標(biāo)變成了如何讓 X 和 Y 盡可能好,因?yàn)槲覀円呀?jīng)有了一種有效的學(xué)習(xí)方法。
總結(jié)來(lái)說(shuō),AI 的潛力在于它能夠通過(guò)大量的計(jì)算資源和時(shí)間來(lái)幫助我們解決復(fù)雜問(wèn)題,而研究文化的轉(zhuǎn)變則體現(xiàn)在從單純優(yōu)化模型轉(zhuǎn)向優(yōu)化數(shù)據(jù)本身。這種變化正在推動(dòng) AI 向更深遠(yuǎn)的方向發(fā)展。
這個(gè)例子很好地說(shuō)明了現(xiàn)代機(jī)器學(xué)習(xí)研究重點(diǎn)的轉(zhuǎn)變。過(guò)去,研究人員通常會(huì)專注于在現(xiàn)有數(shù)據(jù)集(如 ImageNet)上訓(xùn)練出最好的模型,以追求更高的評(píng)分(如準(zhǔn)確率)。當(dāng)時(shí)的目標(biāo)是優(yōu)化模型本身,而不是考慮擴(kuò)展或改進(jìn)數(shù)據(jù)集,比如將 ImageNet 擴(kuò)大 10 倍,再訓(xùn)練模型。
然而,如今的研究趨勢(shì)表明,通過(guò)改進(jìn)數(shù)據(jù)集(X 和 Y)的質(zhì)量或領(lǐng)域相關(guān)性,可以顯著提升模型的表現(xiàn)。一個(gè)典型的例子是 Google 兩年前發(fā)布的 Minerva 模型。Minerva 的研究團(tuán)隊(duì)并沒(méi)有從頭設(shè)計(jì)一個(gè)新的模型,而是基于現(xiàn)有的語(yǔ)言模型,通過(guò)在大量數(shù)學(xué)相關(guān)數(shù)據(jù)(如 arXiv 上的論文)上繼續(xù)訓(xùn)練,顯著提升了模型在數(shù)學(xué)任務(wù)上的表現(xiàn)。
AI 文化的另一個(gè)轉(zhuǎn)變是,我們某種程度上存在一種滯后現(xiàn)象,即我們沒(méi)有真正能夠捕捉到語(yǔ)言模型能力極限的評(píng)估標(biāo)準(zhǔn)。這是我從 David Ryan 的一次演講中提取的一張圖表。這張圖表基本上展示了基準(zhǔn)測(cè)試被「飽和」的速度有多快。你可以看到,大約 8 年前,一個(gè)基準(zhǔn)測(cè)試可能需要幾年時(shí)間才會(huì)被飽和。而最近一些具有挑戰(zhàn)性的基準(zhǔn)測(cè)試,比如問(wèn)答(QA),可能在大約 0.1 年(約 1 個(gè)月)內(nèi)就被飽和了。當(dāng) David 被問(wèn)到是否會(huì)設(shè)計(jì)一個(gè)更難的基準(zhǔn)測(cè)試時(shí),他的回答是,他正在著手設(shè)計(jì)一個(gè)最難的基準(zhǔn)測(cè)試。這聽(tīng)起來(lái)非常有趣。
此外,人工智能文化的另一個(gè)變化是朝著高度多任務(wù)模型(highly multi-task models)的方向發(fā)展。過(guò)去,每個(gè) NLP 任務(wù)都需要一個(gè)單獨(dú)的模型。而現(xiàn)在,我們有一個(gè)單一的模型試圖完成許多不同的任務(wù)。這導(dǎo)致了一些奇怪的現(xiàn)象,比如模型可能是一個(gè)競(jìng)賽級(jí)別的程序員和數(shù)學(xué)家,但當(dāng)你問(wèn)它 9.11 和 9.8 哪個(gè)更大時(shí),它卻會(huì)說(shuō) 9.11 更大。
這里的挑戰(zhàn)在于,我們需要從多個(gè)維度來(lái)衡量語(yǔ)言模型的表現(xiàn)。由于有如此多的評(píng)估基準(zhǔn)和方法,模型的應(yīng)用場(chǎng)景也非常廣泛,因此很難說(shuō)一個(gè)模型是否嚴(yán)格優(yōu)于另一個(gè)模型。通常情況下,沒(méi)有一個(gè)模型能在所有方面都嚴(yán)格優(yōu)于其他模型。
有時(shí)候我聽(tīng)到的一種觀點(diǎn)是,AI 無(wú)法做到某些事情,因此它沒(méi)有用。但我的看法是,AI 并不需要在所有方面都達(dá)到人類水平。它只需要在少數(shù)幾個(gè)用例中表現(xiàn)出色,就能對(duì)人類非常有用。
最后我想說(shuō)的是,智能和用戶體驗(yàn)是兩個(gè)可以分別改進(jìn)的維度。通常,人們會(huì)嘗試通過(guò)讓語(yǔ)言模型在數(shù)學(xué)和編碼等方面表現(xiàn)更好來(lái)改進(jìn)它,但這并不意味著你會(huì)得到一個(gè)用戶體驗(yàn)更好的模型。
也許我們文化中的最后一個(gè)轉(zhuǎn)變是朝著更大規(guī)模的團(tuán)隊(duì)合作發(fā)展。比如在 2015 年,兩個(gè)人可以寫(xiě)出一篇開(kāi)創(chuàng)性的論文,這篇論文甚至可能是被引用次數(shù)最多的之一。而如今,你需要一個(gè)團(tuán)隊(duì)來(lái)完成這樣的工作。比如谷歌的 Gemini 開(kāi)發(fā)團(tuán)隊(duì),人員名單就占滿了一整頁(yè)。
未來(lái)展望
接下來(lái)我來(lái)談?wù)勅斯ぶ悄芪磥?lái)會(huì)繼續(xù)發(fā)展的方向。
其中一個(gè)讓我非常興奮的方向是 AI 在科學(xué)和醫(yī)療領(lǐng)域的應(yīng)用。我認(rèn)為,作為人類,我們?cè)谘芯糠矫孢€算不錯(cuò),但我們有很多局限性。
比如,我們無(wú)法記住互聯(lián)網(wǎng)上的所有信息,我們會(huì)感到疲倦,會(huì)分心等等。我認(rèn)為 AI 在科學(xué)和醫(yī)療創(chuàng)新方面確實(shí)有很大的潛力,因?yàn)樗鼛缀蹩梢詫W(xué)習(xí)任何東西,而且不會(huì)感到疲倦,可以長(zhǎng)時(shí)間工作,對(duì)吧?
另一個(gè)方向是更加注重事實(shí)的 AI。目前,像 ChatGPT 這樣的模型仍然會(huì)出現(xiàn)比我們預(yù)期更多的幻覺(jué)(即生成不準(zhǔn)確或虛構(gòu)的內(nèi)容)。最終,我認(rèn)為我們有可能開(kāi)發(fā)出一種幾乎不會(huì)產(chǎn)生幻覺(jué)的模型,它非常擅長(zhǎng)引用來(lái)源,并且非常精確。
總的來(lái)說(shuō),AI 在科學(xué)、醫(yī)療以及提高事實(shí)準(zhǔn)確性方面的潛力巨大,這些領(lǐng)域?qū)⒗^續(xù)推動(dòng) AI 技術(shù)的發(fā)展。
我認(rèn)為我們將朝著多模態(tài) AI 的方向發(fā)展。文本是一個(gè)非常好的學(xué)習(xí)媒介,因?yàn)樗菍?duì)我們世界的高度壓縮表示。但我們將朝著更融入我們世界的 AI 發(fā)展,比如 Sora 和高級(jí)語(yǔ)音模式。
我認(rèn)為工具使用也將成為另一個(gè)重要的方向。
目前,AI 更像是一個(gè)聊天助手,你可以向它提問(wèn)并獲取答案。但我認(rèn)為,最終我們希望達(dá)到的狀態(tài)是 AI 能夠代表用戶執(zhí)行操作,并且能夠主動(dòng)為用戶提供服務(wù)。
最后,我認(rèn)為我們將看到許多 AI 應(yīng)用落地。我感覺(jué)在技術(shù)的研究階段和實(shí)際部署之間總是存在一定的滯后。例如,Waymo 在舊金山這樣的復(fù)雜駕駛環(huán)境中已經(jīng)運(yùn)行得很好,但谷歌還沒(méi)有將 Waymo 推廣到全球大部分地區(qū)。另一個(gè)例子是,我覺(jué)得現(xiàn)在的 AI 已經(jīng)足夠好,如在餐廳為你點(diǎn)餐,但這一應(yīng)用還沒(méi)有被廣泛采用。
好的,接下來(lái)我將回到第一張圖,也就是 2019 年和 2024 年,下面我們加上一個(gè)五年預(yù)測(cè)。過(guò)去 AI 的能力非常有限,但如今它已經(jīng)非常強(qiáng)大。我對(duì)未來(lái)五年 AI 的發(fā)展感到非常興奮,并鼓勵(lì)大家都去思考這個(gè)問(wèn)題。
最后,我想用這句話結(jié)束:當(dāng)《海底總動(dòng)員》中的 Nemo 不知道下一步該做什么并陷入困境時(shí),Dory 說(shuō):你只需要繼續(xù)游下去。我想說(shuō)的是,你只需要繼續(xù) Scaling。