張俊林:OpenAI o1的價(jià)值意義及強(qiáng)化學(xué)習(xí)的Scaling Law
蹭下熱度談?wù)?OpenAI o1 的價(jià)值意義及 RL 的 Scaling law。
一、OpenAI o1 是大模型的巨大進(jìn)步
我覺(jué)得 OpenAI o1 是自 GPT 4 發(fā)布以來(lái),基座大模型最大的進(jìn)展,邏輯推理能力提升的效果和方法比預(yù)想的要好,GPT 4o 和 o1 是發(fā)展大模型不同的方向,但是 o1 這個(gè)方向更根本,重要性也比 GPT 4o 這種方向要重要得多,原因下面會(huì)分析。
為什么說(shuō) o1 比 4o 方向重要?
這是兩種不同的大模型發(fā)展思路,說(shuō)實(shí)話在看到 GPT 4o 發(fā)布的時(shí)候我是有些失望的,我當(dāng)時(shí)以為 OpenAI 會(huì)優(yōu)先做 o1 這種方向,但是沒(méi)想到先出了 GPT 4o。GPT 4o 本質(zhì)上是要探索不同模態(tài)相互融合的大一統(tǒng)模型應(yīng)該怎么做的問(wèn)題,對(duì)于提升大模型的智力水平估計(jì)幫助不大;而 o1 本質(zhì)上是在探索大模型在 AGI 路上能走多遠(yuǎn)、天花板在哪里的問(wèn)題,很明顯第二個(gè)問(wèn)題更重要。
GPT 4o 的問(wèn)題在于本身大模型的智力水平還不夠高,所以做不了復(fù)雜任務(wù),導(dǎo)致很多應(yīng)用場(chǎng)景無(wú)法實(shí)用化,而指望靠圖片、視頻這類新模態(tài)數(shù)據(jù)大幅提升大模型智力水平是不太可能的,盡管確實(shí)能拓展更豐富的多模態(tài)應(yīng)用場(chǎng)景,但這類數(shù)據(jù)彌補(bǔ)的更多是大模型對(duì)外在多模態(tài)世界的感知能力,而不是認(rèn)知能力。提升大模型認(rèn)知能力主要還要靠 LLM 文本模型,而提升 LLM 模型認(rèn)知能力的核心又在復(fù)雜邏輯推理能力。LLM 的邏輯推理能力越強(qiáng),則能解鎖更多復(fù)雜應(yīng)用,大模型應(yīng)用的天花板就越高,所以不遺余力地提升大模型尤其是文本模型的邏輯能力應(yīng)該是最重要的事情,沒(méi)有之一。
如果 o1 模型能力越做越強(qiáng),則可以反哺 GPT 4o 這種多模態(tài)大一統(tǒng)模型,可以通過(guò)直接用 o1 基座模型替換 GPT 4o 的基座、或者利用 o1 模型生成邏輯推理方面的合成數(shù)據(jù)增強(qiáng) GPT 4o、再或者用 o1 蒸餾 GPT 4o 模型….. 等等,能玩的花樣應(yīng)該有很多,都可以直接提升 GPT 4o 的復(fù)雜任務(wù)解決能力,從而解鎖更復(fù)雜的多模態(tài)應(yīng)用場(chǎng)景。OpenAI 未來(lái)計(jì)劃兩條線,一條是 o1,一條是 GPT 4o,它的內(nèi)在邏輯大概應(yīng)該是這樣的,就是說(shuō)通過(guò) o1 增強(qiáng)最重要的基座模型邏輯推理能力,而再把這種能力遷移到 GPT 4o 這種多模態(tài)通用模型上。
OpenAI o1 的做法本質(zhì)上是 COT 的自動(dòng)化。
我們知道,通過(guò) COT 把一個(gè)復(fù)雜問(wèn)題拆解成若干簡(jiǎn)單步驟,這有利于大模型解決復(fù)雜邏輯問(wèn)題,但之前主要靠人工寫 COT 來(lái)達(dá)成。從用戶提出的問(wèn)題形成樹(shù)的根結(jié)點(diǎn)出發(fā),最終走到給出正確答案,可以想像成類似 AlphaGo 下棋,形成了巨大的由 COT 具體步驟構(gòu)成的樹(shù)形搜索空間,這里 COT 的具體步驟的組合空間是巨大的,人寫的 COT 未必最優(yōu)。如果我們有大量邏輯數(shù)據(jù),是由 <問(wèn)題,明確的正確答案> 構(gòu)成,則通過(guò)類似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 強(qiáng)化學(xué)習(xí),確實(shí)是可以訓(xùn)練大模型快速找到通向正確答案的 COT 路徑的。
而問(wèn)題越復(fù)雜,則這個(gè)樹(shù)的搜索空間越大,搜索復(fù)雜度越高,找到正確答案涉及到的 COT 步驟越多,則模型生成的 COT 就越復(fù)雜,體現(xiàn)在 o1 的速度越慢,生成的 COT Token 數(shù)越多。很明顯,問(wèn)題越復(fù)雜,o1 自己生成的隱藏的 COT 越長(zhǎng),大模型推理成本越高,但效果最重要,成本其實(shí)不是問(wèn)題,最近一年大模型推理成本降低速度奇快,這個(gè)總有辦法快速降下去。
從上面 o1 的做法可以知道 Prompt 工程會(huì)逐漸消亡。
之前解決復(fù)雜問(wèn)題,需要人寫非常復(fù)雜的 Prompt,而 o1 本質(zhì)上是 COT 等復(fù)雜 Prompt 的自動(dòng)化,所以之后是不太需要用戶自己構(gòu)造復(fù)雜 Prompt 的。本來(lái)讓用戶寫復(fù)雜 Prompt 就是不人性化的,所有復(fù)雜人工環(huán)節(jié)的自動(dòng)化,這肯定是大勢(shì)所趨。
Agent 屬于概念火但無(wú)法實(shí)用化的方向,主要原因就在于基座模型的復(fù)雜推理能力不夠強(qiáng)。如果通過(guò)基座模型 Plan 把一個(gè)復(fù)雜任務(wù)分解為 10 個(gè)步驟,哪怕單個(gè)步驟的正確率高達(dá) 95%,要想最后把任務(wù)做對(duì),10 個(gè)環(huán)節(jié)的準(zhǔn)確率連乘下來(lái),最終的正確率只有 59%,慘不忍睹。那有了 o1 是不是這個(gè)方向就前途坦蕩?也是也不是,o1 的 Model Card 專門測(cè)試了 Agent 任務(wù),對(duì)于簡(jiǎn)單和中等難度的 Agent 任務(wù)有明顯提升,但是復(fù)雜的、環(huán)節(jié)多的任務(wù)準(zhǔn)確率還是不太高。就是說(shuō),不是說(shuō)有了 o1 Agent 就現(xiàn)狀光明,但是很明顯 o1 這種通過(guò) Self Play 增強(qiáng)邏輯推理能力的方向應(yīng)該還有很大的發(fā)展?jié)摿?,從這個(gè)角度講說(shuō) Agent 未來(lái)前途光明問(wèn)題應(yīng)該不大。
OpenAI 很多時(shí)候起到一個(gè)行業(yè)指路明燈的作用,往往是第一個(gè)證明某個(gè)方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括這次的 o1),然后其他人開(kāi)始瘋狂往這個(gè)方向卷,到后來(lái)甚至卷的速度太快把 OpenAI 都甩到后面吃尾氣。典型例子就是 Sora,如果 OpenAI 不是出于阻擊競(jìng)爭(zhēng)對(duì)手秀一下肌肉,大家都沒(méi)有意識(shí)到原來(lái)這個(gè)方向是可以走這么遠(yuǎn)的,但當(dāng)意識(shí)到這一點(diǎn)后,只要你專一地卷一個(gè)方向,方向明確且資源聚焦,是可能趕超 OpenAI 的,目前國(guó)內(nèi)外各種視頻生成模型有些甚至可能已經(jīng)比 Sora 好了,Sora 至今仍然是期貨狀態(tài),主要 OpenAI 想做的方向太多,資源分散導(dǎo)致分到具體一個(gè)方向的資源不夠用,所以越往后發(fā)展期貨狀態(tài)的方向越多,也讓人覺(jué)得盡顯疲態(tài)。
OpenAI o1 等于給大家又指出了一個(gè)前景光明的方向,估計(jì)后面大家又開(kāi)始都往這個(gè)方向卷。我覺(jué)得卷這個(gè)方向比去卷 GPT 4o 和視頻生成要好,雖然具體怎么做的都不知道,但是大方向清楚且效果基本得到證明,過(guò)半年肯定頭部幾家都能摸清具體技術(shù)追上來(lái),希望能再次讓 OpenAI 吃尾氣。而且這個(gè)方向看上去資源耗費(fèi)應(yīng)該不會(huì)特別大,偏向算法和數(shù)據(jù)一些,數(shù)據(jù)量規(guī)模估計(jì)不會(huì)特別巨大,卷起來(lái)貌似成本低一些。這是個(gè)卷的好方向。
二、預(yù)訓(xùn)練 Scaling Law 的來(lái)源及 O1 提到的 RL Scaling law
粗分的話,大語(yǔ)言模型最基礎(chǔ)的能力有三種:語(yǔ)言理解和表達(dá)能力、世界知識(shí)存儲(chǔ)和查詢能力以及邏輯推理能力(包括數(shù)學(xué)、Coding、推理等理科能力,這里 Coding 有一定的特殊性,是語(yǔ)言能力和邏輯摻雜在一起的混合能力,Coding 從語(yǔ)言角度可以看成一種受限的自然語(yǔ)言,但是混雜著復(fù)雜的內(nèi)在邏輯問(wèn)題。從語(yǔ)言角度看,Coding 貌似是容易解決的,從邏輯角度看又相對(duì)難解決??傊?,Coding 目前看是除了語(yǔ)言理解外,大模型做得最好的方向)。
語(yǔ)言理解和表達(dá)是 LLM 最強(qiáng)的能力,初版 ChatGPT 就可以完全勝任各種純語(yǔ)言交流的任務(wù),基本達(dá)到人類水準(zhǔn),目前即使是小模型,在這方面比大模型能力也不弱;世界知識(shí)能力雖說(shuō)隨著模型規(guī)模越大效果越好,但幻覺(jué)問(wèn)題目前無(wú)法根治,這是制約各種應(yīng)用的硬傷之一;邏輯推理能力一直都是 LLM 的弱項(xiàng),也是最難提升的方面,從 GPT 4 開(kāi)始往后,如何有效并大幅提升 LLM 的邏輯推理能力是體現(xiàn)不同大模型差異和優(yōu)勢(shì)的最核心問(wèn)題。所以,大模型最重要的一個(gè)是世界知識(shí)方面如何有效消除幻覺(jué),一個(gè)是如何大幅提升復(fù)雜邏輯推理能力。語(yǔ)言能力已不是問(wèn)題。
從大模型的基礎(chǔ)能力,我們?cè)僬f(shuō)回已經(jīng)被談濫了的大模型 Scaling law?,F(xiàn)在普遍認(rèn)為通過(guò)增加數(shù)據(jù)和模型規(guī)模來(lái)提升大模型效果的 Scaling law 模式,其增長(zhǎng)速度在放緩。其實(shí)我們對(duì)照下大模型的三個(gè)基礎(chǔ)能力的能力來(lái)源,基本就能看出來(lái)這是為啥(以下是我猜的,不保真):
本質(zhì)上大模型的能力來(lái)源都來(lái)自訓(xùn)練數(shù)據(jù),包含能體現(xiàn)這方面能力的訓(xùn)練數(shù)據(jù)越多,則這種能力越強(qiáng)。語(yǔ)言能力不用說(shuō)了,任意一份預(yù)訓(xùn)練數(shù)據(jù),其中都包含相當(dāng)比例的語(yǔ)言的詞法句法等成分,所以訓(xùn)練數(shù)據(jù)中體現(xiàn)語(yǔ)言能力的數(shù)據(jù)是最多的,這也是為何大模型的語(yǔ)言能力最強(qiáng)的原因。
而數(shù)據(jù)中包含的世界知識(shí)含量,基本是和訓(xùn)練數(shù)據(jù)量成正比的,明顯數(shù)據(jù)量越多,包含的世界知識(shí)越多,Scaling law 是數(shù)據(jù)中包含的世界知識(shí)含量關(guān)系的一個(gè)體現(xiàn),但是這里有個(gè)問(wèn)題,大模型見(jiàn)過(guò)越多數(shù)據(jù),則新數(shù)據(jù)里面包含的新知識(shí)比例越小,因?yàn)楹芏嘀R(shí)在之前的數(shù)據(jù)里都見(jiàn)過(guò)了,所以隨著數(shù)據(jù)規(guī)模增大,遇到的新知識(shí)比例就越低,在世界知識(shí)方面就體現(xiàn)出 Scaling law 的減緩現(xiàn)象。
為啥邏輯推理能力最難提升?因?yàn)槟荏w現(xiàn)這方面的自然數(shù)據(jù)(代碼、數(shù)學(xué)題、物理題、科學(xué)論文等)在訓(xùn)練數(shù)據(jù)中比例太低,自然大模型就學(xué)不好,盡管通過(guò)不斷增加數(shù)據(jù),能增加邏輯推理方面數(shù)據(jù)的絕對(duì)數(shù)量,但因?yàn)檎急忍?,這方面提升的效果和增加的總體數(shù)據(jù)規(guī)模就不成比例,效果也不會(huì)太明顯,就體現(xiàn)在邏輯推理能力 Scaling law 看上去的放緩。這是很自然的。這也是為何現(xiàn)在為了提高模型邏輯能力,往往在預(yù)訓(xùn)練階段和 Post-training 階段,大幅增加邏輯推理數(shù)據(jù)占比的原因,且是有成效的。
所以目前大模型的核心能力提升,聚焦到不斷通過(guò)合成數(shù)據(jù)等方式構(gòu)造更多比例的邏輯推理數(shù)據(jù)上來(lái)。但是大部分邏輯推理數(shù)據(jù)的形式是 < 問(wèn)題,正確答案 >,缺了中間的詳細(xì)推理步驟,而 o1 本質(zhì)上是讓大模型學(xué)會(huì)自動(dòng)尋找從問(wèn)題到正確答案的中間步驟,以此來(lái)增強(qiáng)復(fù)雜問(wèn)題的解決能力。
OpenAI o1 提到了關(guān)于 RL 在訓(xùn)練和推理時(shí)候的 Scaling law,并指出這與預(yù)訓(xùn)練時(shí)候的 Scaling law 具有不同特性。很明顯,如果 o1 走的是 MCTS 搜索技術(shù)路線,那么把 COT 拆分的越細(xì)(增加搜索樹(shù)的深度),或提出更多的可能選擇(節(jié)點(diǎn)的分支增多,就是說(shuō)樹(shù)的寬度越寬),則搜索空間越大,找到好 COT 路徑可能性越大,效果越好,而訓(xùn)練和推理的時(shí)候需要算力肯定越大??瓷先ビ兄ЧS著算力增長(zhǎng)而增長(zhǎng)的態(tài)勢(shì),也就是所謂的 RL 的 Scaling law。這其實(shí)是樹(shù)搜索本來(lái)應(yīng)有之義,我倒覺(jué)得把這個(gè)稱為 RL 的 Scaling law 有點(diǎn)名不副實(shí)。