OpenAI聯(lián)合創(chuàng)始人John Schulman:OpenAI 大模型史,RLHF,AGI 2027 ...
隨著前不久Ilya Sutskever 從 OpenAI的離職,OpenAI首席架構師和著名強化學習(Reinforcement Learning, 或RL)專家John Schulman ?博士成為OpenAI 現(xiàn)存最主要具有技術背景的創(chuàng)始人。最近,Schulman博士接受了著名的科技播客主持人 Dwarkesh Patel 的專訪。他解密了OpenAI 大模型發(fā)展史,介紹了OpenAI怎樣訓練和產(chǎn)品化大模型,尤其是后訓練階段如何通過RL提升大模型的泛化能力和實用性。Schulman分享了他對大模型伸縮律(Scaling Law) ,大模型的推理能力,大模型強化學習,未來大模型AI與人類的協(xié)作,以及大模型安全和對齊等問題的理解。此外,Schulman還討論了多模態(tài)數(shù)據(jù)處理、用戶界面設計、模型泛化能力等話題。他預測未來五年大模型AI的顯著進步會使得他的工作被取代。特別是Schulman 博士回答了下面的一些有趣的問題:
- OpenAI 是怎么訓練大模型的?預訓練(Pre-trainig)和后訓練(Post-Training) 對大模型能力的提升各起什么作用?GPT-4是因為什么原因才使其Elo-分遠遠高于之前的模型?為什么他覺得現(xiàn)在OpenAI 內(nèi)部算力分配很不合理?
- OpenAI 最初大模型服務的產(chǎn)品形態(tài)都有哪些?什么時候OpenAI將對話機器人 (即ChatGPT) 作為大模型產(chǎn)品的主要形態(tài)?為什么最后將網(wǎng)頁瀏覽功能從ChatGPT中賜除
- 大模型的什么問題讓他非常興奮?是什么時候他的團隊將研究方向徹底轉向大模型?
- 大模型伸縮律 (Scaling Law) 怎樣解釋?模型規(guī)模對智能的體現(xiàn)有什么影響?為什么模型越大,樣本效率越高
- 大模型也會有工具收斂 (Instrumental Convergence) 現(xiàn)象嗎
- 接下來大模型的能力在什么方面會有突破?大模型是否會更有能力從錯誤中恢復或處理邊角問題?大模型有驅動力和目標嗎?大模型看似具備的推理能力是怎樣獲得的?
- 對于強化學習 (RL),獎賞 (Reward) 是否足夠了 (Is Reward Enough?
- 強化學習很復雜,做好強化學習的研究需具備怎么樣的特質(zhì)?在大模型強化學習研究中,經(jīng)驗方法或第一原理哪個更重要?
- 當今的各個大模型為什么看起來都是千篇一律?大模型回答結果的單調(diào)、正式和冗長等問題是什么因素造成的?是因為RLHF
?(基于人工反饋的強化學習) ,數(shù)據(jù)標注,還是損失函數(shù)? - 大模型的競爭護城河 (Moat) 是什么
- 人在大模型AI應用中扮演什么角色?AI 取代人類工作,比如運營一家公司,的條件是什么?像RLHF這樣的技術將在其中扮演怎樣的角色?
- OpenAI 即將發(fā)布的Model Spec 是一個什么文件?
- 上下文長度 (Context Length) 是否是大模型推理任務的瓶頸?
- 大模型發(fā)展到GPT-4 是否快到頂了?現(xiàn)在大模型的發(fā)展碰到數(shù)據(jù)墻(Data Wall) 了嗎?
- 算力對大模型 AI 發(fā)展的影響體現(xiàn)在哪些方面?GPT-5 在學習能力和規(guī)模上有什么值得期待?對于今后GPT-6 或 GPT-7 級別的模型, 我們是需要給它們更多的書面指示,還是需要對他們設置一些潛在偏好?
- 大模型研究的下一步方向是什么?是基于更多多模態(tài)數(shù)據(jù)來訓練更好的模型,還是基于長程強化學習,使得大模型作為智能體來更好的集成工作流
- 怎么看待公眾對目前 AI 特別是大模型研究和文獻的抱怨
通過這篇訪談,我們得以一窺AI領域的工程前沿現(xiàn)狀。這將引發(fā)我們對于人工智能未來影響的思考,以及讓我們考量如何準備迎接這一變革。
這是我和OpenAI聯(lián)合創(chuàng)始人兼首席架構師John Schulman的一集節(jié)目。
我們討論了:
- 預訓練、后訓練以及未來的能力
- 2025年通用人工智能計劃??
- 教會模型推
- 通往ChatGPT的道
- 成為一名優(yōu)秀的強化學習研究員的要
- 保持人類參
- 研究現(xiàn)狀、平臺期和護城河
預訓練、后訓練以及未來的能力
Dwarkesh:今天我有幸與John Schulman交談,他是OpenAI的聯(lián)合創(chuàng)始人之一,領導著這里的后訓練團隊。他還領導了ChatGPT的創(chuàng)建,并是許多在AI和RL領域最重要、引用最廣泛的論文的作者,包括PPO等。John,很高興能和你聊天。感謝你來參加播客。
Schulman:感謝邀請我參加播客。我是你的忠實粉絲。
Dwarkesh:謝謝你這么說。這是我的第一個問題。我們有預訓練和后訓練之間的區(qū)別。讓我們超越損失函數(shù)和訓練機制實際發(fā)生的事情。從概念上退一步,預訓練到底創(chuàng)造了什么樣的東西?后訓練又在此基礎上做了什么?
Schulman:在預訓練中,你基本上是在訓練模仿互聯(lián)網(wǎng)或網(wǎng)絡上的所有內(nèi)容,包括網(wǎng)站和代碼等。所以你得到的模型可以生成看起來像互聯(lián)網(wǎng)上隨機網(wǎng)頁的內(nèi)容。模型還被訓練以最大化可能性,它必須對一切進行概率估計。
目標基本上是預測下一個標記,給定之前的標記。標記就像單詞,或者是單詞的一部分。由于模型必須對它進行概率估計——我們正在訓練以最大化對數(shù)概率——它最終會變得非常校準。它不僅可以生成所有網(wǎng)絡內(nèi)容,還可以對一切分配概率。
基礎模型可以有效地承擔所有這些不同的角色或生成所有不同種類的內(nèi)容。當我們進行后訓練時,我們通常針對的是更狹窄的行為范圍,我們希望模型表現(xiàn)得像一種聊天助手。這是一個更具體的人物設定,它試圖變得有用。它不是試圖模仿一個人。它在回答你的問題或執(zhí)行你的任務。我們正在優(yōu)化一個不同的目標,那就是更多地產(chǎn)生人類會喜歡并發(fā)現(xiàn)有用的輸出,而不是僅僅模仿來自網(wǎng)絡的原始內(nèi)容。
Dwarkesh:也許我應該退一步,問這個問題?,F(xiàn)在我們有這些模型,它們作為聊天機器人表現(xiàn)得相當不錯。從當前這些過程的工作方式退一步來看,你認為到年底發(fā)布的模型將能夠做些什么?如果我們將一切推向未來五年,你認為進步會是什么樣子?
Schulman:五年后,這些模型會好得多。
Dwarkesh:在哪些方面?
Schulman:即使在一兩年之內(nèi),我們會發(fā)現(xiàn)模型能夠執(zhí)行比現(xiàn)在更復雜的任務。例如,你可以想象讓模型執(zhí)行整個編碼項目,而不僅僅是給你一個關于如何編寫函數(shù)的建議。你可以想象模型接收高層次的編碼指令,然后獨立地編寫任何文件,測試它,并查看輸出。它甚至可能還會迭代一下。所以就是更復雜的任務。
Dwarkesh:根本上的解鎖是它能夠連貫地行動足夠長的時間來編寫多個文件的代碼?從現(xiàn)在到那時有什么變化?
Schulman:我會說這將來自一些組合,訓練模型執(zhí)行像這樣的更難任務。大部分訓練數(shù)據(jù)更像是一次執(zhí)行一個步驟。我期望我們更多地訓練模型來執(zhí)行這些更長的項目。
這是任何類型的訓練,比如做強化學習,學習如何執(zhí)行這些任務。無論你是在最終輸出時監(jiān)督它,還是在每個步驟中監(jiān)督它,任何執(zhí)行這些長期項目的培訓都將使模型變得更好。
由于整個領域相當新,我會說在這個類型的培訓中有很多容易摘取的果實。這是一件事。我還期望隨著模型的改進,它們會變得更擅長從錯誤中恢復或處理邊緣情況。當出現(xiàn)問題時,它們會知道如何從中恢復。
模型將更加樣本高效。你不必收集大量數(shù)據(jù)來教它們?nèi)绾位氐秸墶V恍枰稽c數(shù)據(jù)或者它們從其他能力中的泛化就足以讓它們回到正軌。當前的模型可能會陷入困境并迷失方向。
Dwarkesh:我想具體了解泛化是如何幫助你回到正軌的。你能多說一些嗎?我不太確定這兩個概念是如何聯(lián)系起來的。
Schulman:對,它們不是直接聯(lián)系的。你通常有一些數(shù)據(jù)可以完成所有事情。如果你收集了一個多樣化的數(shù)據(jù)集,你就會在其中得到一切。如果你有泛化能力很強的模型——即使只有幾個回到正軌的例子,或者在預訓練數(shù)據(jù)中有幾個模型回到正軌的例子——模型將能夠從它所看到的其他事物泛化到當前情況。
如果你有較弱的模型,你可能可以通過足夠的數(shù)據(jù)讓它們做幾乎所有事情。但你可能必須在特定領域或技能上投入大量努力。
而對一個更強的模型來說,它可能不需要任何訓練數(shù)據(jù)或任何努力就能做正確的事情。
Dwarkesh:現(xiàn)在這些模型可以連貫地工作五分鐘。我們希望它們能夠執(zhí)行人類需要一個小時來完成的任務,然后是一周,一個月,等等。
要達到每一個這些基準,是否每個都需要10倍的計算量,類似于當前預訓練的擴展法則?還是說這將是一個更加簡化的過程,你已經(jīng)更加樣本高效,你可以直接達到執(zhí)行任務的年限?
Schulman:從高層次上講,我同意長期任務將需要更多的模型智能才能做好。它們將更昂貴地訓練。我不確定我會期望一個真正清晰的擴展法則,除非你以非常謹慎的方式設置它,或者以某種方式設計實驗??赡軙幸恍┫嘧?,一旦你達到某個水平,你就可以處理更長期的任務。
例如,當人們?yōu)椴煌臅r間尺度做計劃時,我不確定他們是否使用完全不同的機制。我們可能使用相同的心智機制來思考一個月后、一年后或一百年后的事情。我們實際上并不進行某種強化學習,需要擔心一個覆蓋那個時間尺度的折扣因子等等。
使用語言,你可以描述所有這些不同的時間尺度,然后你可以做計劃。在當下,你可以嘗試朝著你的目標取得進展,無論是一個月后還是10年后。我不知道這是否是一個相變,但我可能期望模型也是如此,其中可能有一些能力在多個尺度上工作。
Dwarkesh:如果我說錯了請糾正我。似乎你在暗示,現(xiàn)在我們有的模型在每個標記的基礎上相當聰明。它們可能在每個標記的基礎上和最聰明的人類一樣聰明。阻止它們像它們本可以的那樣有用的事情是,五分鐘后,它們不會以一種連貫的方式繼續(xù)編寫你的代碼,這與你對項目或類似事物的更廣泛目標保持一致。
如果一旦你開始這個長期RL訓練機制,它立即解鎖了你長時間連貫的能力,我們應該預測一旦那個機制被解鎖,就會出現(xiàn)人類水平的東西嗎?如果不是,那么在我們能夠計劃一年并執(zhí)行那么長時間的項目之后,還有什么剩下的?
Schulman:一旦我們進入那個機制或進步的速度會如何,目前還不太清楚。這仍然是不確定的。我不期望通過做任何這樣的訓練就能立即解決一切問題。模型還會有其他一些缺陷,導致它們陷入困境或做出比人類更糟糕的決策。我不期望這一個小小的東西會解鎖所有能力。但是,長期任務能力的提高可能會有很大的進步。
Dwarkesh:你會說這是合理的嗎?這看起來很有可能,還有其他原因可能導致瓶頸嗎?我也很好奇這些瓶頸的本質(zhì)是什么。它已經(jīng)擁有所有預訓練的表示。現(xiàn)在,由于長期RL,它可以長時間連貫地工作。還剩下什么?
Schulman:也許還有其他一些人類專家在執(zhí)行不同任務時帶來的經(jīng)驗,比如擁有品味或更好地處理模糊性。如果我們想做研究,我可以想象這些考慮會發(fā)揮作用。顯然,模型的實用性限制和它能否使用UI、與物理世界互動或訪問事物將會有一些現(xiàn)實的限制。所以可能會有很多現(xiàn)實的障礙,這些障礙可能不會持續(xù)很長時間,但最初會減緩進展。
Dwarkesh:讓我們談談為這些AI設計的網(wǎng)頁。一旦它們經(jīng)過更多多模態(tài)數(shù)據(jù)的訓練,它們會與我們?yōu)槿祟愒O計的網(wǎng)頁有什么不同嗎?需要什么UI?它們將如何彌補它們的優(yōu)勢和劣勢?這與我們目前為人類設計的UI有什么不同?
Schulman:這是一個有趣的問題。我預計,一旦視覺能力有所提高,模型將能夠使用為人類設計的網(wǎng)頁,僅通過視覺。所以,沒有必要立即改變它們。
另一方面,將會有很多網(wǎng)站從AI的使用中受益匪淺。我們可能希望為AI設計更好的用戶體驗。我不確定確切的含義是什么。假設我們的模型在文本模式上仍然比從圖像中讀取文本更好,你可能希望為模型提供良好的基于文本的表示。
你也希望有一個很好的指示,說明所有可以交互的事物是什么。但我不期望網(wǎng)絡會完全重新設計,到處都是API。我們可以讓模型使用與人類相同的UI。
Dwarkesh:我猜這是語言模型的大教訓,對吧?它們可以在與人類相似的條件下行動。
我想回到你之前提到的一個觀點,即這個過程可能因為可以從預訓練經(jīng)歷中泛化而更樣本高效,從而擺脫不同場景中的困境。你看到過的這種泛化和轉移的最有力證據(jù)是什么?
關于模型未來能力的大問題似乎是正在發(fā)生的泛化有多少。有什么對你來說感覺非常令人信服的東西嗎?你有沒有看到模型學會了一些你不希望它從泛化中學到的東西?
Schulman:在后訓練中,肯定有一些有趣的泛化實例。
一個眾所周知的現(xiàn)象是,如果你用英語數(shù)據(jù)完成所有的微調(diào),模型會自動在其他語言中表現(xiàn)良好。所以如果你用英語數(shù)據(jù)訓練助手,它在西班牙語中也會做出合理的反應。有時你可能會在用英語回復還是用西班牙語回復方面得到錯誤的行為。通常你會得到正確的行為,意味著你讓它用西班牙語回應西班牙語查詢。這是模型正確、有幫助的人物設定,然后自動在不同語言中做正確事情的一個有趣的泛化實例。
我們在多模態(tài)數(shù)據(jù)上看到了一些這方面的版本,如果你只進行文本微調(diào),你也會在圖像上得到合理的行為。在ChatGPT早期,我們試圖解決模型理解自身局限性的問題。早期版本的模型會認為它可以給你發(fā)電子郵件或給你叫優(yōu)步什么的。模型會嘗試扮演助手,并說“哦,當然,我發(fā)了那封電子郵件”。顯然它沒有。
所以我們開始收集一些數(shù)據(jù)來解決這些問題。我們發(fā)現(xiàn),即使是混合其他所有數(shù)據(jù),一點點數(shù)據(jù)也能起到作用。我不記得確切有多少個例子,但像30個例子這樣的東西。我們有相當少的例子展示了這種一般行為,解釋了模型沒有這個能力。這很好地泛化到了我們沒有訓練的各種能力上。
Dwarkesh:我仍然想回到這個問題,因為我不確定我理解了。假設你有一個模型,它被訓練成能夠長時間保持連貫性。拋開可能存在或不存在的其他瓶頸,明年你可能會擁有潛在的人類水平的模型嗎?我想象的是一個你與之互動就像與同事互動一樣的模型,它和與人類同事互動一樣好。你可以告訴它們?nèi)プ鲆恍┦虑椋鼈兙蜁ネ瓿?。你認為可能的這種能力有什么問題?
Schulman:很難確切地說缺陷會是什么。當你今天與模型交談時,除了長期連貫性之外,它們還有各種弱點。它們也很難真正深入思考事情或關注你要求它們做的事情。我不認為僅僅提高連貫性就足以達到通用人工智能(AGI)。我想我無法確切地表達出主要的弱點是什么,會阻止它們成為一個完全功能齊全的同事。
2025年通用人工智能計劃
Dwarkesh:那么看起來,你應該計劃很快就擁有通用人工智能的可能性。
Schulman:我認為這是合理的。
Dwarkesh:所以如果沒有其他瓶頸。在接下來的一年左右,你就擁有了通用人工智能。計劃是什么?
Schulman:如果通用人工智能比預期來得早得多,我們肯定要小心。我們可能想在訓練和部署上稍微放慢一點,直到我們相當確定我們知道我們可以安全地處理它。我們需要很好地掌握它將做什么以及它能做什么。如果它比預期早得多發(fā)生,我們必須非常小心。我們在很多方面的理解仍然是基礎的。
Dwarkesh:小心意味著什么?假設你已經(jīng)很小心了,對吧?你在部署之前進行這些評估。
Schulman:也許這意味著不訓練更聰明的版本,或者在你訓練時非常小心。你可以確保它被適當?shù)馗綦x,等等。也許這意味著不大規(guī)模部署它,或者小心地考慮你部署它的規(guī)模。
Dwarkesh:讓我們來玩一個場景。明年通用人工智能就實現(xiàn)了。你沒有訓練一個更聰明的系統(tǒng),但你以一種相對有度的方式部署它。假設發(fā)展并不特定于OpenAI。通用人工智能結果比我們預期的要容易得多,這就是為什么它發(fā)生了。所以你稍等一下再部署?,F(xiàn)在其他公司擁有類似水平的能力。接下來會發(fā)生什么?當你等待部署時,你在等什么?在這個場景中,每家公司都在做什么?
Schulman:博弈論有點難以思考。首先,我不認為這會在明年發(fā)生,但進行這樣的對話仍然是有用的??赡苁窃趦傻饺陜?nèi)。
Dwarkesh:兩到三年仍然相當快。
Schulman:仍然相當快。你可能需要一些協(xié)調(diào)。每個人都需要同意對部署或進一步訓練設定一些合理的限制,這樣才行得通。否則,你會有競賽動態(tài),每個人都總是試圖保持領先,這可能需要妥協(xié)安全。你可能需要在進行這種訓練的較大實體之間進行一些協(xié)調(diào)。
Dwarkesh:你將協(xié)調(diào)暫停部署,直到什么確切的事情?直到你弄清楚模型中發(fā)生了什么?
Schulman:我們可以暫停進一步訓練。我們可以暫停部署。我們可以避免一些可能更危險的訓練類型。我們將為每個人應該做什么來限制這些事情設定一些合理的規(guī)則。
Dwarkesh:限制到什么目的?在某個時候,這種智能內(nèi)部的潛在能量將被釋放。假設兩年后我們得到了通用人工智能?,F(xiàn)在每個人都很恐慌。人工智能公司已經(jīng)暫停了。我們計劃等到什么時候?
Schulman:我沒有辦法很好地回答這個問題。如果我們能像那樣進行協(xié)調(diào),那將是一個相當好的情景。構建這些模型非常資本密集,有許多復雜的部分。這并不像每個人都要在家里重新創(chuàng)造這些東西。
鑒于能夠訓練最大模型的實體數(shù)量相對較少,進行協(xié)調(diào)似乎是可能的。我不確定如何長時間維持這種平衡,但我認為如果我們到達那個地步,我們將處于一個可以的位置。
Dwarkesh:我們會嗎?我仍然很好奇,因為我不確定接下來會發(fā)生什么。從根本上說,好處是你將其推送到服務器,現(xiàn)在我們有了一批智能,或者它們可以自己推送到服務器。現(xiàn)在我們已經(jīng)協(xié)調(diào)了每個人,但我不確定在這個新世界中我們接下來要做什么。為什么這為我們設定了一個好結果?
Schulman:如果我們能讓每個人都合理協(xié)調(diào),并且我們覺得我們能夠很好地解決關于一致性的技術問題,那么我們就可以部署。我們將能夠部署真正智能的人工智能,作為人們意志的延伸,同時也防止它們被災難性地濫用。那將是很棒的。我們可以安全地部署這些系統(tǒng),它將帶來大量的繁榮和更快速的科學進步階段。這就是好情景的樣子。
Dwarkesh:這很有道理。我對幾年后的情況感到好奇。在最好的情況下,所有這些參與者都同意暫停,直到我們弄清楚我們正在構建的是對齊的系統(tǒng),它們本身不會試圖發(fā)動政變,也不會使別人這樣做。那證明會是什么樣子?那證據(jù)會是什么樣子?
Schulman:如果我們能部署系統(tǒng),這些系統(tǒng)是增量的,比之前的系統(tǒng)更聰明,那會更安全。我希望事情發(fā)展的方式不是每個人都必須協(xié)調(diào),鎖定事物,并安全地釋放事物。這將導致潛在能量的巨大積累。
我寧愿我們所有人都持續(xù)不斷地發(fā)布比之前更好的東西。我們將在確保我們對每個差異都對安全和一致性的改進有信心的同時這樣做,這與能力的提升相對應。如果事情開始看起來有點可怕,那么我們就能夠放慢速度。這就是我所希望的。
如果有更多的不連續(xù)跳躍,就會有一個“你怎么知道你要釋放的東西是安全的”的問題。我無法給出一個通用的答案。然而,你可能想要做的事情類型,以使這更可接受,將是大量測試模擬部署,某種形式的紅隊。你希望以比你在現(xiàn)實世界中計劃做的事情更有可能失敗的方式去做。
你想要有一個非常好的監(jiān)控系統(tǒng),以便如果部署的系統(tǒng)開始出現(xiàn)問題,你可以立即檢測到它。也許你有東西在監(jiān)視部署的人工智能,監(jiān)視它們在做什么,并尋找麻煩的跡象。
你想要一些深度防御。你想要一些組合,“模型本身似乎表現(xiàn)得非常好,對一切都有無可挑剔的道德信心”,并且“我相當有信心它極其抵抗任何嚴重的濫用”。你也希望有非常好的監(jiān)控在它上面,這樣你就可以檢測到任何不可預見的麻煩。
Dwarkesh:當你在做長期RL或者最終開始做的時候,你在跟蹤什么?你怎么能在你廣泛部署這些系統(tǒng)之前注意到這種不連續(xù)的跳躍?
Schulman:你會希望在訓練過程中進行大量的評估。
Dwarkesh:具體來說呢?在進行長期RL(強化學習)訓練時,是否有必要知道這可能發(fā)生?或者這只是一個可能性很低的事情?你怎么看待這個問題?
Schulman:如果在進行這類訓練時,你看到了許多可能令人擔憂的能力,你會非常小心。我會說,現(xiàn)在我們還不需要害怕,因為現(xiàn)在讓模型做出任何連貫的事情都很困難。
如果它們開始變得非常好,我們會認真對待這些問題。我們會進行大量評估,測試它們是否有不當行為,主要是為了模型的一致性。我們想要檢查它們不會反對我們或類似的事情。你可能還想尋找能力上的不連續(xù)跳躍。你會希望對模型的能力進行大量評估。
你還要確保你訓練的內(nèi)容沒有任何理由讓模型反對你。這似乎不是最難做的事情。我們用RLHF(強化學習中的人類反饋)訓練它們的方式,感覺很安全,盡管模型非常智能。模型只是試圖產(chǎn)生一個人類會喜歡的信息。它對世界上其他任何事情都不關心,只關心它產(chǎn)生的文本是否得到認可。
顯然,如果模型需要執(zhí)行一系列涉及工具的長期動作,那么它可能有一些動機去做很多對人類來說沒有意義的瘋狂事情,以產(chǎn)生最終結果。然而,它不一定有動機去做除了在最后產(chǎn)生非常高質(zhì)量的輸出之外的任何事情。
有一些關于工具性收斂的舊觀點,模型想要接管世界,這樣它就可以在最后產(chǎn)生一些了不起的代碼。如果你要求它為你編寫一個Flask應用程序,它會說“哦,是的,首先我需要接管世界。在某種程度上,很難想象為什么對于像編寫應用程序這樣明確指定的任務,你會想先接管世界。當然,如果你分配了一個任務,比如“賺錢”,那么作為工具性目標,可能會導致一些惡意行為。
教會模型推理
Dwarkesh:在我們回到那個話題之前,讓我們退一步,談談今天的RLHF系統(tǒng)和一切。我確實想跟進那個觀點,因為它很有趣。
以今天的RLHF及其影響這些模型的方式,你如何從人類心理學的角度來描述它?它是驅動力嗎?是目標嗎?是沖動嗎?在心理學上,它是什么樣的事情?它在哪些方面正在改變?
不僅僅是聊天機器人的角色,還有“不要那樣說,用另一種方式說”或“不要發(fā)布那種類型的輸出”。
Schulman:可能有一些與人類中的驅動力或目標的類比。你試圖引導模型朝向特定狀態(tài)集,而不是其他狀態(tài)。我認為我們對驅動力或目標的概念還有其他元素,比如你實現(xiàn)它時的滿足感。這些東西更多地與學習算法有關,而不是模型在運行時所做的事情,那時你只有一個固定的模型。
可能有一些類比,盡管我不知道它有多接近。從某種意義上說,模型確實以某種有意義的方式擁有驅動力和目標。在RLHF的情況下,你試圖最大化人類的認可,通過獎勵模型來衡量,模型只是試圖產(chǎn)生人們會喜歡并判斷為正確的東西。
Dwarkesh:我聽說過兩種關于使用內(nèi)部獨白來提高推理能力的想法。至少公開地,我已經(jīng)看到了兩種想法,我很好奇哪一個你認為更有希望。
一種是模型從它在許多可能的思維軌跡上的輸出中學習,并學會遵循導致正確答案的那一個。然后在部署前對其進行訓練。另一種是你在部署時使用大量計算進行推理。這種方法涉及模型在部署時自言自語。
當模型真正擅長推理時,你期望哪一種更接近模型的訓練方式?是因為它只是做了大量推理云?還是僅僅因為你已經(jīng)訓練它在這方面做得好?
Schulman:你可以將推理定義為需要在測試時進行某種計算或某種演繹的任務。根據(jù)定義,推理將是需要一些測試時計算和逐步計算的任務。另一方面,我也期望通過在訓練時進行練習獲得很多收獲。所以我認為你通過結合這兩件事會得到最好的結果。
Dwarkesh:現(xiàn)在,你有這兩種模型學習方法。一種是在訓練中,無論是預訓練還是后訓練。訓練中的大部分計算都花在預訓練上,略過數(shù)萬億個標記,瀏覽數(shù)萬億個標記的信息。如果一個人受到這種對待,他們只會完全困惑。這不是一個非常有效的學習方式。
另一種方式是上下文學習。當然,這更有樣本效率,但每個實例都被破壞了。
我很好奇你是否認為在這兩者之間有一條路徑,它不會在每個實例中被破壞,但也不像只是看到數(shù)萬億個標記那樣輕率。更具意識和活躍。
Schulman:你的意思是模型有一些中期記憶?太多而不適合上下文,但比預訓練規(guī)模小得多?
Dwarkesh:這可能是記憶。我沒有上下文。當然,當我試圖為這次對話做準備時,我想到我應該理解什么,仔細閱讀它,也許在閱讀時考慮它。我不確定它在模型方面自然對應什么。那會是什么樣子?
Schulman:我明白了。所以這不僅僅是記憶,某種程度上也是專門針對某個任務或投入大量精力到某個特定項目。
Dwarkesh:我甚至不確定它是不是專門化。更像是“我不理解這部分,所以讓我更深入地研究。我已經(jīng)理解了這部分?!蔽也逻@是專門化到你的現(xiàn)有知識庫。
Schulman:我明白了。所以這不僅僅是關于在大量相關資源上訓練并在某個特殊領域進行微調(diào)。它還涉及推理,并通過你自己的推理發(fā)展一些知識,使用某種內(nèi)省或自我知識來弄清楚它需要學習什么?
Dwarkesh:是的。
Schulman:這確實感覺是當今系統(tǒng)缺失的東西。人們還沒有真正大力推動大規(guī)模訓練和上下文學習之間的中間地帶。
部分原因是我們一直在增加上下文長度,以至于沒有激勵它。如果你能達到十萬或一百萬的上下文,那實際上是相當多的。在很多情況下,它實際上并不是瓶頸。
我同意你的觀點,你可能還想用某種微調(diào)來補充它。微調(diào)和上下文學習所獲得的能力可能是互補的。我預計我們會想要構建一些在線學習系統(tǒng),并且擁有一些認知技能,比如對它們自己的知識進行內(nèi)省,并尋找填補空白的新知識。
Dwarkesh:這一切都是同時發(fā)生的嗎?還是一個新訓練機制,所有這些事情都可以同時發(fā)生,無論是長期還是這種訓練?
它們是分開的還是不分開的?模型是否足夠智能,既能內(nèi)省又能在更長的時間范圍內(nèi)行動,以便你在長期任務上獲得適當?shù)幕貓螅?/span>
Schulman:如果你在做一些長期任務,你是在執(zhí)行任務時學習的,對吧?
要做一些涉及很多步驟的事情,唯一的方法是擁有在任務期間更新的學習記憶。短期記憶和長期記憶之間有一個連續(xù)體。
我預計,當我們開始更多地關注長期任務時,這種能力的需求將開始變得清晰。在某種程度上,將很多東西放入上下文會帶你走得很遠,因為我們現(xiàn)在有很長的上下文。你可能還想要像微調(diào)這樣的東西。
至于內(nèi)省和主動學習的能力,這可能會自動從模型知道它們知道什么的能力中產(chǎn)生。模型確實對它們知道什么有一些校準。這就是為什么模型不會太幻覺。它們對自己的局限性有一些理解。同樣的那種能力可以用于像主動學習這樣的東西。
通往ChatGPT的道路
Dwarkesh:有趣。我想退一步,問問你自己的歷史,至少在OpenAI。你領導了ChatGPT的創(chuàng)建。你什么時候意識到這些大型語言模型是要走的路?你什么時候意識到聊天機器人或者某種指導它們的方式會是有用的?請帶我走過整個譜系,從這成為你的主要關注點以及整個過程的樣子。
Schulman:在ChatGPT之前,OpenAI有這些遵循指令的模型。那里的想法是,我們有基礎模型,人們可以以復雜的方式提示它們。但它們也很難提示。它們基本上是自動完成,所以你必須用一些例子設置一個非常好的提示。
OpenAI的人們正在研究如何只拿基礎模型并使它們更容易提示。所以如果你只寫一個問題,它會回答問題,而不是給你更多的問題或類似的事情。所以我們有這些遵循指令的模型,它們就像基礎模型,但更易于使用一點。那些是最初部署在API中的?;蛘咴贕PT-3之后,那些是下一代模型。
同時,絕對有很多人在考慮聊天。谷歌有一些像LaMDA和早期的Meena
?的論文。他們有這些聊天機器人。這更像是一個真正專門用于聊天任務的基礎模型。它非常擅長聊天。從論文的例子來看,它更多用于有趣的應用,模型會承擔某種角色并假裝是那個角色。它不是那么功能性強,不能幫助我重構我的代碼。
所以絕對有人在考慮聊天。我之前在一個名為WebGPT
?的項目上工作過,它更多的是在瀏覽和檢索的幫助下進行問答。當你進行問答時,它真的需要是一個聊天。你總是想問后續(xù)問題,或者有時模型應該問一個澄清問題,因為問題是模棱兩可的。
在我們完成第一個版本后,很明顯下一個版本應該是會話式的。所以我們開始研究會話聊天助手。這是在GPT-3.5之上構建的,它在2022年初完成了訓練。那個模型非常擅長語言和代碼。我們很快意識到它實際上非常擅長編碼幫助。這是我們感到興奮的一件事。
我們大部分時間都在研究這個。我們還有瀏覽作為它的另一個功能,盡管我們后來強調(diào)了這一點,因為模型的內(nèi)部知識非常好。瀏覽不是它最有趣的事情。我們把它給朋友和家人試用了一段時間,我們考慮進行公開發(fā)布。
實際上,GPT-4在那一年的8月完成了訓練。OpenAI的旗艦RL(強化學習)努力是遵循指令的努力,因為那些是正在部署到生產(chǎn)中的模型。GPT-4的第一批微調(diào)使用了整個堆棧。這些模型真的很棒,每個人在看到指令微調(diào)GPT-4后都非常興奮。
它們真的很棒。它們偶爾會給你驚人的輸出,但模型顯然也相當不可靠。有時它會大量幻覺。有時它會給出相當離譜的輸出。所以它顯然還沒有完全準備好,但顯然非常好。
在那之后,人們有一段時間忘記了聊天,這個替代分支。我們進一步推動了它,我們最終混合了所有數(shù)據(jù)集,指令和聊天數(shù)據(jù),試圖得到兩個世界中最好的。聊天模型顯然更易于使用。
它在模型知道自己的局限性方面自動具有更合理的行為。實際上,這是我們在開發(fā)過程中感到興奮的一件事。我意識到,很多人認為語言模型的缺陷,比如公然幻覺,可能無法完全修復,但通過相當直接的方法可以取得很大進展。
關于聊天的另一件事是,當我們有這些指令模型時?!耙院没蛴袔椭姆绞酵瓿蛇@段文本”的任務定義非常不明確。這個任務對模型和應該進行數(shù)據(jù)標記的人類來說都很混亂。而對于聊天,人們有一種直觀的感覺,知道一個有用的機器人應該是什么樣子。所以人們更容易理解模型應該做什么。結果,模型有一個更連貫的個性,更容易獲得相當合理的穩(wěn)健行為。
Dwarkesh:有趣。任何人都可以使用你公開可用的微調(diào)API制作ChatGPT嗎?
Schulman:不完全是。我不記得哪些模型當時可以用于微調(diào)。假設我們當時有3.5可用于微調(diào),你可以做出相當接近的東西。我不認為你只使用純粹的人類編寫的數(shù)據(jù)進行一次微調(diào)。
如果你不做RL(強化學習),我們做了,你會想要某種迭代的監(jiān)督微調(diào),人類編輯模型生成的輸出。如果你在人類生成的數(shù)據(jù)上訓練,即使質(zhì)量非常高,模型也很難完全適應這些數(shù)據(jù),因為它可能是模型能夠輸出的東西。你需要做一些迭代的事情,看起來更像RL。如果你這樣做了,你可以非常接近,但這將是非平凡的。
我們還在ChatGPT之前發(fā)布了另一個使用RL訓練的指令模型。如果你給那個模型加上聊天包裝器,你會相當接近,但那個模型在優(yōu)勢上有一些差異。那個模型擅長寫作和詩歌,但它在知道自己的局限性、事實性等方面沒有那么好。
Dwarkesh:從3.5退一步,我想我在哪里聽到你說過你對GPT-2印象深刻。與2019年的預期相比,AI的發(fā)展速度是比你預期的快還是慢?
Schulman:自從GPT-2以來比我預期的快。我非常認同擴大規(guī)模和預訓練是一個很好的主意。但當GPT-2完成時,我并沒有完全信服它能徹底改變一切。真正在GPT-3之后,我轉變了我正在做的工作和我團隊的工作重點。之后,我們聚在一起說,“哦,是的,讓我們看看我們能用這些語言模型做些什么?!钡贕PT-2之后,我還不太確定。
Dwarkesh:假設我們之前討論的強化學習(RL)開始與這些更智能的模型更好地工作。未來在預訓練和后訓練之間分配的計算資源比例是否會顯著改變,傾向于后訓練?
Schulman:有一些理由支持這一點?,F(xiàn)在這個比例非常不平衡。你可以認為模型生成的輸出比網(wǎng)絡上的大部分內(nèi)容質(zhì)量更高。所以讓模型自主思考比僅僅訓練模仿網(wǎng)絡上的內(nèi)容更有意義。所以我認為這是一個首要原則的論點。
我們通過后訓練獲得了很大的提升。所以我期望我們繼續(xù)推動這種方法,并可能增加我們投入其中的計算資源。
Dwarkesh:當前的GPT-4有一個Elo評分,比最初發(fā)布的版本高出約100分。這全是因為你所談論的,由后訓練帶來的這些改進嗎?
Schulman:是的,大部分是后訓練。有很多不同的改進方向。
我們考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)數(shù)量。僅僅是進行更多次的部署和收集新數(shù)據(jù)的整個過程。還有改變你正在收集的注釋類型。有很多因素堆積起來,但它們共同為你提供了相當可觀的有效計算能力提升。
Dwarkesh:這是一個巨大的提升。很有趣的是,有這么多的改進空間來自后訓練。
成為一名優(yōu)秀的強化學習研究員的要素
什么樣的人才能在這種強化學習研究中做得非常出色?我聽說這非常棘手。你擁有什么樣的直覺,使你能夠找到這些方法來干預數(shù)據(jù)并設置這些環(huán)境?
Schulman:到目前為止,我從堆棧的不同部分,從強化學習算法(這是我從研究生時期就開始研究的),到數(shù)據(jù)收集、注釋流程,以及玩弄語言模型,都積累了相當多的經(jīng)驗。
我想說我對這些事情有所涉獵,而且在這個研究領域做得好的人對整個堆棧有一些看法,并且對它的不同部分非常好奇。你既要實證,讓實驗更新你的觀點,但也要基于首要原則思考。假設學習有效,那么理想類型的數(shù)據(jù)收集是什么樣的?
Dwarkesh:因為沒有一個模型自從GPT-4以來似乎有顯著的進步,有一個假設是我們可能正在達到某種平臺期。這些模型實際上并沒有很好地泛化,你將會遇到一個數(shù)據(jù)墻,在這個數(shù)據(jù)墻之外,通過記憶大量預訓練數(shù)據(jù)集所解鎖的能力不會幫助你得到比GPT-4更智能的東西。
你認為這個假設是錯誤的嗎?我們已經(jīng)討論了一些泛化的例子,比如從西班牙語到英語。我認為我想起的一個例子是代碼到語言推理的遷移。如果你在大量代碼上訓練,它會在語言推理方面變得更好嗎?真的是這樣嗎?
你是否看到了不同模態(tài)之間的正向遷移?如果你在大量視頻和圖像上訓練,它會從合成數(shù)據(jù)中變得更聰明嗎?還是說,解鎖的能力非常局限于你放入訓練語料庫的確切類型的標簽和數(shù)據(jù)?
Schulman:我會嘗試回應所有這些。首先,我們是否即將達到數(shù)據(jù)墻?我不會從GPT-4發(fā)布以來的時間中得出太多結論,因為訓練這些模型并為訓練新一代模型做所有準備工作確實需要一段時間。
我不會從那個事實中得出太多結論。數(shù)據(jù)量有限確實存在一些挑戰(zhàn),但我不認為我們會立即達到數(shù)據(jù)墻。然而,隨著我們接近它,我預計預訓練的性質(zhì)會有所改變。
關于不同類型的預訓練數(shù)據(jù)的泛化,我會說,對于這類問題進行科學研究相當困難,因為你無法創(chuàng)建那么多預訓練模型。也許你無法訓練一個GPT-4大小的模型,并在那個規(guī)模上進行消融研究。也許你可以訓練很多GPT-2大小的模型,甚至GPT-3大小的模型,使用不同的數(shù)據(jù)混合,看看你會得到什么。我不知道有任何公開的涉及代碼數(shù)據(jù)和推理性能的消融研究的結果。我非常想知道這些結果。
Dwarkesh:我對某件事很好奇。其中一個問題是,隨著模型變大,它變得更聰明。在GPT-2級別的模型上進行消融實驗,如果表明沒有太多遷移,是否可以為GPT-4級別模型在類似領域中的遷移水平提供證據(jù)?
Schulman:對,你不能得出結論,如果遷移在GPT-2大小上失敗,那么在更高規(guī)模上也會失敗。可能對于更大的模型,你學會了更好的共享表示,而較小的模型則過于依賴記憶。更大的模型可以學會進行正確的計算。我認為這在某種程度上是正確的。
Dwarkesh:這可能有一個非常簡單的答案。你在相同數(shù)量的數(shù)據(jù)上訓練更大的模型,它們變得更聰明?;蛘咭_到同樣的智能水平,你只需要在較少的數(shù)據(jù)上訓練它們。為什么會這樣?它有更多的參數(shù),看到的更少,現(xiàn)在它同樣聰明。為什么會這樣?
Schulman:我認為沒有人對參數(shù)數(shù)量的擴展法則有好的解釋。我甚至不知道最好的心態(tài)模型是什么。顯然,如果你有一個更大的模型,你就有更大的容量。所以你應該最終能夠獲得更低的損失。
為什么更大的模型更具有樣本效率?我可以給你一個粗略的解釋。你可以說這個模型是執(zhí)行計算的不同電路的集合。你可以想象它在并行進行計算,輸出是它們的加權組合。如果你有更多的寬度……實際上寬度與深度有些相似,因為具有殘差網(wǎng)絡的深度在更新殘差流中的內(nèi)容方面可以類似地做寬度。
你正在并行學習所有這些不同的計算,并且你有一個更大的模型,你就擁有更多的計算。所以你有更高的機會,其中一個是幸運的,最終猜測正確很多,并得到提升。
有一些算法是這樣工作的,比如混合模型或乘法權重更新算法,你擁有——我不想說專家的混合,因為它意味著不同的東西——基本上是專家的加權組合,有一些學習的門控。
我實際上說錯了一點,但你可能會想象類似的東西。只是擁有一個更大的模型,就給你更多的機會獲得正確的功能。
當然,這不僅僅是你正在采取線性組合的完全不相干的功能。更像是一個庫,你可能以某種方式將這些函數(shù)鏈接在一起。有一些可組合性。所以我會說你更大的模型有更大的不同計算庫,包括很多休眠的東西,只是有時會被使用,但它有更多的空間去尋找電路來做一些有用的事情。
保持人類參與
Dwarkesh:從當前的研究問題退一步,我想了解你對未來幾年的模態(tài)情景的理解。在對話開始時,我們談到了進展非??斓那闆r,但讓我們只考慮模態(tài)情景。
你在某個時候解鎖了長期RL,但正如你所說,可能還有其他瓶頸。發(fā)生了什么?這些模型有多好?它們是如何部署的?它們還包含哪些模態(tài),以及這些模態(tài)在什么階段被解鎖?我想了解你對未來幾年更廣泛情況的看法。
Schulman:我預計新模態(tài)將隨著時間或相當快地被添加。我預計能力將通過預訓練和后訓練的結合而不斷提高,并開放新的用例。
目前,AI在經(jīng)濟中仍然不是一個巨大的部分。有相當小的一部分工作它根本幫不上忙。我預計隨著時間的推移,這一比例會更高,不僅是因為模型的改進,還因為人們弄清楚如何將它們集成到不同的過程中。所以即使我們將模型固定在當前狀態(tài),你仍然會看到它們被使用的方式有很大的增長。
我預計AI的使用將更廣泛,用于更技術性復雜的任務。我早些時候給出了編程示例,進行更長期的項目,還幫助進行各種研究。我希望我們可以使用AI以各種方式加速科學,因為你可能有模型理解給定領域中的所有文獻,并能夠篩選大量的數(shù)據(jù)。這超過了一個人的耐心。
我希望形式因素是這樣的,人們?nèi)匀煌苿铀羞@些,你有幫助的助手,你可以指導他們解決許多對你有用的不同問題。每個人都將擁有所有這些AI幫助他們做得更多,完成更多。
Dwarkesh:顯然,在某個時候,它們將在它們想做的任何事情上比任何人都做得更好。這個過程會是什么樣子?現(xiàn)在,它們顯然只是幫助你。在某個時候,它們將能夠為你做事,甚至可能為你經(jīng)營整個公司。這會是一個平滑的過程嗎?在這一點上,我們是否希望我們擁有與用戶對齊的系統(tǒng),以至于它們可以指望公司以他們期望的方式運行。
Schulman:我們可能不希望立即讓AI運行整個公司。我們可能希望人們監(jiān)督這些重要決策并發(fā)號施令,即使模型足夠好,能夠自己成功經(jīng)營業(yè)務。在某種程度上,可能存在選擇。
我認為人們?nèi)匀粫胁煌呐d趣和想法,關于他們希望指導他們的AI進行什么樣的有趣追求。AI并不一定有某種固有的渴望,除非我們將其放入系統(tǒng)中。所以即使AI變得非常有能力,我希望人們?nèi)匀皇茿I最終要做的事情的驅動者。
Dwarkesh:我想知道經(jīng)濟平衡是否遠離這一點,你在公司中擁有類似阿姆達爾定律的東西。過程中最慢的部分將是瓶頸。
即使AI使公司的非人類部分效率提高10倍,公司仍然受限于那個步驟。如果一家公司決定通過讓人類參與你真正希望人類監(jiān)督的所有事情,那么他們就會被沒有人類的公司所超越。如果一個國家決定走這條路,其他國家將擊敗它。我想知道保持人類參與的計劃是否可持續(xù)。
Schulman:如果我們想保持人類參與,這似乎是合理的,如果事實證明任何有人類參與的公司都被沒有人類的公司所超越,那么顯然需要某種規(guī)定,禁止沒有人類參與運行整個公司。
Dwarkesh:但是任何一個國家都有很多公司,更不用說全世界了。我想知道是否最好對公司進行監(jiān)管,說你必須在重要過程中保持人類參與,但那樣你必須定義什么是重要過程。
你必須監(jiān)督每一家單獨的公司,你還必須得到每一個有公司的國家的合作。如果這是一個問題,是否應該在模型部署之前解決,以便如果你決定建立一個公司并依賴這些模型,它基本上會做你期望它做的事情,你就不需要人類參與?
這個問題有意義嗎?我只是想知道,在這種情況下,我們?nèi)绾螌嶋H上監(jiān)督每一家單獨的公司,以確保有人類參與?如果中國決定不這樣做怎么辦?
Schulman:你將不得不讓每個國家都同意這一監(jiān)管制度,或者你需要所有的模型基礎設施或模型提供商同意這一要求。
這絕對不容易。這是展望未來,所以在看到類似的東西之前很難想象這個世界。
例如,我們真的相信AI運營的公司在各方面都更好嗎?我們是否認為它們大多數(shù)時候更好,但偶爾因為AI在某些方面仍然不夠樣本效率而出現(xiàn)故障?想想它們必須處理非常奇怪情況的時候。
AI運營的公司實際上可能有更高的尾部風險,因為它們更有可能以重大方式出現(xiàn)故障。可能有一些實際問題會決定事情的發(fā)展。也許如果你只要求人們對各種責任負責,這也將稍微改變激勵機制。
假設結果表明AI在運營一切方面都更出色,而且它們也完全是仁慈的。假設我們已經(jīng)完全解決了對齊問題,它們比人類更能對人類負責。那么也許讓AI運營公司是可以的。但這還很遙遠。
我們更有可能處于這樣一種情況:它們在短期內(nèi)看起來更好,但它們?nèi)匀淮嬖谝恍﹪乐貑栴}。實際上,是實際考慮讓你更傾向于讓人類參與其中,至少在不久的將來是這樣。
Dwarkesh:所以這是我們今天必須處理的問題,RLHF(強化學習中的人類反饋)。你必須在許多不同的人類之間聚合偏好。隨著未來更強大的系統(tǒng)的出現(xiàn),這種情況可能會更加明顯。但當你說我們希望最終完全取代公司中人類部分的AI系統(tǒng)要對齊時,這意味著什么?
這是否意味著它們基本上按照用戶希望它們做的去做?這意味著它們必須產(chǎn)生某種我們作為OpenAI的利益相關者滿意的全球結果嗎?具體來說,這意味著什么?
Schulman:如果這些模型被用于更高風險的用例,那么我們必須以與現(xiàn)在完全不同的方式考慮RLHF。我們還沒有準備好,或者當前的方法可能不完全足夠。我們需要在涉及的不同利益相關者的需求之間做出妥協(xié)。我們發(fā)布了一個名為模型規(guī)范(Model Spec)的文件。它講述了我們希望我們的模型在API和ChatGPT中的行為方式。
我們試圖討論這個問題,涉及不同的利益相關者,有時他們之間可能存在沖突。在我們的情況下,我們認為利益相關者是最終用戶(坐在ChatGPT或其他應用程序前的人)、開發(fā)者(使用API的人,可能使用他們的應用程序為其他最終用戶提供服務)、平臺(OpenAI,我們不希望模型使我們面臨法律風險)和其余的人類(包括不屬于用戶或客戶的人)。
顯然,用戶可能會要求模型做一些我們認為對其他人有害的事情。我們可能必須拒絕。順便說一下,這不一定是優(yōu)先順序。這些只是四類左右的利益相關者。實際上,你也許還可以說,在未來,模型本身。我們還沒有到那一步。
無論如何,我們有這些不同的利益相關者。有時他們的要求存在沖突。我們必須對如何解決這些沖突做出一些決定。這并不總是顯而易見的。我們必須仔細考慮權衡,基本上大致的啟發(fā)式方法是我們希望模型主要遵循你的指示,對用戶和開發(fā)者有幫助。
但是當這影響到其他人的幸?;蛏罘绞綍r,這就成為一個問題,我們必須阻止某些類型的使用。我們主要希望模型成為人們意志的延伸,按照他們說的去做。我們不想過于家長式。我們希望保持中立,不強加我們的觀點。我們主要希望讓人們用模型做他們想做的事情。
Dwarkesh:我有機會事先閱讀了規(guī)范。這是關于它如何很好地轉移到模型本身的行為的問題。我對權衡的合理性印象深刻。我相信實際的邊緣案例被明確陳述,而不是那些顯而易見的事情。在這種情況下,你真的是在追求邊緣案例。
Schulman:我們希望它非??尚?,而不僅僅是一些聽起來不錯的原則。每個例子都會告訴你一些關于某種非顯而易見情況的信息,并通過那種情況進行推理。
研究現(xiàn)狀、平臺期和護城河
Dwarkesh:我有幾個關于研究本身的問題。在社會科學中,眾所周知,事情真的很難復制。有一個問題是關于有多少科學是真實的,以及有多少是制造的、定制的實驗。當你看到平均的機器學習論文時,它感覺像是真正扎實的文學作品,還是經(jīng)常感覺像是社會科學中的p-hacking(一種數(shù)據(jù)挖掘手法)?
Schulman:大家對機器學習文獻都有抱怨??傮w而言,我認為這是一個相對健康的領域,特別是與社會科學等領域相比。它主要基于實用性,讓事情奏效。如果你發(fā)表了一些不能輕易復制的東西,人們就會忘記它。
人們普遍接受,你不僅僅報告某人論文中的數(shù)字。你還嘗試重新實現(xiàn)他們的方法,并將其與你的方法在同一訓練數(shù)據(jù)集上進行比較。如果你發(fā)表的方法很難實現(xiàn)或者非常挑剔,它們往往會被遺忘。
因此,人們實際上會嘗試開放他們的工作。還存在各種不利的激勵措施。人們被激勵使他們比較的基線方法變得更糟。還有其他輕微的病態(tài),比如試圖讓你的方法在數(shù)學上看起來更復雜。
但總的來說,我認為這個領域正在取得進展。我希望看到更多的科學和嘗試理解事物,而不僅僅是在基準測試上的爬山和提出新方法。最近已經(jīng)有了相當多的成果。我們可以有更多的成果。我認為這對學者來說是一個值得研究的好領域。
另外,我真的很期待看到更多使用基礎模型進行模擬社會科學的研究。這些模型對整個世界有概率模型,你可以設置模擬問卷或對話,并查看任何事物的相關性。任何你可以想象到的特質(zhì),你都可以看到它們?nèi)绾闻c其他特質(zhì)相關。
如果人們能夠通過以不同方式提示基礎模型并查看相關性,來復制社會科學中一些更值得注意的成果,比如道德基礎等,那將是非常酷的。
Dwarkesh:那個斯坦福的實驗是什么?阿希從眾實驗?如果這也能用語言模型復制,那就有趣了。我想問一問大實驗室發(fā)生的其他研究。其中有多少是在增加或減少獲得特定結果所需的計算量,作為實際的計算乘數(shù),以及有多少只是在使學習更穩(wěn)定和構建基礎設施?
我想問的更廣泛問題是,自從GPT-4以來,是否感覺用相同的計算量,你可以訓練一個更好的模型?還是感覺你已經(jīng)確保學習可以以更好、更可擴展的方式發(fā)生,用GPT-5,但現(xiàn)在我們不能用GPT-3.5的預算訓練GPT-4?
Schulman:在提高效率方面肯定一直在取得進展。每當你有一個1D性能指標時,你會發(fā)現(xiàn)不同的改進可以相互替代。你可能發(fā)現(xiàn)后訓練和預訓練都提高了指標。它們在提高哪些指標方面有不同的特點。
但歸根結底,如果你有一個單一的數(shù)字,它們都會在某種程度上相互替代。對于像人類評估這樣的事情,人類更喜歡什么,我們肯定在預訓練和后訓練兩方面都取得了很多進展,以改善這一點。
Dwarkesh:關于RLHF(強化學習中的人類反饋),我有幾個快速的問題。顯然,RLHF對于使這些模型有用很重要。所以也許“閹割”的描述是不準確的。
然而,一旦所有這些模型都以聊天機器人的形式出現(xiàn),它們就有一種非常相似的說話方式。它們真的想“深入”到事情中去。它們想把事情變成項目符號。它們通常似乎有一種正式和乏味的說話方式。
有人抱怨它們不夠有創(chuàng)造力。就像我們之前討論的,它們只能做押韻詩而不是非押韻詩,直到最近。這是不是因為RLHF現(xiàn)在的特殊方式?如果是的話,是因為評估者是誰嗎?是因為損失函數(shù)是什么嗎?為什么所有聊天機器人看起來都這樣?
Schulman:我會說,在訓練過程中確實有很大的變化空間。我們正在積極嘗試改進這一點,使寫作更加生動有趣。我們在改進ChatGPT的個性方面取得了一些進展。當你和它聊天時,它更有趣,不那么機械。
有趣的是,一些特點是如何產(chǎn)生的,比如“深入”這個詞。我最近實際上發(fā)現(xiàn)自己在使用這個詞。我不知道是不是從模型中潛移默化地影響了我。
實際上,可能還有一些有趣的效果,即在語言模型和提供者之間發(fā)生了無意的蒸餾。如果你雇人去做標記任務,他們可能只是把它輸入到模型中。他們可能正在使用他們最喜歡的聊天機器人,輸入它,讓模型執(zhí)行任務,然后復制并粘貼回來。這可能解釋了其中的一些趨同。
我們看到的一些事情只是人們所喜歡的。人們確實喜歡項目符號。他們喜歡結構化的回答。人們通常確實喜歡從模型那里得到的大量信息傾倒。
所以現(xiàn)在還不清楚有多少只是后訓練過程中特定選擇和設計的怪癖,以及多少實際上是人們真正想要的。
Dwarkesh:它確實似乎比一些人想要的更加啰嗦。也許只是因為在標記階段,評估者更喜歡更加啰嗦的答案。我想知道這是否是因為預訓練的方式而固有的,停止序列并不經(jīng)常出現(xiàn),它真的想繼續(xù)進行。
Schulman:評估中可能存在一些導致啰嗦的偏見。我們傾向于一次訓練一條消息,而不是整個交互。如果你只看到一條消息,那么只有一個澄清問題,或者可能是一個簡短的回答,邀請后續(xù)跟進,看起來就不那么完整,而那些涵蓋所有可能性的內(nèi)容看起來更完整。
還有一個問題,就是人們是否更喜歡模型即時輸出的文本。顯然,如果你坐在那里等待標記出現(xiàn),你會希望它直接進入重點。但如果它立即給你一堆文本,也許你并不在意是否有很多模板化的內(nèi)容,或者有很多你將快速瀏覽的內(nèi)容。你寧愿擁有所有這些。
Dwarkesh:獎勵模型是一個非常有趣的工件,因為它是最接近我們擁有的關于人們想要什么以及他們有什么偏好的東西。我在想更聰明的模型。一個希望是,你可以只給它一個我們想要的不瑣碎和明顯的清單,比如聯(lián)合國人權宣言。
另一方面,我想我聽到你的觀點,我們的許多偏好和價值觀非常微妙,所以它們可能最好通過成對偏好來表示。當你想到GPT-6或GPT-7級別的模型時,我們是給它更多的書面指示,還是我們?nèi)匀辉谧鲞@些潛意識的偏好?
Schulman:這是個好問題。這些偏好模型確實學到了人們偏好的許多微妙之處,這些在說明書中很難表述。顯然,你可以編寫一個有很多比較例子的說明書。這就是模型規(guī)范所擁有的。它有很多例子和一些解釋。目前還不清楚描述偏好的最佳格式是什么。
我猜測,無論你能從一個大的數(shù)據(jù)集中得到什么模糊的偏好,你都可以將其蒸餾成一個更短的文檔,主要捕捉到這些觀點。更大的模型確實自動學到了很多這些概念,人們可能覺得有用和有幫助。它們將有一些復雜的道德理論可以依靠。當然,還有很多空間可以依靠不同的風格或不同的道德觀。
所以如果我們寫一個文檔,如果我們想要對齊這些模型,我們正在做的是依靠一種特定的風格,一種特定的道德觀。你仍然需要一個相當長的文檔來精確捕捉你想要什么。
Dwarkesh:更好的后訓練有多少護城河?公司目前通過它們的模型有多大來區(qū)分自己。這將是一個大護城河,對于已經(jīng)弄清楚你之前談到的所有這些細節(jié)的人來說,關于所有這些數(shù)據(jù)?
Schulman:它有一定的護城河,因為它只是一個非常復雜的操作,需要很多有技能的人來做。需要大量的默示知識和組織知識。
有了后訓練,要創(chuàng)建一個實際上具有人們關心的所有功能,這是相當復雜的。它需要相當復雜的努力和大量的研發(fā)積累。這讓它有一定的護城河。它不是立即就能啟動的。看起來,同樣認真進行預訓練的公司也在認真進行后訓練。
在某種程度上,復制或啟動更多的這些努力是可能的。還有一種力量讓它不那么成為護城河。你可以蒸餾模型,或者你可以采用別人的模型并克隆輸出。你可以使用別人的模型作為評委進行比較。
更大的聯(lián)盟可能不會這樣做,因為這違反了服務條款政策。這也會打擊他們的自尊。但我預計一些較小的參與者會這樣做來起步。這在很大程度上可以趕上。
Dwarkesh:我想這有助于清除護城河。中位數(shù)評估者是什么樣的?他們在哪里?他們的政治觀點是什么?他們的知識水平如何?
Schulman:這有很大的不同。我們絕對雇傭了不同技能的評估者來完成不同類型的任務或項目。一個不錯的心智模型就是看看在Upwork等平臺上的人??纯茨切氖逻h程工作的零工的人。
這是一個相當國際化的群體。在美國有相當多的人。我們?yōu)椴煌愋偷臉擞浌蛡虿煌娜巳海热缥覀兪欠窀鼘W⒂趯懽骰騍TEM任務。從事STEM任務的人更有可能在印度或其他中低收入國家。從事更多英語寫作和寫作的人更傾向于在美國。
有時我們需要為一些活動雇傭不同的專家。有些人非常有才華,我們甚至發(fā)現(xiàn)他們在執(zhí)行這些任務上至少和我們這些研究人員一樣好,他們比我們更仔細。我會說我們現(xiàn)在的人非常熟練和認真。
Dwarkesh:關于平臺期的敘述,我聽說其中之一是這些模型幫助您處理特定事情的許多能力與在監(jiān)督式微調(diào)數(shù)據(jù)集中具有非常接近的標簽有關。這是真的嗎?
它能教我如何正確使用FFmpeg嗎?就像有人看到輸入,看到您需要添加的標志,并且有人計算出并匹配那個。你需要雇傭所有這些在各個領域具有領域專業(yè)知識的標簽評估者嗎?如果是這樣的話,看起來要讓這些模型隨著時間的推移變得越來越聰明將是一個更大的挑戰(zhàn)。
Schulman:你并不確切需要那樣。你可以從泛化中得到很多?;A模型已經(jīng)在大量文檔、代碼、shell腳本等上接受過訓練。它已經(jīng)看過所有的FFmpeg手冊頁,很多Bash腳本等。
即使只是給基礎模型一個好的少量示例提示,你也能讓它回答這樣的問題。即使沒有在任何STEM上訓練,僅訓練一個偏好模型以幫助性,也會在一定程度上泛化到STEM。所以不僅你不需要FFmpeg的使用示例,你甚至可能不需要任何編程相關的東西就能在編程領域得到一些合理的行為。
Dwarkesh:也許是最后一個問題。我們已經(jīng)以不同的方式提到了這一點,但讓我們把它整合起來。你說你正在訓練更多的多模態(tài)數(shù)據(jù)??梢灶A見,這些東西將理解屏幕的外觀,并將能夠以更連貫的方式與它們交互。而且你還將進行這種長期RL,所以它們將能夠作為代理在系統(tǒng)中工作,并以更集成的方式成為你工作流程的一部分。
你期望它看起來像什么?從那里的下一步是什么?假設在年底或明年,你有一個可以與你在屏幕上工作的助手。期望這樣的事物似乎是合理的嗎?從那里開始,它會去哪里?
Schulman:我絕對期望事情朝那個方向發(fā)展。目前還不清楚什么是最好的形式因素。它可能是像Clippy在你的電腦上幫助你,或者它更像是云中的一個有幫助的同事。我們將看看哪種形式因素最有效。我期望人們嘗試所有這些。
我期望一個有益的助手或有益的同事的心理模型變得更加真實。它將是你可以分享更多日常工作的東西。而不僅僅是給它一次性查詢,你將有一個你一直在做的整個項目,它知道到目前為止你在那個項目上所做的一切。
它甚至可以主動提出建議。也許你可以告訴它記得問我這個,如果我在這方面取得了任何進展。主動性是一直缺失的東西之一。我希望能從一次性查詢、像搜索引擎一樣使用模型,轉向與模型合作進行整個項目。在這種情況下,它知道我所做的一切。它主動建議我嘗試的事情,或者它在后臺進行工作。
Dwarkesh:這真的很有意思。這是最后一個問題。你被取代工作的中位數(shù)時間表是什么時候?
Schulman:哦,它取代我的工作?也許五年。
Dwarkesh:相當快。有趣。John,這次談話非常有趣。非常感謝你抽出時間。這似乎是人工智能過程中非常重要的一部分,而人們對此不太了解。深入探討并聽取你的想法非常有趣。
Schulman:謝謝你邀請我參加播客。談論這些事情很有趣。
本文轉載自 ??MoPaaS魔泊云??,作者: Schulman
