o1就是GPT-5!前OpenAI首席研究員大爆猛料,揭露罕見內(nèi)部視角! 原創(chuàng)
編輯 | 伊風(fēng)
OpenAI第10天的更新還有人追嗎?
今天這個腦洞大開的上新,把期待GPT-4.5的通義大佬直接看懵了——咋是Phone call呢?
圖片
沒錯,今天上線的就是這個:ChatGPT的熱線電話。美國用戶撥打1-800-ChatGPT(1-800-242-8478),即可隨時隨地和AI熱聊……
圖片
網(wǎng)友又開始建議OpenAI:沒活了就去咬個打火機。
還是說回下一代模型,GPT-4過去一年半了,OpenAI一直遛觀眾就是不發(fā)新成果。
昨天,OpenAI前首席研究官Bob McGrew的播客首秀上線,直接給人干絕望了:o1就是GPT-5。只是我們決定叫它o1。
“GPT-4 已經(jīng)是大約一年半前的成果,而在它發(fā)布之前就已經(jīng)完成了訓(xùn)練。那么問題是:為什么之后沒有什么新東西出來呢?”
Bob說在這個問題上內(nèi)外部視角會完全不同。外界的人會想:“我們是不是遇到了數(shù)據(jù)瓶頸?到底發(fā)生了什么?” 而內(nèi)部更能感知到,計算能力如何限制了預(yù)訓(xùn)練的進一步進展——每下一代就增加100倍計算量。
因此他說,“o1本質(zhì)上本質(zhì)上是一代新的模型,比GPT-4增加了100倍的計算。很多人沒有意識到這一點,因為當(dāng)時的決定是將其命名為 o1 而不是 GPT-5?!?/p>
圖片
也因此,他和Ilya「預(yù)訓(xùn)練已到盡頭」的論斷不同,他認(rèn)為預(yù)訓(xùn)練仍有潛力,根本問題是「等待新的數(shù)據(jù)中心的建成」。
在o1預(yù)覽版發(fā)布后一天,Bob就宣布了辭職。他說,在OpenAI工作的八年中,他完成了包括預(yù)訓(xùn)練、多模態(tài)推理等許多的目標(biāo)。尤其在o1的特別項目后,他覺得是時候把工作交給年輕人了。
圖片
即使在AI炒作盛行的今天,他認(rèn)為o1仍然被低估了?!半m然o1被很多人談?wù)?,但是否受到了恰?dāng)?shù)年P(guān)注?并沒有。我認(rèn)為它被低估了”。
關(guān)于封閉的OpenAI,前CRO Bob McGrew 帶來了罕見的內(nèi)部視角,讓我們能深入地一探究竟:OpenAI到底發(fā)生了什么?AI撞墻了嗎?為什么說o1被低估了?下一代模型到底還來不來了!
上圖:Bob的工作經(jīng)歷
以下是播客內(nèi)容的精華整理,enjoy:
1.o1就是GPT-5,預(yù)訓(xùn)練還將繼續(xù)
主持人:先從一個目前大家都很關(guān)心的問題開始。這個問題圍繞著一個大的爭論點——我們是否在模型能力上已經(jīng)遇到了瓶頸。所以我很想聽聽你的看法,以及你覺得在預(yù)訓(xùn)練方面是否還有潛力可挖。
Ilya認(rèn)為預(yù)訓(xùn)練即將終止
Bob McGrew :這是一個外界觀察者和大實驗室內(nèi)部視角差異最大的話題之一。
我覺得,從外界的角度來看,很多人可能是從 ChatGPT 開始關(guān)注 AI 的,然后六個月后,GPT-4 出現(xiàn)了,大家感覺進展很快,一切都在加速發(fā)展。但隨后你會發(fā)現(xiàn),GPT-4 已經(jīng)是大約一年半前的成果,而在它發(fā)布之前就已經(jīng)完成了訓(xùn)練。那么問題是:為什么之后沒有什么新東西出來呢?
而內(nèi)部的視角則完全不同。外界的人會想:“我們是不是遇到了數(shù)據(jù)瓶頸?到底發(fā)生了什么?” 但必須記住,特別是在預(yù)訓(xùn)練的進展上,這需要在計算能力上有大幅度的提升。從 GPT-2 到 GPT-3,或者從 GPT-3 到 GPT-4,這意味著計算能力的有效提升達(dá)到 100 倍。這種提升依賴于多個方面的組合,比如增加更多計算單元、更大規(guī)模的數(shù)據(jù)中心,以及算法改進。
算法改進確實能帶來一些提升,比如 50%、2 倍甚至 3 倍的提升已經(jīng)非常驚人了。但從根本上來說,你還是需要等待新的數(shù)據(jù)中心建成。事實上,現(xiàn)在正在建造的新數(shù)據(jù)中心并不少。你可以看看新聞,會發(fā)現(xiàn) Meta 和其他前沿實驗室正在建設(shè)新的數(shù)據(jù)中心,盡管有些可能不會成為新聞。
但從根本上來說,這是一個非常緩慢的多年進程。實際上,在看到 GPT-4 到 GPT-5 的全面提升之前,你可能會先看到一個僅有 10 倍提升的版本。人們往往忘記了我們是從 GPT-3 到 GPT-3.5,再到 GPT-4。
目前有趣的一點是,我們在使用強化學(xué)習(xí)進行改進時取得了一些進展。以 o1 為例,從多個指標(biāo)來看,它的計算能力比 GPT-4 高了 100 倍。我想很多人沒有意識到這一點,因為當(dāng)時的決定是將其命名為 o1 而不是 GPT-5。但實際上,這本質(zhì)上是一代新的模型。
當(dāng) GPT-4.5 或下一個世代的模型完成訓(xùn)練時,有趣的問題會是:這種預(yù)訓(xùn)練的進展如何與強化學(xué)習(xí)過程疊加起來?我覺得這將是我們需要等待宣布的東西。
主持人:最大的一個問題是,隨著多同步過程進入2025年,你認(rèn)為明年在 AI 領(lǐng)域會有像去年一樣的進展嗎?還是說事情可能會開始變得慢一些?
Bob McGrew :嗯,我認(rèn)為會有進展,不過這會是不同類型的進展。你知道,當(dāng)你進入下一代模型時,總會遇到上一代沒看到的問題。所以,即使數(shù)據(jù)中心已經(jīng)建立起來,仍然需要時間去解決問題并完成模型。我們用來訓(xùn)練 o1 的強化學(xué)習(xí)過程,OpenAI 用來訓(xùn)練 o1,實際上它是通過創(chuàng)造一個更長的、連貫的思維鏈,實際上就像是把更多計算能力壓縮到答案里。
所以,你知道,如果你有一個模型需要幾秒鐘來生成一個答案,而另一個模型可能需要幾個小時來生成答案,如果你能充分利用這個過程,那就是 10000 倍的計算能力差距。老實說,我們從大概2020年開始就在思考如何在測試階段利用計算能力,直到現(xiàn)在,我覺得這才是真正的答案,如何做到這一點,而不浪費太多計算資源。
更棒的是,這并不需要新的數(shù)據(jù)中心。所以在這里,有很多空間可以改進,這是一個剛剛開始的全新技術(shù),還有很多算法上的改進空間。理論上沒有理由不能將用于 o1 的基本原理和方法,擴展到更長的思考時間。你看,從 GPT-4 能做到幾秒鐘到 o1 花 30 秒、一分鐘,甚至幾分鐘的時間去思考,你也可以把這些技術(shù)擴展到幾小時甚至幾天。
當(dāng)然,像我們從 GPT-3 到 GPT-4 的升級一樣,并沒有出現(xiàn)什么基礎(chǔ)性的、全新的技術(shù),二者的訓(xùn)練方式基本相同,但規(guī)?;欠浅@щy的。所以,實際上最重要的就是能否做到這種規(guī)模化。我認(rèn)為,這就是我們在 2025 年會看到的最令人興奮的進展。
2.讓o1真正發(fā)揮價值的,應(yīng)該是Agent
主持人:你看到o1有哪些有趣的工作案例?
Bob McGrew :當(dāng)我們考慮發(fā)布o(jì)1預(yù)覽時,有很多問題:人們會使用它嗎?我需要用這個模型做什么,才能真正從中獲得價值?
你知道,編程是一個很好的用例。另一個例子是,如果你正在寫一份政策簡報,你正在寫一份很長的文件,它需要做出感知,需要把所有的東西聯(lián)系在一起。
事實上,大多數(shù)非程序員的人沒有像這樣每天需要做的事情。但是回到這里潛在的突破,那就是你有一個連貫的思想鏈,一種連貫的,你知道的,在問題上取得進展的方式。
這不僅需要考慮問題,還可以采取行動,制定行動計劃。所以,我最感興趣的是像o1這樣的模型,我相信很快會有其他實驗室的其他模型使用它們來真正實現(xiàn)長期行動。
你知道,基本上是智能體——雖然我覺得這個詞被用得太多,已經(jīng)不太能準(zhǔn)確傳達(dá)我們真正想做的事情了。但我生活中有各種任務(wù),我希望模型能為我預(yù)定、為我購物、為我解決問題,方式是它與外界互動。所以我認(rèn)為我們真正需要搞清楚的是這個形式因素是什么?我們怎么做?我覺得還沒有人完全搞明白這一點。
主持人:完全能理解。我覺得每個人都會想象這些代理人能做什么,能為個人和企業(yè)解決多少問題。那么,今天我們距離實現(xiàn)這一點還有哪些大問題呢?顯然,你已經(jīng)看到了一些早期模型,比如 Anthropic 發(fā)布的計算機使用模型,當(dāng)然,其他實驗室也在做這方面的工作。那么,當(dāng)你考慮什么阻礙我們今天實現(xiàn)這一目標(biāo)時,最難解決的問題是什么?
Bob McGrew :要解決的難題還有很多。我認(rèn)為最緊迫的問題是可靠性。
如果我讓某個代理人暫時先不做事情,如果我讓一個代理人代表我做某件事,哪怕只是寫一些代碼,假設(shè)我需要離開 5 分鐘或者 1 個小時,讓它自己工作,如果它偏離任務(wù)并且犯了個錯誤,我回來時發(fā)現(xiàn)它什么都沒做,那我就浪費了一個小時,這可是個大問題。
再加上這個代理人將要在現(xiàn)實世界中采取行動。也許它為我買了東西,或者提交了一個 PR,或者代表我發(fā)送了一封郵件、Slack 消息。如果它做得不好,那就有后果了。至少我會感到尷尬,可能還會損失一些錢。
因此,可靠性變得比過去更加重要。我認(rèn)為,在考慮可靠性時有一個經(jīng)驗法則,從 90% 提高到 99% 的可靠性,可能需要在計算上增加一個數(shù)量級。你知道,這是一個 10 倍代數(shù)。而從 99% 到 99.9% 的可靠性,又是另一個數(shù)量級。所以每增加一個 9,就需要模型性能的巨大飛躍。你知道,10 倍的改進,這是非常大的進展,相當(dāng)于一年或兩年的工作量。所以我認(rèn)為,這確實是我們將面臨的第一個問題。
3.談多模態(tài),下一代Sora生成時長一小時
主持人:還有什么特別感興趣的領(lǐng)域嗎?
Bob McGrew: 另一個非常令人興奮的事情是多模態(tài)的“大日子”。今天的多模態(tài)“大日子”標(biāo)志著一個漫長歷程的高潮。在2018年左右,變換器(Transformer)技術(shù)被發(fā)明出來后,一個顯而易見的事實是:這種技術(shù)可以被應(yīng)用于其他模態(tài)。
多模態(tài)包括視覺模態(tài),如圖像輸出,還有音頻輸入和輸出。一開始,這些功能主要存在于獨立的模型中,比如“DALL-E”或“Whisper”。最終,它們被整合進主模型中。而長期以來抵制整合的模態(tài)之一是視頻模態(tài)。你知道,Sora(模型)可能是第一個展示這種技術(shù)的案例,之后也有其他公司推出相似的模型,但現(xiàn)在 Sora 自身已經(jīng)正式發(fā)布了。
視頻與其他模態(tài)相比有兩個有趣且不同的特點。
在創(chuàng)建圖像時,你可能只需要一個提示,模型就可以生成一張圖像。如果你是專業(yè)的平面設(shè)計師,可能會對細(xì)節(jié)進行調(diào)整。但對大多數(shù)人來說,圖像的用途是很直觀的,比如用于幻燈片、推文或演示文稿。
但視頻則不同。它是一個擴展的事件序列,而不是一個簡單的提示生成過程。因此,你需要一個完整的用戶界面,并考慮如何讓這個故事隨著時間的推移展開。
這也是 Sora 發(fā)布中的一個關(guān)鍵點。相比其他平臺,Sora 的產(chǎn)品團隊在這方面投入了更多時間來思考。此外,視頻制作的成本非常高。
訓(xùn)練和運行這些視頻生成模型的成本都非常高。盡管 Sora 的視頻質(zhì)量很出色,但想要看出明顯的質(zhì)量提升需要仔細(xì)觀察——特別是短時間片段時。現(xiàn)在,任何擁有 Plus 賬戶的用戶都可以使用 Sora 模型。OpenAI 還推出了每月 200 美元的 Pro 賬戶,允許用戶進行不限速的 Sora 視頻生成。擁有這樣的質(zhì)量和分發(fā)能力解決了兩大難題,而這對競爭者來說將是一個很高的門檻。
主持人:你覺得未來幾年,生成式視頻模型會發(fā)展成什么樣子?在 LLM 模型領(lǐng)域,模型每年都變得更快、更便宜,你預(yù)計視頻領(lǐng)域會有類似的改進嗎?
我認(rèn)為類比是非常直觀的。未來兩年,視頻模型的質(zhì)量會更高?,F(xiàn)在的即時生成質(zhì)量已經(jīng)很好了,例如反射、煙霧等復(fù)雜效果都能實現(xiàn)。困難之處在于延續(xù)性和連貫性。Sora 的團隊開發(fā)了一個故事板功能,允許用戶每隔 5 秒或 10 秒設(shè)置檢查點,引導(dǎo)生成過程。
從幾秒鐘的視頻生成擴展到一個小時的視頻,這依然是一個難題。我認(rèn)為這是你會在下一代模型中看到的。我認(rèn)為未來的視頻模型將和 GPT-3 的發(fā)展類似。GPT-3 剛發(fā)布時生成一個高質(zhì)量 token 的成本比現(xiàn)在高 100 倍。同樣,未來 Sora 的高質(zhì)量視頻生成成本也會大幅降低。
主持人:AI 是否可能制作出完整的電影,甚至贏得一些獎項?你認(rèn)為大概會在什么時候?qū)崿F(xiàn)?
Bob McGrew:老實說,獲獎的門檻其實有點低。真正的問題是,這是不是一部你真的想看的電影?我認(rèn)為兩年內(nèi)我們會看到這樣的電影。但電影吸引人的原因不會是因為技術(shù),而是因為導(dǎo)演有獨特的創(chuàng)意,并利用視頻生成模型實現(xiàn)這些創(chuàng)意。這些是傳統(tǒng)電影無法完成的。
4.OpenAI的多次“重建”:必然的選擇
主持人:我們很幸運能夠研究過Palantir和OpenAI,當(dāng)你想到OpenAI時,已經(jīng)有很多文章講述了Palantir文化的獨特之處。我相信將來會有很多關(guān)于它文化的文章,你認(rèn)為這些文章會說什么?
Bob McGrew :是的,我想其中一部分是與研究人員合作,這是我們剛才討論過的。
OpenAI另一個非常特別的地方是,它經(jīng)歷了很多次轉(zhuǎn)型,甚至可以說是多次“重建”。當(dāng)我加入OpenAI時,它是一個非營利組織,公司的愿景是通過撰寫論文來實現(xiàn)AGI(通用人工智能)。但我們知道這種方法不對勁。很多早期的成員,包括Sam(Altman)、Greg(Brockman)和我自己,都是初創(chuàng)公司的背景。那時候,這條實現(xiàn)AGI的道路總感覺不太對。幾年后,OpenAI從非營利組織轉(zhuǎn)變?yōu)闋I利性組織,這在公司內(nèi)部引起了極大的爭議。部分原因是,我們意識到遲早要與產(chǎn)品打交道,必須考慮如何盈利。
與微軟的合作也是一個“重建時刻”,并且非常有爭議。賺錢已經(jīng)是一回事,但把利益交給微軟這樣的科技巨頭?這在當(dāng)時被認(rèn)為是極具爭議的決定。之后,我們決定不僅與微軟合作,還要利用API構(gòu)建自己的產(chǎn)品。最后,通過ChatGPT將消費者與企業(yè)用戶結(jié)合起來。這些轉(zhuǎn)變中的任何一個,放在一般初創(chuàng)公司身上都會具有決定性意義。而在OpenAI,這種根本性的變化大約每18個月到兩年就會發(fā)生一次。我們從撰寫論文的角色,轉(zhuǎn)變?yōu)闃?gòu)建一個全世界都能使用的模型。這種變化確實很瘋狂。如果在2017年問我們正確的使命是什么,我們可能不會選擇通過寫論文實現(xiàn)AGI,而是希望建立一個每個人都能使用的模型。只不過當(dāng)時我們不知道如何實現(xiàn)目標(biāo),只能通過探索不斷發(fā)現(xiàn)。
主持人:你認(rèn)為是什么讓你們?nèi)绱顺晒Φ貙崿F(xiàn)了這些重大轉(zhuǎn)變?
Bob McGrew :我認(rèn)為,主要是出于必要性。沒有一次轉(zhuǎn)變是隨意選擇的。
例如,當(dāng)你運營一個非營利組織,資金耗盡時,你必須找到籌集資金的方法。為了籌集資金,你可能需要成為一個營利性機構(gòu)。與微軟合作也是類似的情況,也許他們一開始并沒有看到我們創(chuàng)建的模型的價值,所以我們需要開發(fā)一個API,通過這種方式向他們證明這些模型確實受到人們歡迎。
至于ChatGPT,我們在GPT-3發(fā)布后就確信,如果取得一些關(guān)鍵的技術(shù)進步,模型不應(yīng)該僅僅以API的形式出現(xiàn),而是可以直接進行對話的工具。所以這個轉(zhuǎn)變是比較有意識的。然而眾所周知,它的發(fā)布方式有些偶然。當(dāng)時,我們正在研發(fā)中,實際上已經(jīng)完成了GPT-4的訓(xùn)練。我們希望等模型足夠好的時候再發(fā)布。
2022年11月,我們內(nèi)部測試ChatGPT時,并不認(rèn)為它完全達(dá)標(biāo)。但領(lǐng)導(dǎo)團隊的John Schulman堅持說,“我們應(yīng)該發(fā)布它,獲得一些外部反饋?!?/strong>我記得當(dāng)時覺得,如果能有1000人使用就算成功了。我們設(shè)置的成功門檻很低,并做出了一個關(guān)鍵決定——沒有將它放在等待名單之后。而最終,全球用戶的熱情讓它迅速流行起來。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
