o1就是GPT-5!前OpenAI首席研究員大爆猛料,揭露罕見內(nèi)部視角!不同意Ilya預(yù)訓(xùn)練終止論斷:根本在于等待數(shù)據(jù)中心建成
原創(chuàng) 精選編輯 | 伊風(fēng)
OpenAI第10天的更新還有人追嗎?
今天這個(gè)腦洞大開的上新,把期待GPT-4.5的通義大佬直接看懵了——咋是Phone call呢?
圖片
沒錯(cuò),今天上線的就是這個(gè):ChatGPT的熱線電話。美國(guó)用戶撥打1-800-ChatGPT(1-800-242-8478),即可隨時(shí)隨地和AI熱聊……
圖片
網(wǎng)友又開始建議OpenAI:沒活了就去咬個(gè)打火機(jī)。
還是說回下一代模型,GPT-4過去一年半了,OpenAI一直遛觀眾就是不發(fā)新成果。
昨天,OpenAI前首席研究官Bob McGrew的播客首秀上線,直接給人干絕望了:o1就是GPT-5。只是我們決定叫它o1。
“GPT-4 已經(jīng)是大約一年半前的成果,而在它發(fā)布之前就已經(jīng)完成了訓(xùn)練。那么問題是:為什么之后沒有什么新東西出來呢?”
Bob說在這個(gè)問題上內(nèi)外部視角會(huì)完全不同。外界的人會(huì)想:“我們是不是遇到了數(shù)據(jù)瓶頸?到底發(fā)生了什么?” 而內(nèi)部更能感知到,計(jì)算能力如何限制了預(yù)訓(xùn)練的進(jìn)一步進(jìn)展——每下一代就增加100倍計(jì)算量。
因此他說,“o1本質(zhì)上本質(zhì)上是一代新的模型,比GPT-4增加了100倍的計(jì)算。很多人沒有意識(shí)到這一點(diǎn),因?yàn)楫?dāng)時(shí)的決定是將其命名為 o1 而不是 GPT-5。”
圖片
也因此,他和Ilya「預(yù)訓(xùn)練已到盡頭」的論斷不同,他認(rèn)為預(yù)訓(xùn)練仍有潛力,根本問題是「等待新的數(shù)據(jù)中心的建成」。
在o1預(yù)覽版發(fā)布后一天,Bob就宣布了辭職。他說,在OpenAI工作的八年中,他完成了包括預(yù)訓(xùn)練、多模態(tài)推理等許多的目標(biāo)。尤其在o1的特別項(xiàng)目后,他覺得是時(shí)候把工作交給年輕人了。
圖片
即使在AI炒作盛行的今天,他認(rèn)為o1仍然被低估了?!半m然o1被很多人談?wù)?,但是否受到了恰?dāng)?shù)年P(guān)注?并沒有。我認(rèn)為它被低估了”。
關(guān)于封閉的OpenAI,前CRO Bob McGrew 帶來了罕見的內(nèi)部視角,讓我們能深入地一探究竟:OpenAI到底發(fā)生了什么?AI撞墻了嗎?為什么說o1被低估了?下一代模型到底還來不來了!
上圖:Bob的工作經(jīng)歷
以下是播客內(nèi)容的精華整理,enjoy:
1.o1就是GPT-5,預(yù)訓(xùn)練還將繼續(xù)
主持人:先從一個(gè)目前大家都很關(guān)心的問題開始。這個(gè)問題圍繞著一個(gè)大的爭(zhēng)論點(diǎn)——我們是否在模型能力上已經(jīng)遇到了瓶頸。所以我很想聽聽你的看法,以及你覺得在預(yù)訓(xùn)練方面是否還有潛力可挖。
Ilya認(rèn)為預(yù)訓(xùn)練即將終止
Bob McGrew :這是一個(gè)外界觀察者和大實(shí)驗(yàn)室內(nèi)部視角差異最大的話題之一。
我覺得,從外界的角度來看,很多人可能是從 ChatGPT 開始關(guān)注 AI 的,然后六個(gè)月后,GPT-4 出現(xiàn)了,大家感覺進(jìn)展很快,一切都在加速發(fā)展。但隨后你會(huì)發(fā)現(xiàn),GPT-4 已經(jīng)是大約一年半前的成果,而在它發(fā)布之前就已經(jīng)完成了訓(xùn)練。那么問題是:為什么之后沒有什么新東西出來呢?
而內(nèi)部的視角則完全不同。外界的人會(huì)想:“我們是不是遇到了數(shù)據(jù)瓶頸?到底發(fā)生了什么?” 但必須記住,特別是在預(yù)訓(xùn)練的進(jìn)展上,這需要在計(jì)算能力上有大幅度的提升。從 GPT-2 到 GPT-3,或者從 GPT-3 到 GPT-4,這意味著計(jì)算能力的有效提升達(dá)到 100 倍。這種提升依賴于多個(gè)方面的組合,比如增加更多計(jì)算單元、更大規(guī)模的數(shù)據(jù)中心,以及算法改進(jìn)。
算法改進(jìn)確實(shí)能帶來一些提升,比如 50%、2 倍甚至 3 倍的提升已經(jīng)非常驚人了。但從根本上來說,你還是需要等待新的數(shù)據(jù)中心建成。事實(shí)上,現(xiàn)在正在建造的新數(shù)據(jù)中心并不少。你可以看看新聞,會(huì)發(fā)現(xiàn) Meta 和其他前沿實(shí)驗(yàn)室正在建設(shè)新的數(shù)據(jù)中心,盡管有些可能不會(huì)成為新聞。
但從根本上來說,這是一個(gè)非常緩慢的多年進(jìn)程。實(shí)際上,在看到 GPT-4 到 GPT-5 的全面提升之前,你可能會(huì)先看到一個(gè)僅有 10 倍提升的版本。人們往往忘記了我們是從 GPT-3 到 GPT-3.5,再到 GPT-4。
目前有趣的一點(diǎn)是,我們?cè)谑褂脧?qiáng)化學(xué)習(xí)進(jìn)行改進(jìn)時(shí)取得了一些進(jìn)展。以 o1 為例,從多個(gè)指標(biāo)來看,它的計(jì)算能力比 GPT-4 高了 100 倍。我想很多人沒有意識(shí)到這一點(diǎn),因?yàn)楫?dāng)時(shí)的決定是將其命名為 o1 而不是 GPT-5。但實(shí)際上,這本質(zhì)上是一代新的模型。
當(dāng) GPT-4.5 或下一個(gè)世代的模型完成訓(xùn)練時(shí),有趣的問題會(huì)是:這種預(yù)訓(xùn)練的進(jìn)展如何與強(qiáng)化學(xué)習(xí)過程疊加起來?我覺得這將是我們需要等待宣布的東西。
主持人:最大的一個(gè)問題是,隨著多同步過程進(jìn)入2025年,你認(rèn)為明年在 AI 領(lǐng)域會(huì)有像去年一樣的進(jìn)展嗎?還是說事情可能會(huì)開始變得慢一些?
Bob McGrew :嗯,我認(rèn)為會(huì)有進(jìn)展,不過這會(huì)是不同類型的進(jìn)展。你知道,當(dāng)你進(jìn)入下一代模型時(shí),總會(huì)遇到上一代沒看到的問題。所以,即使數(shù)據(jù)中心已經(jīng)建立起來,仍然需要時(shí)間去解決問題并完成模型。我們用來訓(xùn)練 o1 的強(qiáng)化學(xué)習(xí)過程,OpenAI 用來訓(xùn)練 o1,實(shí)際上它是通過創(chuàng)造一個(gè)更長(zhǎng)的、連貫的思維鏈,實(shí)際上就像是把更多計(jì)算能力壓縮到答案里。
所以,你知道,如果你有一個(gè)模型需要幾秒鐘來生成一個(gè)答案,而另一個(gè)模型可能需要幾個(gè)小時(shí)來生成答案,如果你能充分利用這個(gè)過程,那就是 10000 倍的計(jì)算能力差距。老實(shí)說,我們從大概2020年開始就在思考如何在測(cè)試階段利用計(jì)算能力,直到現(xiàn)在,我覺得這才是真正的答案,如何做到這一點(diǎn),而不浪費(fèi)太多計(jì)算資源。
更棒的是,這并不需要新的數(shù)據(jù)中心。所以在這里,有很多空間可以改進(jìn),這是一個(gè)剛剛開始的全新技術(shù),還有很多算法上的改進(jìn)空間。理論上沒有理由不能將用于 o1 的基本原理和方法,擴(kuò)展到更長(zhǎng)的思考時(shí)間。你看,從 GPT-4 能做到幾秒鐘到 o1 花 30 秒、一分鐘,甚至幾分鐘的時(shí)間去思考,你也可以把這些技術(shù)擴(kuò)展到幾小時(shí)甚至幾天。
當(dāng)然,像我們從 GPT-3 到 GPT-4 的升級(jí)一樣,并沒有出現(xiàn)什么基礎(chǔ)性的、全新的技術(shù),二者的訓(xùn)練方式基本相同,但規(guī)?;欠浅@щy的。所以,實(shí)際上最重要的就是能否做到這種規(guī)?;?。我認(rèn)為,這就是我們?cè)?2025 年會(huì)看到的最令人興奮的進(jìn)展。
2.讓o1真正發(fā)揮價(jià)值的,應(yīng)該是Agent
主持人:你看到o1有哪些有趣的工作案例?
Bob McGrew :當(dāng)我們考慮發(fā)布o(jì)1預(yù)覽時(shí),有很多問題:人們會(huì)使用它嗎?我需要用這個(gè)模型做什么,才能真正從中獲得價(jià)值?
你知道,編程是一個(gè)很好的用例。另一個(gè)例子是,如果你正在寫一份政策簡(jiǎn)報(bào),你正在寫一份很長(zhǎng)的文件,它需要做出感知,需要把所有的東西聯(lián)系在一起。
事實(shí)上,大多數(shù)非程序員的人沒有像這樣每天需要做的事情。但是回到這里潛在的突破,那就是你有一個(gè)連貫的思想鏈,一種連貫的,你知道的,在問題上取得進(jìn)展的方式。
這不僅需要考慮問題,還可以采取行動(dòng),制定行動(dòng)計(jì)劃。所以,我最感興趣的是像o1這樣的模型,我相信很快會(huì)有其他實(shí)驗(yàn)室的其他模型使用它們來真正實(shí)現(xiàn)長(zhǎng)期行動(dòng)。
你知道,基本上是智能體——雖然我覺得這個(gè)詞被用得太多,已經(jīng)不太能準(zhǔn)確傳達(dá)我們真正想做的事情了。但我生活中有各種任務(wù),我希望模型能為我預(yù)定、為我購(gòu)物、為我解決問題,方式是它與外界互動(dòng)。所以我認(rèn)為我們真正需要搞清楚的是這個(gè)形式因素是什么?我們?cè)趺醋??我覺得還沒有人完全搞明白這一點(diǎn)。
主持人:完全能理解。我覺得每個(gè)人都會(huì)想象這些代理人能做什么,能為個(gè)人和企業(yè)解決多少問題。那么,今天我們距離實(shí)現(xiàn)這一點(diǎn)還有哪些大問題呢?顯然,你已經(jīng)看到了一些早期模型,比如 Anthropic 發(fā)布的計(jì)算機(jī)使用模型,當(dāng)然,其他實(shí)驗(yàn)室也在做這方面的工作。那么,當(dāng)你考慮什么阻礙我們今天實(shí)現(xiàn)這一目標(biāo)時(shí),最難解決的問題是什么?
Bob McGrew :要解決的難題還有很多。我認(rèn)為最緊迫的問題是可靠性。
如果我讓某個(gè)代理人暫時(shí)先不做事情,如果我讓一個(gè)代理人代表我做某件事,哪怕只是寫一些代碼,假設(shè)我需要離開 5 分鐘或者 1 個(gè)小時(shí),讓它自己工作,如果它偏離任務(wù)并且犯了個(gè)錯(cuò)誤,我回來時(shí)發(fā)現(xiàn)它什么都沒做,那我就浪費(fèi)了一個(gè)小時(shí),這可是個(gè)大問題。
再加上這個(gè)代理人將要在現(xiàn)實(shí)世界中采取行動(dòng)。也許它為我買了東西,或者提交了一個(gè) PR,或者代表我發(fā)送了一封郵件、Slack 消息。如果它做得不好,那就有后果了。至少我會(huì)感到尷尬,可能還會(huì)損失一些錢。
因此,可靠性變得比過去更加重要。我認(rèn)為,在考慮可靠性時(shí)有一個(gè)經(jīng)驗(yàn)法則,從 90% 提高到 99% 的可靠性,可能需要在計(jì)算上增加一個(gè)數(shù)量級(jí)。你知道,這是一個(gè) 10 倍代數(shù)。而從 99% 到 99.9% 的可靠性,又是另一個(gè)數(shù)量級(jí)。所以每增加一個(gè) 9,就需要模型性能的巨大飛躍。你知道,10 倍的改進(jìn),這是非常大的進(jìn)展,相當(dāng)于一年或兩年的工作量。所以我認(rèn)為,這確實(shí)是我們將面臨的第一個(gè)問題。
3.談多模態(tài),下一代Sora生成時(shí)長(zhǎng)一小時(shí)
主持人:還有什么特別感興趣的領(lǐng)域嗎?
Bob McGrew: 另一個(gè)非常令人興奮的事情是多模態(tài)的“大日子”。今天的多模態(tài)“大日子”標(biāo)志著一個(gè)漫長(zhǎng)歷程的高潮。在2018年左右,變換器(Transformer)技術(shù)被發(fā)明出來后,一個(gè)顯而易見的事實(shí)是:這種技術(shù)可以被應(yīng)用于其他模態(tài)。
多模態(tài)包括視覺模態(tài),如圖像輸出,還有音頻輸入和輸出。一開始,這些功能主要存在于獨(dú)立的模型中,比如“DALL-E”或“Whisper”。最終,它們被整合進(jìn)主模型中。而長(zhǎng)期以來抵制整合的模態(tài)之一是視頻模態(tài)。你知道,Sora(模型)可能是第一個(gè)展示這種技術(shù)的案例,之后也有其他公司推出相似的模型,但現(xiàn)在 Sora 自身已經(jīng)正式發(fā)布了。
視頻與其他模態(tài)相比有兩個(gè)有趣且不同的特點(diǎn)。
在創(chuàng)建圖像時(shí),你可能只需要一個(gè)提示,模型就可以生成一張圖像。如果你是專業(yè)的平面設(shè)計(jì)師,可能會(huì)對(duì)細(xì)節(jié)進(jìn)行調(diào)整。但對(duì)大多數(shù)人來說,圖像的用途是很直觀的,比如用于幻燈片、推文或演示文稿。
但視頻則不同。它是一個(gè)擴(kuò)展的事件序列,而不是一個(gè)簡(jiǎn)單的提示生成過程。因此,你需要一個(gè)完整的用戶界面,并考慮如何讓這個(gè)故事隨著時(shí)間的推移展開。
這也是 Sora 發(fā)布中的一個(gè)關(guān)鍵點(diǎn)。相比其他平臺(tái),Sora 的產(chǎn)品團(tuán)隊(duì)在這方面投入了更多時(shí)間來思考。此外,視頻制作的成本非常高。
訓(xùn)練和運(yùn)行這些視頻生成模型的成本都非常高。盡管 Sora 的視頻質(zhì)量很出色,但想要看出明顯的質(zhì)量提升需要仔細(xì)觀察——特別是短時(shí)間片段時(shí)?,F(xiàn)在,任何擁有 Plus 賬戶的用戶都可以使用 Sora 模型。OpenAI 還推出了每月 200 美元的 Pro 賬戶,允許用戶進(jìn)行不限速的 Sora 視頻生成。擁有這樣的質(zhì)量和分發(fā)能力解決了兩大難題,而這對(duì)競(jìng)爭(zhēng)者來說將是一個(gè)很高的門檻。
主持人:你覺得未來幾年,生成式視頻模型會(huì)發(fā)展成什么樣子?在 LLM 模型領(lǐng)域,模型每年都變得更快、更便宜,你預(yù)計(jì)視頻領(lǐng)域會(huì)有類似的改進(jìn)嗎?
我認(rèn)為類比是非常直觀的。未來兩年,視頻模型的質(zhì)量會(huì)更高?,F(xiàn)在的即時(shí)生成質(zhì)量已經(jīng)很好了,例如反射、煙霧等復(fù)雜效果都能實(shí)現(xiàn)。困難之處在于延續(xù)性和連貫性。Sora 的團(tuán)隊(duì)開發(fā)了一個(gè)故事板功能,允許用戶每隔 5 秒或 10 秒設(shè)置檢查點(diǎn),引導(dǎo)生成過程。
從幾秒鐘的視頻生成擴(kuò)展到一個(gè)小時(shí)的視頻,這依然是一個(gè)難題。我認(rèn)為這是你會(huì)在下一代模型中看到的。我認(rèn)為未來的視頻模型將和 GPT-3 的發(fā)展類似。GPT-3 剛發(fā)布時(shí)生成一個(gè)高質(zhì)量 token 的成本比現(xiàn)在高 100 倍。同樣,未來 Sora 的高質(zhì)量視頻生成成本也會(huì)大幅降低。
主持人:AI 是否可能制作出完整的電影,甚至贏得一些獎(jiǎng)項(xiàng)?你認(rèn)為大概會(huì)在什么時(shí)候?qū)崿F(xiàn)?
Bob McGrew:老實(shí)說,獲獎(jiǎng)的門檻其實(shí)有點(diǎn)低。真正的問題是,這是不是一部你真的想看的電影?我認(rèn)為兩年內(nèi)我們會(huì)看到這樣的電影。但電影吸引人的原因不會(huì)是因?yàn)榧夹g(shù),而是因?yàn)閷?dǎo)演有獨(dú)特的創(chuàng)意,并利用視頻生成模型實(shí)現(xiàn)這些創(chuàng)意。這些是傳統(tǒng)電影無(wú)法完成的。
4.OpenAI的多次“重建”:必然的選擇
主持人:我們很幸運(yùn)能夠研究過Palantir和OpenAI,當(dāng)你想到OpenAI時(shí),已經(jīng)有很多文章講述了Palantir文化的獨(dú)特之處。我相信將來會(huì)有很多關(guān)于它文化的文章,你認(rèn)為這些文章會(huì)說什么?
Bob McGrew :是的,我想其中一部分是與研究人員合作,這是我們剛才討論過的。
OpenAI另一個(gè)非常特別的地方是,它經(jīng)歷了很多次轉(zhuǎn)型,甚至可以說是多次“重建”。當(dāng)我加入OpenAI時(shí),它是一個(gè)非營(yíng)利組織,公司的愿景是通過撰寫論文來實(shí)現(xiàn)AGI(通用人工智能)。但我們知道這種方法不對(duì)勁。很多早期的成員,包括Sam(Altman)、Greg(Brockman)和我自己,都是初創(chuàng)公司的背景。那時(shí)候,這條實(shí)現(xiàn)AGI的道路總感覺不太對(duì)。幾年后,OpenAI從非營(yíng)利組織轉(zhuǎn)變?yōu)闋I(yíng)利性組織,這在公司內(nèi)部引起了極大的爭(zhēng)議。部分原因是,我們意識(shí)到遲早要與產(chǎn)品打交道,必須考慮如何盈利。
與微軟的合作也是一個(gè)“重建時(shí)刻”,并且非常有爭(zhēng)議。賺錢已經(jīng)是一回事,但把利益交給微軟這樣的科技巨頭?這在當(dāng)時(shí)被認(rèn)為是極具爭(zhēng)議的決定。之后,我們決定不僅與微軟合作,還要利用API構(gòu)建自己的產(chǎn)品。最后,通過ChatGPT將消費(fèi)者與企業(yè)用戶結(jié)合起來。這些轉(zhuǎn)變中的任何一個(gè),放在一般初創(chuàng)公司身上都會(huì)具有決定性意義。而在OpenAI,這種根本性的變化大約每18個(gè)月到兩年就會(huì)發(fā)生一次。我們從撰寫論文的角色,轉(zhuǎn)變?yōu)闃?gòu)建一個(gè)全世界都能使用的模型。這種變化確實(shí)很瘋狂。如果在2017年問我們正確的使命是什么,我們可能不會(huì)選擇通過寫論文實(shí)現(xiàn)AGI,而是希望建立一個(gè)每個(gè)人都能使用的模型。只不過當(dāng)時(shí)我們不知道如何實(shí)現(xiàn)目標(biāo),只能通過探索不斷發(fā)現(xiàn)。
主持人:你認(rèn)為是什么讓你們?nèi)绱顺晒Φ貙?shí)現(xiàn)了這些重大轉(zhuǎn)變?
Bob McGrew :我認(rèn)為,主要是出于必要性。沒有一次轉(zhuǎn)變是隨意選擇的。
例如,當(dāng)你運(yùn)營(yíng)一個(gè)非營(yíng)利組織,資金耗盡時(shí),你必須找到籌集資金的方法。為了籌集資金,你可能需要成為一個(gè)營(yíng)利性機(jī)構(gòu)。與微軟合作也是類似的情況,也許他們一開始并沒有看到我們創(chuàng)建的模型的價(jià)值,所以我們需要開發(fā)一個(gè)API,通過這種方式向他們證明這些模型確實(shí)受到人們歡迎。
至于ChatGPT,我們?cè)贕PT-3發(fā)布后就確信,如果取得一些關(guān)鍵的技術(shù)進(jìn)步,模型不應(yīng)該僅僅以API的形式出現(xiàn),而是可以直接進(jìn)行對(duì)話的工具。所以這個(gè)轉(zhuǎn)變是比較有意識(shí)的。然而眾所周知,它的發(fā)布方式有些偶然。當(dāng)時(shí),我們正在研發(fā)中,實(shí)際上已經(jīng)完成了GPT-4的訓(xùn)練。我們希望等模型足夠好的時(shí)候再發(fā)布。
2022年11月,我們內(nèi)部測(cè)試ChatGPT時(shí),并不認(rèn)為它完全達(dá)標(biāo)。但領(lǐng)導(dǎo)團(tuán)隊(duì)的John Schulman堅(jiān)持說,“我們應(yīng)該發(fā)布它,獲得一些外部反饋?!?/strong>我記得當(dāng)時(shí)覺得,如果能有1000人使用就算成功了。我們?cè)O(shè)置的成功門檻很低,并做出了一個(gè)關(guān)鍵決定——沒有將它放在等待名單之后。而最終,全球用戶的熱情讓它迅速流行起來。