編輯 | 言征、伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
在炒作將近9個(gè)月后,OpenAI代號(hào)“草莓”的模型o1終于深夜突然亮相,一時(shí)間具備試用資格的大牛紛紛開(kāi)始了測(cè)評(píng),業(yè)內(nèi)許多AI項(xiàng)目、公司的大佬如英偉達(dá)高級(jí)研究經(jīng)理JimFan、Devin的DeepWisdom創(chuàng)始人紛紛發(fā)表了自己對(duì)于o1的使用感受。
整體上看分兩派:一派認(rèn)為o1代表著Scaling Law以外的新賽道的開(kāi)啟,另一派則認(rèn)為——
“炒作大于實(shí)際”、“有坑”、“很難說(shuō)”。
這里不再花篇幅去介紹這款主打“慢思考”的模型的官宣能力。僅僅長(zhǎng)話短說(shuō)地列舉開(kāi)發(fā)者最關(guān)心的幾個(gè)信息。
一、開(kāi)啟復(fù)雜任務(wù)推理新賽道
通用模型GPT5發(fā)布前,開(kāi)啟復(fù)雜推理模型賽道OpenAI o1。o1在回答前,會(huì)反復(fù)的思考、拆解、理解、推理,然后給出最終答案。
通過(guò)Self-play RL,o1學(xué)會(huì)了回溯、打磨自己的思維鏈并完善所使用的策略,學(xué)會(huì)了將復(fù)雜步驟拆解為更簡(jiǎn)單的子步驟,并能識(shí)別和糾正自己的錯(cuò)誤。
o1工作原理:先思考,再總結(jié)輸出 圖源:賽博禪心
二、兩款:preview主打強(qiáng)推理,mini主打代碼
o1-preview:預(yù)覽版具有很強(qiáng)的推理能力和廣闊的世界知識(shí),但還沒(méi)有達(dá)到滿血o1的性能,還會(huì)持續(xù)更新和改進(jìn);
o1-mini:更快、更便宜(o1-mini 比 o1-preview 便宜 80%),在代碼方面特別有效,特別適合開(kāi)發(fā)人員使用。
三、速率限制和價(jià)格
不過(guò)主打“慢思考”的草莓,OpenAI對(duì)外開(kāi)放的相當(dāng)吝嗇:竟然以周為單位來(lái)計(jì)算對(duì)話條數(shù):
- o1-preview 的每周速率限制為 30 條消息
- o1-mini 的每周速率限制為 50 條消息
而對(duì)于開(kāi)發(fā)者而言,只面向Tier5級(jí)別(付費(fèi)超過(guò)1000美元)的用戶開(kāi)放,每分鐘并發(fā)限制20次。
不過(guò),價(jià)格上面卻是個(gè)令人頭疼的家伙。
API的價(jià)格上,o1預(yù)覽版每百萬(wàn)輸入15美元,每百萬(wàn)輸出60美元,o1-mini會(huì)便宜一些,每百萬(wàn)輸入3美元,每百萬(wàn)輸出12美元。
而對(duì)于這個(gè)價(jià)格,賽博禪心認(rèn)為這個(gè)模型有坑:在正常使用中,o1 的開(kāi)銷,會(huì)比 4o 貴百倍!因?yàn)?,?pricing table 上看,o1 的價(jià)格是 4o 的 6 倍,但這是有迷惑性的!o1 計(jì)費(fèi)并不按最終輸出,其中間思考過(guò)程所消耗的 token,并被視作 output tokens,這意味著 100 tokens 的內(nèi)容輸出,可能會(huì)被按 10000 tokens 計(jì)費(fèi)。
這一點(diǎn)也得了“NLP工作站”博主劉聰NLP的認(rèn)證:內(nèi)在思維鏈比思維鏈長(zhǎng)的多。
o1展示的外部思維鏈:
圖片
但內(nèi)部隱藏的未對(duì)齊的思維鏈卻非常長(zhǎng):
圖片
四、幕后團(tuán)隊(duì)
可以看到在基礎(chǔ)貢獻(xiàn)一欄里,大佬Ilya赫然在列。完整表單見(jiàn):
https://openai.com/openai-o1-contributions/
圖片
此次,OpenAI還特別發(fā)布了一支幕后團(tuán)隊(duì)的特別短片,來(lái)聊聊他們對(duì)o1的想法。
圖片
第一個(gè)發(fā)言的男生就是華人面孔,領(lǐng)導(dǎo)了整個(gè)o1研發(fā)的Mark Chen,他解釋了o1的命名背后的原因:“與GPT-4o等以前的型號(hào)相比,您可能會(huì)感到不同。正如其他人稍后會(huì)解釋的那樣,o1是一個(gè)推理模型,因此它會(huì)思考更多?!?/p>
他從麻省理工大學(xué)畢業(yè),已經(jīng)在OpenAI工作了6年之久,現(xiàn)任研究副總裁一職。
圖片
五、網(wǎng)友實(shí)測(cè)
1.9.8和9.11的無(wú)限反思
小紅書(shū)網(wǎng)友@小水剛醒 反饋,“一上難度就崩潰……讓模型比較9.8和9.11的大小,結(jié)果無(wú)限循環(huán)發(fā)瘋般CoT”
圖片
另一位網(wǎng)友@ChRlesWaa在評(píng)論區(qū)吐槽o1依舊沒(méi)主見(jiàn),“很垃圾,和以前一樣一反問(wèn)就改答案”。
圖片
2.卡茲克:“中秋國(guó)慶調(diào)休”問(wèn)題沒(méi)有翻車
“這是中國(guó)2024年9月9日(星期一)開(kāi)始到10月13日的放假調(diào)休安排:上6休3上3休2上5休1上2休7再上5休1。
請(qǐng)你告訴我除了我本來(lái)該休的周末,我因?yàn)榉偶俣嘈菹⒘藥滋欤俊?/p>
在o1思考了整整30秒以后,給出了一天不差的極度精準(zhǔn)的答案。
圖片
圖片
不過(guò)據(jù)小編觀察,卡茲克這次的提問(wèn)應(yīng)該有運(yùn)氣的成分,因?yàn)橛衅渌┲鳒y(cè)試了同樣的問(wèn)題,翻車了:最后的回答是多休了2天~
圖片
3.賽博禪心:有坑,更像是工程優(yōu)化
賽博禪心隨后進(jìn)行了與其說(shuō)是模型優(yōu)化,不如說(shuō)是工程優(yōu)化
圖片
因?yàn)樗麖挠?xùn)練數(shù)據(jù)和訓(xùn)練時(shí)間發(fā)現(xiàn),o1的截止時(shí)間是2023年10月,而GPT-4-turbo的時(shí)間則更晚是2023年12月,新舊立見(jiàn)了~ GPT-4在o1之后。
此外,o1與4o的輸出語(yǔ)言風(fēng)格高度類似,可以猜測(cè)是草莓視4o進(jìn)行對(duì)齊之后的agent版本。
圖片
4.預(yù)訓(xùn)練工程師:小修小補(bǔ),很難說(shuō)是突破
小紅書(shū)上的一位大模型預(yù)訓(xùn)練算法工程師,則發(fā)表了更為消極的看法,“深夜看到o1發(fā)布,感覺(jué)我的職業(yè)生涯結(jié)束了”,他認(rèn)為o1實(shí)際還在做“小修小補(bǔ)”,并且也將難以看到范式上的其他突破了。他說(shuō),未來(lái)的方向也許是“功能專精模型和多模態(tài)真正融合”。
圖片
六、Devin:自我反思與傳統(tǒng)提示詞的革新時(shí)刻
過(guò)去幾周跟OpenAI有密切合作的Cognition團(tuán)隊(duì)也第一時(shí)間對(duì)o1的推理能力進(jìn)行了測(cè)試。
團(tuán)隊(duì)使用簡(jiǎn)化版本的Devin進(jìn)行了測(cè)試,與4o相比,o1具有驚人的反思和分析能力。它通常會(huì)回溯并考慮不同的選擇,然后才能得出正確的答案,并且產(chǎn)生幻覺(jué)或自信的錯(cuò)誤的概率也很低。
并透露:使用o1-preview時(shí),Devin更容易正確診斷問(wèn)題的根本原因,而不是解決問(wèn)題的癥狀。
并舉了一個(gè)例子:Devin遇到了一個(gè)錯(cuò)誤,o1就像人類一樣搜索互聯(lián)網(wǎng),并經(jīng)過(guò)幾步后找到了與其問(wèn)題相關(guān)的Github問(wèn)題。
但是,o1需要的提示詞明顯更加密集,對(duì)混亂和不必要的token也會(huì)更加敏感。傳統(tǒng)的提示詞方法通常會(huì)有冗余,這會(huì)對(duì)o1的性能造成負(fù)面影響。
不過(guò)關(guān)于這一點(diǎn),有人士發(fā)表了不同的看法,AI沃茨體驗(yàn)o1后表示:以前的提示詞模版還能繼續(xù)沿用幾個(gè)月。
圖片
七、JimFan:o1的飛躍不再是Scaling Law,而是搜索
英偉達(dá)大佬Jim Fan透露o1的重點(diǎn)從此前的“學(xué)習(xí)”轉(zhuǎn)向了“搜索”,也就是說(shuō),此次讓o1能力飛躍的不再是scaling law了。他的完整貼文翻譯如下:
OpenAI Strawberry (o1) 發(fā)布了!我們終于看到推理時(shí)間縮放的范式在生產(chǎn)中流行并得到部署。正如Sutton在《苦澀的教訓(xùn)》中所說(shuō),只有兩種技術(shù)可以無(wú)限擴(kuò)展計(jì)算:學(xué)習(xí)和搜索。現(xiàn)在是轉(zhuǎn)向后者的時(shí)候了。
1.你不需要一個(gè)巨大的模型來(lái)進(jìn)行推理。很多參數(shù)都專門用來(lái)記憶事實(shí),以便在像智力問(wèn)答這樣的基準(zhǔn)測(cè)試中表現(xiàn)良好??梢詫⑼评砼c知識(shí)分開(kāi),即一個(gè)小的“推理核心”,它知道如何調(diào)用瀏覽器和代碼驗(yàn)證器等工具。預(yù)訓(xùn)練的計(jì)算量可以減少。
2.大量的計(jì)算資源轉(zhuǎn)移到了服務(wù)推理,而不是預(yù)/后訓(xùn)練。LLMs是基于文本的模擬器。通過(guò)在模擬器中推出許多可能的策略和情景,模型最終會(huì)收斂到良好的解決方案。這個(gè)過(guò)程就像AlphaGo的蒙特卡洛樹(shù)搜索(MCTS)一樣,是一個(gè)被廣泛研究的問(wèn)題。
3.OpenAI 很久以前就已經(jīng)掌握了推理縮放定律,而學(xué)術(shù)界最近才剛剛發(fā)現(xiàn)。上個(gè)月Arxiv上相隔一周發(fā)表了兩篇論文:
- 大語(yǔ)言猴子:使用重復(fù)采樣擴(kuò)展推理計(jì)算。Brown等人發(fā)現(xiàn)DeepSeek-Coder在SWE-Bench上從一個(gè)樣本增加到250個(gè)樣本時(shí),性能從15.9%提升到56%,超過(guò)了Sonnet-3.5。有關(guān)論文可以移步:
https://arxiv.org/abs/2407.21787v1
- 在推理時(shí)最優(yōu)地?cái)U(kuò)展LLM的計(jì)算比擴(kuò)展模型參數(shù)更有效。Snell等人發(fā)現(xiàn),在MATH上,PaLM 2-S 在測(cè)試時(shí)搜索上擊敗了一個(gè)體積大14倍的模型。
4.將 o1 投入生產(chǎn)要比達(dá)到學(xué)術(shù)基準(zhǔn)更加困難。對(duì)于野外的推理問(wèn)題,如何決定何時(shí)停止搜索?獎(jiǎng)勵(lì)函數(shù)是什么?成功標(biāo)準(zhǔn)是什么?何時(shí)調(diào)用代碼解釋器等工具?如何考慮這些CPU進(jìn)程的計(jì)算成本?他們的研究文章中沒(méi)有分享太多相關(guān)信息。
5.Strawberry 很容易變成一個(gè)數(shù)據(jù)的飛輪。如果答案是正確的,整個(gè)搜索跟蹤就成為一個(gè)小型的訓(xùn)練樣本數(shù)據(jù)集,其中包含正面和負(fù)面的獎(jiǎng)勵(lì)。這反過(guò)來(lái)會(huì)改進(jìn)未來(lái)版本的GPT的推理核心,就像AlphaGo的價(jià)值網(wǎng)絡(luò)——用來(lái)評(píng)估每個(gè)棋盤位置的質(zhì)量——隨著MCTS生成越來(lái)越精細(xì)的訓(xùn)練數(shù)據(jù)而改進(jìn)一樣。
圖片
八、MetaGPT創(chuàng)始人吳承霖:沒(méi)有其他秘密,最簡(jiǎn)單的自我博弈
DeepWisdom公司CEO吳承霖深夜發(fā)出了自己的想法:(裸推理極限)
1.self-play 可行,設(shè)計(jì)空間也不大
2.OpenAI 只做了最簡(jiǎn)單的 self-play
3.記憶模塊仍然沒(méi)有任何突破
4.思維模式仍然難以琢磨,很難說(shuō) o1 是好的思維模式
5.沒(méi)有其他秘密,這就是現(xiàn)在的裸推理極限,所以 OpenAI 核心成員都去了其他公司
self-play是一種強(qiáng)化學(xué)習(xí)手段,可以理解為:智能體通過(guò)與自身副本或歷史版本進(jìn)行自我博弈而進(jìn)行演化的方法。
圖片
九、寫在最后
其實(shí),就連奧特曼自己也承認(rèn)o1并非完美之作。
圖片
不過(guò),當(dāng)人們實(shí)際上手o1時(shí),巨大的落差感可能在所難免。
在OpenAI官方的演示視頻中,o1已經(jīng)在玩量子物理、奧賽數(shù)學(xué)了,但在實(shí)際的測(cè)評(píng)中,面對(duì)9.11和9.8哪個(gè)大的“經(jīng)典老題”時(shí),o1依然自顧自的重復(fù)著“wait,9.8 is 9.80”……。不由得讓人長(zhǎng)嘆,“理想很豐滿,現(xiàn)實(shí)很骨感”。
圖片
這體現(xiàn)了模型能力發(fā)展中巨大的不平衡,也提醒著我們,即使AI已經(jīng)看起來(lái)如此的聰明,但通往AGI的道路仍然撲朔迷離。
然而,OpenAI找到了一個(gè)尚可前進(jìn)的方向。
在看到o1的命名法則時(shí),有人調(diào)侃說(shuō),“原來(lái)GPT-5永遠(yuǎn)不會(huì)來(lái)了”。但是,由o1生成數(shù)據(jù)進(jìn)行訓(xùn)練的下一代模型“獵戶座”,終將會(huì)與人們見(jiàn)面,不是嗎?
也許,科技最有魅力的地方,也許不是當(dāng)下的成果有多么驚艷。而是告訴我們:邊界尚未抵達(dá),這里仍有無(wú)限期待。