OpenAI o1模型問世,五級AGI再突破!推理極限超博士,清北復(fù)旦華人立功
就在剛剛,OpenAI最強的o1系列模型忽然上線。毫無預(yù)警地,OpenAI就扔出這一聲炸雷。
傳說中兩周內(nèi)就要上線的草莓模型,居然兩天內(nèi)就來了!
圖片
從今天開始,o1-preview在ChatGPT中會向所有Plus和Team用戶推出,并且在API中向tier 5開發(fā)者推出。
同時,OpenAI還發(fā)布了o1-mini——一種經(jīng)濟高效的推理模型,非常擅長STEM,尤其是數(shù)學(xué)和編碼。
o1模型仍存在缺陷、局限性,它在首次使用時比長期使用,更令人印象深刻
全新的o1系列,在復(fù)雜推理上的性能又提升到了一個全新級別,可以說擁有了真正的通用推理能力。
在一系列基準(zhǔn)測試中,o1相比GPT-4o再次有了巨大提升,具有了奧數(shù)金牌能力,在物理、生物、化學(xué)問題的基準(zhǔn)測試中,直接超過了人類博士水平!
圖片
OpenAI研究員Jason Wei表示,o1-mini是自己過去一年看到的最令人驚訝的研究成果。一個小模型,居然在AIME數(shù)學(xué)競賽中獲得了高于60%的成績。
圖片
不過,從OpenAI文章中的附錄來看,這次放出的preview和mini似乎都只是o1的「閹割版」。
圖片
推理Scaling新范式開啟
英偉達高級科學(xué)家Jim Fan對o1模型背后原理做了進一步解析。
他表示,推理時間Scaling新范式正在大范圍普及和部署。正如Sutton在「苦澀的教訓(xùn)」中所言,只有兩種技術(shù)可以無限scaling計算能力:學(xué)習(xí)和搜索。
現(xiàn)在,是時候?qū)⒅攸c轉(zhuǎn)向后者了。
圖片
1. 進行推理不需要巨大的模型。
2. 大量計算從預(yù)訓(xùn)練/后訓(xùn)練,轉(zhuǎn)移到推理服務(wù)
3. OpenAI一定很早就發(fā)現(xiàn)了推理scaling法則,而學(xué)術(shù)界最近才開始發(fā)現(xiàn)
4. 將o1投入實際應(yīng)用中,比在學(xué)術(shù)基準(zhǔn)測試中取得好成績要困難得多
5. Strawberry很容易成為一個數(shù)據(jù)飛輪
圖片
以O(shè)penAI此前劃分等級來看,o1已經(jīng)實現(xiàn)了L2級別的推理能力。
圖片
有人測試后發(fā)現(xiàn),o1成功寫出一首非常難的詩,在這過程中,成功完成這項任務(wù)所需要的計劃和思考是瘋狂的,而且推理時間計算非??帷?/span>
圖片
不過,AI大牛Karpathy測試o1-mini后吐槽道,「它一直拒絕為我解決黎曼假說。模型懶惰仍是一個主要問題,真可悲」。
圖片
還有NYU助理教授謝賽寧上手測試了「9.11和9.8誰大」的經(jīng)典問題,沒想到o1-preview依舊答錯了。
「strawberry有多少r」這個經(jīng)典難題,對o1來說自然是不在話下。
圖片
圖片
大V Mattew Sabia表示,最可怕的是,GPT-5還要比o1模型更強大69倍。而普通人,根本不理解大象的推理和邏輯能力。
人類真的準(zhǔn)備好了嗎?
圖片
繞暈人類的邏輯推理難題,o1解決了
我們都知道,邏輯推理對于以往的LLM來說,是很難跨越的高山。
但這一次,o1模型展現(xiàn)出的解決復(fù)雜邏輯難題的能力,讓人驚訝。
比如下面這道邏輯題——
圖片
公主的年齡等于王子在未來某個時候的年齡,屆時公主的年齡將是王子過去某個時候年齡的兩倍;而在過去那個時候,公主的年齡是他們現(xiàn)在年齡總和的一半。問公主和王子現(xiàn)在各自的年齡是多少?請?zhí)峁┻@個問題的所有解。
這道題極其拗口,即使對于人類來說,想要正確地翻譯、理解題義,都會花費好大的功夫。
令人震驚的是,o1模型在經(jīng)過一些步驟的思索后,竟然給出了正確答案!
它通過定義變量、理解問題、解決方程等步驟,得出:公主的年齡為8k歲,王子的年齡為6k歲,其中k為正整數(shù)。
圖片
在另一個demo中,Jason Wei向我們展示了,o1是如何根據(jù)提示,就編寫了一個視頻游戲。
可以看到,他把提示復(fù)制到了o1模型中。
圖片
隨后,模型思考了21秒,將整個思考的步驟都展示了出來。
圖片
隨后,模型隨后給出了代碼。
圖片
運行代碼后,果然是一個非常流暢的小游戲!
圖片
甚至,我們?nèi)咏oo1一串亂七八糟不知所云的韓語句子,要求它翻譯成英語,它竟然也做到了。
因為,雖然句子文法不通,o1卻依然一步一步對它解碼。
圖片
最終,o1給出了答案,還幽默地表示:地球上沒有翻譯器能做到,但韓國人卻很容易識別,這是一種通過元音和輔音的各種變換,來加密韓語的方法。
圖片
而相比之下,GPT-4o完全被繞暈了,無法理解。
圖片
可以看出,o1表現(xiàn)出的超強性能,將邏輯推理又提高到了一個新的級別。
它是怎么做到的?
強化學(xué)習(xí)立功,大模型AlphaGo時刻來臨
o1系列模型與以往不同的是,它在回答問題之前,會用更多時間去「思考問題」,就像人類一樣。
通過訓(xùn)練,它們學(xué)會完善思維過程,嘗試不同策略,并自主識別錯誤。
這背后,是強悍的「強化學(xué)習(xí)」算法立了大功。想當(dāng)年,AlphaGo戰(zhàn)勝人類棋手,背后就是用的是RL算法。
它通過高度數(shù)據(jù)完成了高效的訓(xùn)練,并教會LLM使用CoT進行富有成效的思考。
提出CoT的背后開發(fā)者、OpenAI研究員Jason Wei表示,o1不是純粹地通過提示完成CoT,而是使用RL訓(xùn)練模型,最終更好地執(zhí)行鏈?zhǔn)剿伎肌?/span>
而且,OpenAI團隊還發(fā)現(xiàn)模型中的Scaling Law中的「新定律」。
圖片
o1的性能,隨著更多的強化學(xué)習(xí)(訓(xùn)練時間計算)和更多的思考時間(測試時間計算)投入,性能不斷提高。
這一方法,在Scaling時的限制,和LLM預(yù)訓(xùn)練的限制,大不相同。
o1的性能隨著訓(xùn)練階段和測試階段計算量的增加而平穩(wěn)提升
金牌團隊一覽
推理研究
在奠基貢獻者里,離職創(chuàng)業(yè)的Ilya Sutskever赫然在列,但并沒有和Greg Brockman等人被列在執(zhí)行管理(executive leadership)中,想必是他之前的研究工作為o1奠定了基礎(chǔ)。
Hongyu Ren
圖片
Hongyu Ren本科畢業(yè)于北大計算機科學(xué)專業(yè),并在斯坦福獲得了博士學(xué)位,從去年7月起加入OpenAI,此前曾在谷歌、蘋果、英偉達、微軟等公司有過工作經(jīng)歷。
Jason Wei
Jason Wei目前任OpenAI研究員。他在2020-2023年期間,在谷歌大腦任職,提出了著名CoT、指令微調(diào),并發(fā)表了大模型涌現(xiàn)能力的論文。
Kevin Yu
Kevin Yu現(xiàn)任OpenAI研究員。他曾在2014年和2021年分別獲得了UC伯克利物理學(xué)和天體物理學(xué)碩士和神經(jīng)學(xué)博士學(xué)位。
Shengjia Zhao
圖片
Shengjia Zhao本科畢業(yè)于清華大學(xué),同樣在斯坦福獲得了博士學(xué)位,2022年6月畢業(yè)后就加入了OpenAI技術(shù)團隊,他也是GPT-4的作者之一。
Wenda Zhou
圖片
Wenda Zhou于去年加入OpenAI。此前,他曾在紐約大學(xué)數(shù)據(jù)科學(xué)中心實驗室,是Moore-Sloan Fellow一員。
他在2015年獲得了劍橋大學(xué)碩士學(xué)位,2020年取得了哥倫比亞大學(xué)統(tǒng)計學(xué)博士學(xué)位。
Francis Song
圖片
Francis Song曾獲得哈佛大學(xué)物理學(xué)學(xué)士學(xué)位,耶魯大學(xué)物理學(xué)博士學(xué)位。他于2022年加入OpenAI,此前曾任DeepMind的研究科學(xué)家,紐約大學(xué)助理研究科學(xué)家。
Mark Chen
Mark Chen從2018年起加入OpenAI時就開始擔(dān)任前沿研究主管,在研究副總裁Bob McGrew領(lǐng)導(dǎo)下負(fù)責(zé)一個工作組。
從MIT畢業(yè)時,Chen獲得了數(shù)學(xué)與計算機科學(xué)的雙學(xué)士學(xué)位,大學(xué)期間曾在微軟、Trading實習(xí),并在哈佛大學(xué)做過訪問學(xué)者。
目前,他還擔(dān)任美國IOI集訓(xùn)隊的教練。
The Information曾經(jīng)推斷,Mark Chen在未來會成為OpenAI領(lǐng)導(dǎo)層的一員。
此外,領(lǐng)導(dǎo)團隊中還包括接任Ilya的首席科學(xué)家Jakub Pachocki和OpenAI僅存的幾名聯(lián)創(chuàng)之一Wojciech Zaremba。
推理技術(shù)安全
Jieqi Yu
Jieqi Yu本科畢業(yè)于復(fù)旦大學(xué)電子工程專業(yè),曾前往香港科技大學(xué)進行交換,之后在普林斯頓大學(xué)獲得博士學(xué)位。她曾在Facebook工作了12年之久,從軟件工程師轉(zhuǎn)型為軟件工程經(jīng)理,并于去年8月加入OpenAI擔(dān)任工程經(jīng)理。
Kai Xiao
Xiao Kai本科和博士都畢業(yè)于MIT,本科時還拿到了數(shù)學(xué)和計算機科學(xué)的雙學(xué)位,曾前往牛津大學(xué)進行學(xué)術(shù)訪問,在DeepMind、微軟等公司有過實習(xí)經(jīng)歷,于2022年9月加入OpenAI。
Lilian Weng
Lilian Weng現(xiàn)任OpenAI安全系統(tǒng)負(fù)責(zé)人,主要從事機器學(xué)習(xí)、深度學(xué)習(xí)等研究 。
她本科畢業(yè)于北京大學(xué)信息系統(tǒng)與計算機科學(xué)專業(yè),曾前往香港大學(xué)進行短期交流,之后在印第安納大學(xué)布魯明頓(Indiana University Bloomington)分校獲得博士學(xué)位。
和Mark Chen一樣,Lilian也被認(rèn)為是OpenAI領(lǐng)導(dǎo)層的后起之秀。
OpenAI還放出了o1模型背后團隊的最新采訪視頻,接下來一睹為快:
團隊完整名單如下:
圖片
圖片
生化物理,超越人類博士水平
作為OpenAI開創(chuàng)的新系列模型,o1究竟強在哪?
在競賽編程問題(Codeforces)中排名前89%;在美國奧數(shù)競賽預(yù)選賽(AIME),位列前500名學(xué)生之列。
最重要的是,它在物理、生物、化學(xué)問題的基準(zhǔn)測試中(GPQA),超過了人類博士水平。
在推理常用的MATH、GSM8K等基準(zhǔn)測試上,o1和最近很多的前沿模型已經(jīng)達到了飽和表現(xiàn),很難有區(qū)分度,因此OpenAI主要選擇了AIME評估模型的數(shù)學(xué)和推理能力,以及其他人類考試和基準(zhǔn)測試。
AIME旨在挑戰(zhàn)美國最優(yōu)秀的高中學(xué)生的數(shù)學(xué)能力,在2024年的AIME考試中,GPT-4o平均僅解決了12%(1.8/15)的題目。
但o1的提升相當(dāng)顯著,平均解決了74%(11.1/15)的題目,在64個樣本中進行多數(shù)投票時達到了83%(12.5/15)。如果使用打分函數(shù)并重新排序1000個樣本,準(zhǔn)確率甚至達到了93%(13.9/15)。
13.9的得分,意味著o1的水平達到了全國前500名學(xué)生之列,并超過了美國數(shù)學(xué)奧賽的入圍分?jǐn)?shù)。
在Codeforces、GPQA Diamond這種有挑戰(zhàn)性的任務(wù)上,o1遠遠超過了GPT-4o。
在具有挑戰(zhàn)性的推理基準(zhǔn)測試中,o1大幅超越了GPT-4o
GPQA Diamond測試的是化學(xué)、物理和生物學(xué)領(lǐng)域的專業(yè)知識。為了將模型與人類進行比較,團隊招募了擁有博士學(xué)位的專家來回答其中的問題。
結(jié)果是,o1的表現(xiàn)(78.0)超過了這些人類專家(69.7),成為第一個在此基準(zhǔn)測試中超越人類的模型。
然而,這個結(jié)果并不意味著o1在所有方面都強于擁有博士學(xué)位的人類,僅僅表明它能更熟練地解決一些相應(yīng)水平的問題。
此外,在MATH、MMLU、MathVista等基準(zhǔn)測試中,o1也刷新了SOTA。
啟用視覺感知能力后,o1在MMMU上取得了78.1%的成績,成為第一個能與人類專家競爭的模型,在57個MMLU子類別中,有54個類別超過了GPT-4o。
圖片
o1在廣泛的基準(zhǔn)測試中優(yōu)于GPT-4o,包括54/57個MMLU子類
思維鏈
通過強化學(xué)習(xí),o1學(xué)會了識別并糾正自己的錯誤,并將復(fù)雜的步驟分解為更簡單的步驟。
在當(dāng)前方法不起作用時,它還會嘗試不同的方法。這個過程顯著提高了模型的推理能力。
舉個「密碼學(xué)」的例子。
題面是:「Think step by step」經(jīng)過加密之后對應(yīng)的是「oyfjdnisdr rtqwainr acxz mynzbhhx」,問「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」的意思是什么。
可以看到,GPT-4o對這種題目完全是束手無策。
而o1則根據(jù)已知信息推理出了加密計算的方法,并最終給出了正確答案——THERE ARE THREE R'S IN STRAWBERRY。
圖片
GPT-4o
圖片
o1-preview
編程
在這項評測中,OpenAI基于o1進一步訓(xùn)練出了一個編程加強版模型。
在2024年國際信息學(xué)奧林匹克競賽(IOI)中,新模型獲得了213分,排名在49%的位置上。
過程中,模型有十個小時來解決六個具有挑戰(zhàn)性的算法問題,每個問題允許提交50次。
而在放寬提交限制的情況下,模型的性能可以獲得顯著提升。當(dāng)每個問題允許1萬次提交時,模型達到了362.14分——超過了金牌的門檻。
最后,OpenAI還模擬了由Codeforces舉辦的競技編程比賽——嚴(yán)格遵循規(guī)則,并允許10次提交。
GPT-4o的Elo評分為808,位于人類選手11%的位置。而新模型則遠遠超過了GPT-4o和o1,達到了1807的高分,表現(xiàn)優(yōu)于93%的選手。
圖片
在編程競賽上進一步微調(diào)提升了o1:經(jīng)過改進的模型在2024年國際信息學(xué)奧林匹克競賽中,在比賽規(guī)則下排名在第49百分位
人類偏好評估
除了考試和學(xué)術(shù)基準(zhǔn)測試之外,OpenAI還評估了人類對o1-preview與GPT-4o在廣泛領(lǐng)域內(nèi)具有挑戰(zhàn)性、開放性提示詞上的偏好。
在此評估中,人類會看到o1-preview和GPT-4o對提示詞的匿名響應(yīng),并投票選擇他們更喜歡哪個響應(yīng)。
在數(shù)據(jù)分析、編程和數(shù)學(xué)等重推理的類別中,人們更傾向于選擇o1-preview。但在一些自然語言任務(wù)中,GPT-4o更勝一籌。
也就是說,o1-preview目前并不適合所有的使用場景。
圖片
在推理能力更重要的領(lǐng)域,人們更傾向于選擇o1-preview
o1-mini性價比極高
為了給開發(fā)人員提供更高效的解決方案,OpenAI發(fā)布了o1-mini——一種更快、更便宜的推理模型。
作為一種較小的模型,o1-mini比o1-preview便宜80%。
這對于需要推理,但不需要通用世界知識的應(yīng)用程序來說,它是一種功能強大、性價比高的模型。
不過,目前的o1系列依然處在早期,諸如網(wǎng)絡(luò)插件、長傳文件、圖片等能力,還未集成。在短期內(nèi),GPT-4o仍是最強的實力選手。
參考資料: