剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!
今天凌晨1點,OpenAI終于正式發(fā)布了傳說中的“草莓”模型——o1。
除了名字不一樣,功能、推理、性能等方面與之前泄漏的內(nèi)容基本一致,o1的推理模式很特殊,在回答用戶問題之前會進(jìn)入擬人化思考模式,將問題分解成更小的步驟逐一解決,生成一個較長的內(nèi)部思維鏈,回答的內(nèi)容也更加準(zhǔn)確。
這個技術(shù)谷歌DeepMind很早之前便進(jìn)行過解讀稱為——訓(xùn)練時計算(Test-time computation)。其核心技術(shù)主要使用了密集型、流程導(dǎo)向的驗證獎勵模型搜索,以及自適應(yīng)地更新模型對響應(yīng)的概率分布兩種方法。
根據(jù)OpenAI公布測試的數(shù)據(jù)顯示,o1在美國數(shù)學(xué)奧林匹克預(yù)選賽中,排名美國前500 名學(xué)生之列,并且在物理、生物學(xué)、化學(xué)基準(zhǔn)上,首次超過了人類博士。也就是說,o1超過了GPT-4o,是現(xiàn)役最強(qiáng)的超復(fù)雜推理大模型。
o1主要開發(fā)人員介紹該產(chǎn)品
已經(jīng)使用上的用戶表示,o1成功地寫出了一首非常困難的藏頭詩,以前的模型都無法寫出來。它在生成答案的過程中瘋狂反復(fù)推理、自我糾正,非常特別的推理模式。
已經(jīng)嘗試了o1 模型,進(jìn)步非常大。推理能力更好,準(zhǔn)確性和思維復(fù)雜性似乎也更好。
超過人類博士水平,這個結(jié)果太瘋狂了!
期待已久的草莓模型終于來了。
太陽從西邊出來了,這次居然沒有候補(bǔ)名單?
感受一下AGI的震撼吧!
推理能力遙遙領(lǐng)先,這下能和Claude競爭了。
國際數(shù)學(xué)奧林匹克資格考試中,GPT-4o 只正確解決了 13% 的問題,而新模型的得分為 83%,編程競賽中的表現(xiàn)更好,確實有點瘋狂!
主要技術(shù)特點介紹?
擬人化的推理模式是o1的主打功能之一,與傳統(tǒng)模型不同,它在回答問題之前會進(jìn)行深入的思考,生成一個較長的內(nèi)部思維鏈。這種思維鏈的產(chǎn)生使得 o1 能夠更好地理解問題的本質(zhì),分析問題的各個方面,從而給出更準(zhǔn)確和合理的答案。
自適應(yīng)強(qiáng)化學(xué)習(xí)、糾錯則是其第二大技術(shù)特點,o1 通過大規(guī)模的強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練,在訓(xùn)練過程中,模型學(xué)會了如何有效地利用其思維鏈來解決問題。
這種訓(xùn)練方法使得 o1 能夠不斷優(yōu)化自己的策略,識別和糾正錯誤,學(xué)會將復(fù)雜的步驟分解為更簡單的部分,并在當(dāng)前方法不奏效時嘗試不同的方法來解決。通過不斷的學(xué)習(xí)和改進(jìn),o1 的推理能力得到了極大的提升,也就是說o1具備了智能體的功能。
o1使用了谷歌訓(xùn)練時計算類似的技術(shù),OpenAI發(fā)現(xiàn),隨著訓(xùn)練時計算資源的增加和測試時思考時間的延長,o1 的性能會不斷提升。這表明,通過增加計算資源的投入,可以進(jìn)一步挖掘 o1 的潛力,使其在各種任務(wù)中表現(xiàn)得更加出色。
o1的其他主要特色應(yīng)用功能包括,可以直接翻譯一個不健全的句子,自動補(bǔ)全缺失內(nèi)容;可根據(jù)提示自動編寫復(fù)雜的視頻小游戲;擅長解決超復(fù)雜、冗長的推理問題。
測試數(shù)據(jù)
OpenAI對o1進(jìn)行了一系列的測試,以評估其在不同領(lǐng)域的性能。在競爭編程問題方面,o1 在 Codeforces 編程競賽上的表現(xiàn)非常出色,超過83%的專業(yè)人員。
在數(shù)學(xué)競賽中,以 AIME 2024 為例,GPT - 4o 平均只能解決 12% 的問題,而 o1 平均能解決74% 的問題,若采用 64 個樣本的共識,解決率能達(dá)到83%。
使用學(xué)習(xí)到的評分函數(shù)重新排序 1000 個樣本時,解決率更是高達(dá) 93%。這樣的成績使 o1 在該考試中的得分能夠躋身美國前 500 名學(xué)生的行列,超過了美國數(shù)學(xué)奧林匹克的入選分?jǐn)?shù)線。
在 PhD - Level Science Questions(GPQA Diamond)的測試中,o1 也展現(xiàn)出了優(yōu)異的性能,超過了人類專家的表現(xiàn)。為了進(jìn)行這項測試,研究人員招募了具有博士學(xué)位的專家來回答 GPQA - diamond 問題,結(jié)果發(fā)現(xiàn) o1 的表現(xiàn)更為準(zhǔn)確。
此外,o1 在 ML Benchmarks 的多個子類別中也有顯著的改進(jìn)。例如,在 MATH - 500、MathVista、MMMU、MMLU 等測試中,o1 的準(zhǔn)確率均高于 GPT - 4o。
在其他考試方面,o1 在 APEnglish Lang、APEnglish Lit、APPhysics2、AP Calculus、AP Chemistry、LSAT、SATEBRW、SATMath 等考試中的成績也顯示出了巨大優(yōu)勢,整體比GPT-4o高出很多。
值得一提的是,這一次OpenAI沒有再放鴿子,ChatGPT Plush和team用戶已經(jīng)可以使用該模型,同時開放了API,想體驗的小伙伴們趕緊去試試吧!
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
