自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!

發(fā)布于 2024-9-13 10:35
瀏覽
0收藏

今天凌晨1點,OpenAI終于正式發(fā)布了傳說中的“草莓”模型——o1。


除了名字不一樣,功能、推理、性能等方面與之前泄漏的內(nèi)容基本一致,o1的推理模式很特殊,在回答用戶問題之前會進(jìn)入擬人化思考模式,將問題分解成更小的步驟逐一解決,生成一個較長的內(nèi)部思維鏈,回答的內(nèi)容也更加準(zhǔn)確。


這個技術(shù)谷歌DeepMind很早之前便進(jìn)行過解讀稱為——訓(xùn)練時計算(Test-time computation)。其核心技術(shù)主要使用了密集型、流程導(dǎo)向的驗證獎勵模型搜索,以及自適應(yīng)地更新模型對響應(yīng)的概率分布兩種方法。


根據(jù)OpenAI公布測試的數(shù)據(jù)顯示,o1在美國數(shù)學(xué)奧林匹克預(yù)選賽中,排名美國前500 名學(xué)生之列,并且在物理、生物學(xué)、化學(xué)基準(zhǔn)上,首次超過了人類博士。也就是說,o1超過了GPT-4o,是現(xiàn)役最強(qiáng)的超復(fù)雜推理大模型。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)


剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

o1主要開發(fā)人員介紹該產(chǎn)品

已經(jīng)使用上的用戶表示,o1成功地寫出了一首非常困難的藏頭詩,以前的模型都無法寫出來。它在生成答案的過程中瘋狂反復(fù)推理、自我糾正,非常特別的推理模式。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

已經(jīng)嘗試了o1 模型,進(jìn)步非常大。推理能力更好,準(zhǔn)確性和思維復(fù)雜性似乎也更好。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

超過人類博士水平,這個結(jié)果太瘋狂了!

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

期待已久的草莓模型終于來了。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

太陽從西邊出來了,這次居然沒有候補(bǔ)名單?

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

感受一下AGI的震撼吧!

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

推理能力遙遙領(lǐng)先,這下能和Claude競爭了。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

國際數(shù)學(xué)奧林匹克資格考試中,GPT-4o 只正確解決了 13% 的問題,而新模型的得分為 83%,編程競賽中的表現(xiàn)更好,確實有點瘋狂!

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

主要技術(shù)特點介紹?

擬人化的推理模式是o1的主打功能之一,與傳統(tǒng)模型不同,它在回答問題之前會進(jìn)行深入的思考,生成一個較長的內(nèi)部思維鏈。這種思維鏈的產(chǎn)生使得 o1 能夠更好地理解問題的本質(zhì),分析問題的各個方面,從而給出更準(zhǔn)確和合理的答案。


自適應(yīng)強(qiáng)化學(xué)習(xí)、糾錯則是其第二大技術(shù)特點,o1 通過大規(guī)模的強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練,在訓(xùn)練過程中,模型學(xué)會了如何有效地利用其思維鏈來解決問題。


這種訓(xùn)練方法使得 o1 能夠不斷優(yōu)化自己的策略,識別和糾正錯誤,學(xué)會將復(fù)雜的步驟分解為更簡單的部分,并在當(dāng)前方法不奏效時嘗試不同的方法來解決。通過不斷的學(xué)習(xí)和改進(jìn),o1 的推理能力得到了極大的提升,也就是說o1具備了智能體的功能。


o1使用了谷歌訓(xùn)練時計算類似的技術(shù),OpenAI發(fā)現(xiàn),隨著訓(xùn)練時計算資源的增加和測試時思考時間的延長,o1 的性能會不斷提升。這表明,通過增加計算資源的投入,可以進(jìn)一步挖掘 o1 的潛力,使其在各種任務(wù)中表現(xiàn)得更加出色。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

o1的其他主要特色應(yīng)用功能包括,可以直接翻譯一個不健全的句子,自動補(bǔ)全缺失內(nèi)容;可根據(jù)提示自動編寫復(fù)雜的視頻小游戲;擅長解決超復(fù)雜、冗長的推理問題。

測試數(shù)據(jù)

OpenAI對o1進(jìn)行了一系列的測試,以評估其在不同領(lǐng)域的性能。在競爭編程問題方面,o1 在 Codeforces 編程競賽上的表現(xiàn)非常出色,超過83%的專業(yè)人員。

在數(shù)學(xué)競賽中,以 AIME 2024 為例,GPT - 4o 平均只能解決 12% 的問題,而 o1 平均能解決74% 的問題,若采用 64 個樣本的共識,解決率能達(dá)到83%。

使用學(xué)習(xí)到的評分函數(shù)重新排序 1000 個樣本時,解決率更是高達(dá) 93%。這樣的成績使 o1 在該考試中的得分能夠躋身美國前 500 名學(xué)生的行列,超過了美國數(shù)學(xué)奧林匹克的入選分?jǐn)?shù)線。

剛剛,OpenAI發(fā)布史上最強(qiáng)模型-o1,推理能力超人類博士!-AI.x社區(qū)

在 PhD - Level Science Questions(GPQA Diamond)的測試中,o1 也展現(xiàn)出了優(yōu)異的性能,超過了人類專家的表現(xiàn)。為了進(jìn)行這項測試,研究人員招募了具有博士學(xué)位的專家來回答 GPQA - diamond 問題,結(jié)果發(fā)現(xiàn) o1 的表現(xiàn)更為準(zhǔn)確。


此外,o1 在 ML Benchmarks 的多個子類別中也有顯著的改進(jìn)。例如,在 MATH - 500、MathVista、MMMU、MMLU 等測試中,o1 的準(zhǔn)確率均高于 GPT - 4o。


在其他考試方面,o1 在 APEnglish Lang、APEnglish Lit、APPhysics2、AP Calculus、AP Chemistry、LSAT、SATEBRW、SATMath 等考試中的成績也顯示出了巨大優(yōu)勢,整體比GPT-4o高出很多。


值得一提的是,這一次OpenAI沒有再放鴿子,ChatGPT Plush和team用戶已經(jīng)可以使用該模型,同時開放了API,想體驗的小伙伴們趕緊去試試吧!


本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/MXKXSCxkgKAqqq7B26MqXA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦