突發(fā)!OpenAI發(fā)布最強(qiáng)模型o1:博士物理92.8分,IOI金牌水平
來了來了!剛剛,OpenAI新模型無預(yù)警上新:
o1系列,可以進(jìn)行通用復(fù)雜推理,每次回答要花費(fèi)更長時(shí)間思考。
在解決博士水平的物理問題時(shí),GPT-4o還是“不及格”59.5分,o1一躍來到“優(yōu)秀檔”,直接干到92.8分!
沒錯(cuò),傳說中的「草莓」,終于來與大家見面了!
CEO奧特曼稱它是一種新范式的開始:可以進(jìn)行通用復(fù)雜推理的人工智能。
具體來說,o1系列是OpenAI首個(gè)經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,在輸出回答之前,會(huì)在產(chǎn)生一個(gè)很長的思維鏈,以此增強(qiáng)模型的能力。
換句話說,內(nèi)部思維鏈越長,o1思考得越久,模型在推理任務(wù)上的表現(xiàn)就越好。
o1有多強(qiáng)呢?CEO奧特曼直給了答案:
在剛剛結(jié)束的2024 IOI信息學(xué)奧賽題目中,o1的微調(diào)版本在每題嘗試50次條件下取得了213分,屬于人類選手中前49%的成績。
如果允許它每道題嘗試10000次,就能獲得362.14分,高于金牌選手門檻,可獲得金牌。
另外它還在競(jìng)爭(zhēng)性編程問題 (Codeforces) 中排名前89%,在美國數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽題目中躋身美國前500名學(xué)生之列。
與GPT-4o相比,o1在數(shù)理化生、英語法律經(jīng)濟(jì)等各種科目都有不同成績改進(jìn)。
匯總官方發(fā)布的各種消息來看,這次突然發(fā)布的o1系列又分為三個(gè)型號(hào):
o1,新的大模型天花板,過于強(qiáng)大目前不方便對(duì)外公開。
o1-preiview,o1的早期版本,可以立即提供給ChatGPT付費(fèi)用戶和API用戶。
o1-mini,速度更快、性價(jià)比更高,適用于需要推理和無需廣泛世界知識(shí)的任務(wù)。
不少OpenAI員工都分別用“系統(tǒng)1”和“系統(tǒng)2”思考來科普o1系列與之前模型的區(qū)別。
連長期休假中的總裁Brockman都“詐尸”回歸了。
思維鏈提示方法的原作者Jason Wei表示,這一次不是純粹通過提示來完成思維鏈,而是使用強(qiáng)化學(xué)習(xí)訓(xùn)練模型以更好地執(zhí)行鏈?zhǔn)剿伎肌?/p>
在深度學(xué)習(xí)的歷史中,人們一直試圖擴(kuò)展訓(xùn)練階段的計(jì)算,但思維鏈?zhǔn)亲赃m應(yīng)計(jì)算的一種形式,現(xiàn)在也可以在推理時(shí)擴(kuò)展。
新模型做了很多類似人類的事情,比如將棘手的步驟分解為更簡單的步驟、識(shí)別和糾正錯(cuò)誤以及嘗試不同的方法。
游戲已被完全重新定義。
o1:AI能力新天花板
通過訓(xùn)練,o1模型學(xué)會(huì)完善自己的思維過程,嘗試不同的策略,并認(rèn)識(shí)到自己的錯(cuò)誤。
不過作為早期模型,它尚不具備ChatGPT的許多有用功能,例如聯(lián)網(wǎng)搜索以及上傳文件和圖像。
但對(duì)于復(fù)雜的推理任務(wù)來說,這是一個(gè)重大進(jìn)步,OpenAI稱代表了人工智能的最高水平。
鑒于此,他們決定將計(jì)數(shù)器重置,并將該系列模型命名為OpenAI o1。
隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)計(jì)算),o1 的性能持續(xù)提高,新的Scaling Law誕生了。
不過這種方法的Scaling受到的限制與普通預(yù)訓(xùn)練有很大不同,OpenAI正在繼續(xù)研究它們。
o1思考起來是什么樣子?可以從官網(wǎng)示例中的編寫B(tài)ash腳本的編程任務(wù)一窺究竟。
首先作為對(duì)比,GPT-4o會(huì)直接就開始寫代碼,遺憾得到錯(cuò)誤結(jié)果。
而o1-preiview會(huì)先用自己的理解復(fù)述一遍要求,然后開始拆解要求,明確最終目標(biāo)。
接下來它會(huì)給自己定義任務(wù)、分析限制條件、列出需要用到的方法。
進(jìn)一步把任務(wù)拆解成明確的數(shù)個(gè)小步驟。
最后才動(dòng)手編寫代碼,并保證一次性得到正確結(jié)果。
OpenAI表示,o1系列可以幫醫(yī)療保健研究人員來注釋細(xì)胞測(cè)序數(shù)據(jù),幫助物理學(xué)家可以生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,所有領(lǐng)域的開發(fā)人員可以使用o1來構(gòu)建和執(zhí)行多步驟工作流程。
而且不是說說而已,OpenAI已經(jīng)邀請(qǐng)相關(guān)的人類專家學(xué)者試用了一波。
馬克思普朗克研究所的量子物理學(xué)者Mario Krenn,展示了GPT-4o不能回答但o1-preview正確完成計(jì)算的復(fù)雜量子物理問題。
除了考試和學(xué)術(shù)基準(zhǔn)之外,團(tuán)隊(duì)還評(píng)估了人們對(duì)o1-preview與GPT-4o在開放問題上的偏好。
在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理密集型類別中,o1-preview明顯優(yōu)于gpt-4o。
然而o1-preview在某些自然語言任務(wù)上并不是首選,這表明它并不適合所有場(chǎng)景。
OpenAI科學(xué)家Noam Brown分享了更詳細(xì)的個(gè)人測(cè)試結(jié)果。
在上個(gè)月的ACL會(huì)議上有一個(gè)所有當(dāng)時(shí)大模型都無法解決的邏輯難題。o1-preview能夠做對(duì),o1滿血版幾乎每次嘗試都能做對(duì)。
目前o1花費(fèi)在思考上的時(shí)間是幾秒到十幾秒,但OpenAI未來的改進(jìn)方向不是縮短,反而是努力增加這個(gè)時(shí)間,
目標(biāo)是讓未來的版本思考幾個(gè)小時(shí)、幾天甚至幾周。
推理成本會(huì)更高,但你會(huì)為一種新的抗癌藥物付多少錢?為了電池的突破、黎曼猜想的證明又付多少?
人工智能可以不僅僅是聊天機(jī)器人
誰可以訪問o1?
根據(jù)OpenAI官方說法,ChatGPT Plus和Team用戶最早可在幾個(gè)小時(shí)內(nèi)可以體驗(yàn)到o1系列模型。
在發(fā)布時(shí),o1-preview限制為每周30條消息,o1-mini每周50條。
API訪問權(quán)限將首先給Tier 5級(jí)用戶,也就是已經(jīng)在OpenAI API上花費(fèi)超過1000美元的人。
OpenAI正在努力提高這些速率,并使ChatGPT能夠針對(duì)給定的提示自動(dòng)選擇合適的模型。
快打開ChatGPT看看你是不是第一波吃草莓的人吧