OpenAI滿血o1深夜炸場!10秒搞定博士級難題!奧特曼重申:AI沒有墻! 原創(chuàng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
滿血o1這不就來了嗎?!
OpenAI的“圣誕大禮包”第一天就眾望所歸!
不到15分鐘的直播總結(jié)一下:發(fā)布了可以做多模態(tài)推理的滿血版o1以及200美元一月的ChatGPT 大會員!
圖片
首場發(fā)布會,除了奧特曼以外,還有o1模型的帶頭人 Jason Wei 和Hyung Won Chung 等,介紹了o1預(yù)覽版發(fā)布后三個月后的提升。
圖片
毫無疑問,滿血o1讓人印象深刻!
- 看跑分:滿血版o1無論在數(shù)學(xué)還是編程上,能力都又上了一個臺階。
- 看性能:滿血版推理速度更快,思維更加簡潔,響應(yīng)時間比 o1-preview 快60%。在處理復(fù)雜的現(xiàn)實問題時準(zhǔn)確率遠(yuǎn)優(yōu)于 o1-preview,將主要錯誤減少了 34%。
- 此外,還有大家最期待的多模態(tài)推理上線!
圖片
此外,還有性能更強(qiáng)一點點的o1 Pro作為ChatGPT Pro訂閱用戶的特權(quán),這些用戶還可以無限制訪問滿血版o1。
圖片
1.滿血版o1:多模態(tài)推理驚喜上線
滿血o1除了在性能和準(zhǔn)確率上的提升之外。
最重要的亮點肯定是支持多模態(tài)輸入,可以根據(jù)圖片進(jìn)行推理了!團(tuán)隊當(dāng)然進(jìn)行了高難度題目的現(xiàn)場展示。
根據(jù)簡筆的太空數(shù)據(jù)中心手繪圖,估算這個托管GPU的數(shù)據(jù)中心最小的散熱器表面積。
圖片
根據(jù)Prompt,o1還需要闡述太陽能與深空環(huán)境的互動機(jī)制,解釋熱力學(xué)第一定律如何發(fā)揮作用。
圖片
僅僅10秒的時間,每個關(guān)鍵的得分點都踩到了,o1就完成了正確作答!AI真的達(dá)到博士水平了。
目前,o1已經(jīng)全量上線。
圖片
o1的下一步,就是能推理更多形態(tài)的內(nèi)容!包括網(wǎng)頁和文件上傳,讓我們拭目以待。
圖片
2.200美元一月最貴 AI 訂閱:奧特曼說大多數(shù)人不需要買
ChatGPT Pro 訂閱計劃將允許用戶無限制訪問 o1、o1-mini、GPT-4o 以及高級語音模式,還包括一個僅供 Pro 用戶使用的 o1 版本,也就是 o1 pro mode。
圖片
不過, o1 pro 昂貴的價格也遭到了很多網(wǎng)友的吐槽。
使得奧特曼不得不出來澄清,他認(rèn)為大多數(shù)用戶使用Plus會員就足夠了!
圖片
Jason Wei 在直播活動中也表示:ChatGPT Pro 的目標(biāo)用戶群體將是那些已經(jīng)在數(shù)學(xué)、編程和寫作等領(lǐng)域充分利用和挑戰(zhàn) ChatGPT 模型能力的高級用戶。
在o1的技術(shù)報告中,o1 Pro無論是在數(shù)學(xué)競賽 AIME 2024、編程競賽 Codeforces,博士級科學(xué)推理問題 GPQA Diamond 等競賽里,都擊敗了普通滿血版。
而且,不要小看一點評分上的差距:OpenAI為了突出 o1 專業(yè)模式(Pro Mode)的主要優(yōu)勢(改進(jìn)的可靠性),采用了更嚴(yán)格的評估標(biāo)準(zhǔn)!一個模型只有在四次嘗試中四次都正確回答問題(“4/4可靠性”)時,才被認(rèn)為解決了該問題,而不僅僅是一次答對就算成功。
滿血o1雖然非常炸,但不一定滿足所有人的胃口。
有人甩出了滿血o1和Pro版那幾乎不可見的差距,質(zhì)問奧特曼:說好的AI沒有墻呢?
奧特曼回復(fù)說,這只是12天中的第一天!
圖片
接下來會不會更震撼,OpenAI的圣誕禮包確實給這半個月的AI圈清晨,增加了不少驚喜和期待。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
