o1滿血版最鮮測!這¥1500花得值嗎?
o1滿血版這次不搞灰度了,發(fā)布僅4個小時后,已推送給所有(付費)用戶!
手快的網(wǎng)友已經(jīng)耍起來了~
不過這次推出了更高級的Pro模式,每月200美元的定價也著實讓人望而卻步。
Pro模式和正式版o1究竟有啥區(qū)別,將近1500元的價格到底值不值?
許多好心人已經(jīng)交錢幫大家測了。
如果讓它完成一個數(shù)獨,足足能思考5分30秒。
AI在思考過程中依然會犯許多錯誤,但這次區(qū)別在于它有了自我糾正的能力,直到得出正確答案為止。
花了這么多錢,那對它的期待必然是很高的,有人上來就是一個“請治愈癌癥”。
AI也是毫不客氣,直接在思維鏈中接下“正在治愈癌癥”這個任務(wù)。別管結(jié)果如何,就沖它真的努力去嘗試一點,就值得點贊。
26秒過后,o1 pro給出了它的詳盡答案:
- 首先澄清目前沒有治療所有類型癌癥的單一方法
- 介紹現(xiàn)代常用多種方法組合的“雞尾酒療法”
- 舉例目前可被治愈的癌癥類型
- 補充未來有前景的研究方向
- 最后建議用戶尋求更專業(yè)的咨詢
正如奧特曼強調(diào)的:Pro模式的優(yōu)勢在于,它可以更加努力地去思考最困難的問題。
o1 pro模式,1500值不值?
再來看另一個與生物醫(yī)學有關(guān)的問題,o1 pro模式找出了同時滿足6個復(fù)雜條件的特定蛋白質(zhì),用時53秒。
當然,如果真的給它一個超出能力范圍的問題,它在努力思考過后也會適時放棄。
只用HTML代碼復(fù)刻經(jīng)典游戲《毀滅戰(zhàn)士》。
o1 pro模式:這是不可能完成的。
o1正是之前內(nèi)部代號“草莓”的模型,這次“strawberry里有幾個r”是大概率難不住它了。
甚至能夠全程不提這個單詞的情況下,把“strawberry中有3個r”這層意思用詩表現(xiàn)出來。
我們嘗試把這首詩再喂給一個新的o1對話,發(fā)現(xiàn)它也能夠理解這首詩想說什么,且給出了另一個符合條件的答案“Rasberry”(也就是樹莓派的那個樹莓),并且把詩翻譯成中文。
為什么它沒有想到Strawberry呢?展開思維鏈,發(fā)現(xiàn)它其實也考慮到了草莓,但決定“無核”這個描述更符合樹莓,畢竟草莓表面還是有籽的,樹莓的籽更小且藏在里面。
另外我們還發(fā)現(xiàn),把詩翻譯成中文這個指令,居然無需占用推理token,解謎完成后思考就結(jié)束了。
它很強,但也會出錯,會把6個手指的手當成完全正常的。
鑒于AI生圖也經(jīng)常畫出六個手指,人類的手指對AI來說就這么難嗎?
所以到最后,200美元到底值不值?奧特曼也給出了官方回復(fù):
絕大多數(shù)人用免費版或20美元版就足夠了,200美元版只適合很小一部分人,他們想要大量使用,且愿意為解決真正困難的問題付更多錢。
20美元版o1也很強
如果確實不想一個月花200美元,20美元版o1也足夠強。
現(xiàn)在它可以接受視覺輸入,基于圖像推理了。
有人把十年前的XKCD諷刺漫畫發(fā)給它,當時需要5年才能解決的代碼,這回o1當場就給寫出來嘍。
甲方:當用戶拍照時,APP要判斷他們是否位于國家公園……
程序員:這很容易,用地理信息查詢,給我?guī)讉€小時。
甲方:……還要判斷是否是鳥類的照片。
程序員:那我需要一個研究團隊和5年時間。
在計算機科學中,很難解釋簡單和近乎不可能之間的區(qū)別。
再來看看這個繞得腦殼疼的問題:
說出某種娛樂形式的一個特定作品,這種娛樂形式的首字母縮略詞也可以代表訪問過一個地區(qū)的團體的名字,該地區(qū)未來的領(lǐng)導(dǎo)人與意大利人結(jié)婚了。
出題者稱ChatGPT 4o、o1-mini、Claude 3.5 Sonnet做三次錯三次,而o1是做三次對三次!
至于為什么《最終幻想》符合要求,同樣可以讓o1自己來解釋。
One More Thing
o1正式版以及o1 pro模式,只是OpenAI 12天直播發(fā)布計劃中的第一份大禮。
明天凌晨2點,新發(fā)布還將繼續(xù)。
鑒于o1正式版目前只發(fā)布在ChatGPT應(yīng)用上,API接口還未開放。
并且已有人ChatGPT的前端代碼中扒出GPT-4.5的存在。
不少人預(yù)測,下一場發(fā)布將是GPT-4.5和對應(yīng)API,以便與隔壁Claude競爭,搶占開發(fā)者市場。
參考鏈接:
[1]https://x.com/liambolling/status/1864761137436537139。
[2]https://x.com/__nmca__/status/1864739625140654469。
[3]https://x.com/goodside/status/1864806604735955080。
[4]https://x.com/emollick/status/1864744770695815234。