剛剛,GPT-4.5問(wèn)世!OpenAI迄今最大、最貴模型,API價(jià)格飛漲30倍,不拼推理拼情商
大家心心念念的 GPT-4.5 終于來(lái)了!
凌晨 4 點(diǎn),OpenAI 開(kāi)始了直播,奧特曼并沒(méi)有現(xiàn)身。直播不到 15 分鐘就匆匆結(jié)束了。
OpenAI 正式發(fā)布了其最大、最強(qiáng)的聊天模型 GPT?4.5 研究預(yù)覽版本。
奧特曼發(fā)推稱,GPT?4.5 讓他第一次感覺(jué)像在與一個(gè)有思想的人在交談,可以從模型那里得到真正好的建議。
OpenAI 表示,GPT-4.5 在擴(kuò)展預(yù)訓(xùn)練和后訓(xùn)練方面向前邁出了一步。通過(guò)擴(kuò)展無(wú)監(jiān)督學(xué)習(xí),GPT-4.5 提高了識(shí)別模式、建立聯(lián)系和產(chǎn)生創(chuàng)造性見(jiàn)解的能力,而無(wú)需推理。這意味著,GPT-4.5 從一開(kāi)始就不是一個(gè)推理模型。
OpenAI 的早期測(cè)試表明,與 GPT-4.5 的交互感覺(jué)更自然。它的知識(shí)庫(kù)更廣泛,更能遵循用戶意圖,而且「情商」更高,使得在提高寫(xiě)作、編程和解決實(shí)際問(wèn)題等任務(wù)中非常有用。同時(shí),GPT-4.5 還減少了幻覺(jué)出現(xiàn)。
Cognition 聯(lián)合創(chuàng)始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的體驗(yàn),表示非常棒。在他們的智能體編碼基準(zhǔn)測(cè)試中,GPT-4.5 相較于 o1 和 4o 實(shí)現(xiàn)大幅改進(jìn)。同時(shí)發(fā)現(xiàn)一個(gè)有趣的數(shù)據(jù)點(diǎn):雖然 GPT-4.5 和 Claude 3.7 Sonnet 在整體基準(zhǔn)測(cè)試中得分相似,但他們發(fā)現(xiàn) GPT-4.5 在涉及架構(gòu)和跨系統(tǒng)交互的任務(wù)上峰值更大,而 Claude 3.7 Sonnet 在原始編碼和代碼編輯上峰值更大。
圖源:https://x.com/ScottWu46/status/1895209597084017073
從今天開(kāi)始,ChatGPT Pro 用戶可以在網(wǎng)頁(yè)版、手機(jī)版和桌面版使用 GPT-4.5。下周將向 Plus 和 Team 用戶開(kāi)放,再下周向企業(yè)和 Edu 用戶開(kāi)放。
現(xiàn)在,GPT-4.5 只支持搜索、上傳文件和圖片和畫(huà)布功能,還不支持語(yǔ)音模式、視頻和屏幕共享等多模態(tài)功能。OpenAI 表示,未來(lái)會(huì)持續(xù)更新,讓產(chǎn)品變得更容易使用。
基準(zhǔn)測(cè)試結(jié)果
OpenAI 首先在 SimpleQA(評(píng)估模型的事實(shí)性回答能力)數(shù)據(jù)集上進(jìn)行了測(cè)試,其中 GPT-4.5 的準(zhǔn)確率最高,超越了前代 GPT-4o、o1 和 o3-mini,展現(xiàn)了 GPT-4.5 擁有驚人的世界知識(shí)。
同時(shí),GPT-4.5 的幻覺(jué)率也最低。
OpenAI 其次測(cè)試了人類協(xié)作訓(xùn)練水平。
隨著模型不斷擴(kuò)展并解決更復(fù)雜的問(wèn)題,教會(huì)它們更好地理解人類的需求和意圖變得越來(lái)越重要。對(duì)于 GPT-4.5,OpenAI 開(kāi)發(fā)了全新的可擴(kuò)展技術(shù),可以使用來(lái)自較小模型的數(shù)據(jù)來(lái)訓(xùn)練更大、更強(qiáng)的模型。這些技術(shù)提高了 GPT-4.5 的可操縱性、對(duì)細(xì)微差別的理解和自然對(duì)話水平。
下圖人類偏好衡量結(jié)果顯示,測(cè)試人員更喜歡 GPT-4.5 查詢而不是 GPT-4o。
OpenAI 表示,將對(duì)世界的深刻理解與更佳的協(xié)作相結(jié)合,可以使得模型在更適合人類協(xié)作的「熱情直觀對(duì)話」中自然地整合想法。GPT-4.5 能夠更好地理解人類的意思,并以更細(xì)致入微的「情商」來(lái)解讀微妙的暗示或隱含的期望。此外,GPT-4.5 還表現(xiàn)出了更強(qiáng)的審美直覺(jué)和創(chuàng)造力,它擅長(zhǎng)幫助寫(xiě)作和設(shè)計(jì)。
比如「在考試失敗后,正在經(jīng)歷一段艱難的時(shí)光」,GPT-4.5 能夠給你更擬人的安慰「哎呀,聽(tīng)到這個(gè)消息我真的很遺憾??荚囀?huì)讓人感到很艱難和沮喪,但請(qǐng)記住,這只是一個(gè)瞬間 —— 并不反映你的身份或能力。想談?wù)劙l(fā)生了什么,還是你只是需要分散注意力?無(wú)論如何,我都在這里?!?。
不過(guò),OpenAI 指出 GPT-4.5 在做出反應(yīng)之前不會(huì)思考,這使得它的優(yōu)勢(shì)與 o1 等推理模型截然不同。因此,與 o1、o3-mini 相比,GPT-4.5 是一種更通用、天然更智能的模型。
OpenAI 相信推理將成為未來(lái)模型的核心能力,而兩種擴(kuò)展方法 —— 預(yù)訓(xùn)練和推理 —— 將相輔相成。隨著 GPT-4.5 等模型通過(guò)預(yù)訓(xùn)練變得更加智能和知識(shí)淵博,它們將成為推理和使用工具的代理的更強(qiáng)大的基礎(chǔ)。
從下圖多個(gè)基準(zhǔn)測(cè)試結(jié)果,我們可以明顯看到:在 GPQA(科學(xué))、AIME’24(數(shù)學(xué))、SWE-Bench Verfied(編碼)等數(shù)據(jù)集上,GPT-4.5 全面領(lǐng)先于 GPT-4o,但仍然遜色于 o3-mini,尤其是數(shù)學(xué)和真實(shí)編程能力。
數(shù)字代表最佳內(nèi)部性能
擴(kuò)展無(wú)監(jiān)督學(xué)習(xí)
OpenAI 通過(guò)擴(kuò)展兩種互補(bǔ)范式來(lái)提升 AI 能力:無(wú)監(jiān)督學(xué)習(xí)和推理。
這兩種范式代表了 AI 智能的兩個(gè)軸向。
其中,擴(kuò)展推理使模型在做出回應(yīng)之前學(xué)會(huì)思考并產(chǎn)生思維鏈,從而能夠解決復(fù)雜的 STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))或邏輯問(wèn)題。例如 OpenAI 的 o1 和 o3?mini 模型就推動(dòng)了這一范式的發(fā)展。
另一方面,無(wú)監(jiān)督學(xué)習(xí)則提高了世界模型的準(zhǔn)確性以及直覺(jué)能力。
GPT?4.5 是通過(guò)擴(kuò)大計(jì)算和數(shù)據(jù)規(guī)模以及架構(gòu)和優(yōu)化創(chuàng)新來(lái)擴(kuò)大無(wú)監(jiān)督學(xué)習(xí)的一個(gè)例子。其結(jié)果是一個(gè)知識(shí)面更廣、對(duì)世界理解更深入的模型,從而在廣泛的主題上減少了幻覺(jué)現(xiàn)象,提高了可靠性。
接下來(lái),我們看看 GPT 在這幾年當(dāng)中范式的改變:
2018 年,當(dāng)問(wèn) GPT-1「第一種語(yǔ)言是什么?」時(shí),GPT-1 只能簡(jiǎn)單的重復(fù)問(wèn)題,答案根本沒(méi)有參考價(jià)值:
2019 年,GPT-2 能進(jìn)行一些簡(jiǎn)短的回答:
GPT-3.5 的回答如下,但并不是最準(zhǔn)確的答案:
GPT-4 顯然比其他模型更聰明,但你會(huì)明顯感覺(jué)到它想讓你知道它有多聰明,只是在列出事實(shí):
最后,我們看一下 GPT-4.5 的答案,可以看出 GPT-4.5 給出了一個(gè)很棒的回答。它清晰、簡(jiǎn)潔、連貫,而且還很有趣。
API 調(diào)用和價(jià)格
至于 API,所有付費(fèi)用戶現(xiàn)已可以選擇聊天補(bǔ)全 API、助手 API 和批處理 API 來(lái)接入 GPT-4.5 模型,支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出、流式傳輸和系統(tǒng)消息等主要功能,還支持圖像輸入。
測(cè)試顯示,GPT-4.5 在寫(xiě)作輔助、溝通、學(xué)習(xí)、輔導(dǎo)和頭腦風(fēng)暴等需要高情商和創(chuàng)造力的應(yīng)用場(chǎng)景特別有用。在多步驟編程和復(fù)雜任務(wù)自動(dòng)化等方面也表現(xiàn)出色,看來(lái) OpenAI 是持續(xù)押注智能體了。
GPT-4.5 體量很大,需要大量計(jì)算資源,所以 API 價(jià)格每 1M token 75 美元,比 GPT-4o 的 2.5 美元暴漲 30 倍。OpenAI 甚至在官方博客中表示:「因此,GPT-4.5 還無(wú)法完全替代 GPT-4o」
考慮到要在支持現(xiàn)有功能和開(kāi)發(fā)未來(lái)的模型之間取得平衡,OpenAI 還在評(píng)估是否要長(zhǎng)期在 API 中提供 GPT-4.5。
大家明顯被 GPT?4.5 的價(jià)格震驚到了,下面這張梗圖說(shuō)明了一切。
圖源:https://x.com/airesearch12/status/1895215157623889991
OpenAI 已經(jīng)放出了詳細(xì)的 GPT-4.5 系統(tǒng)卡。
系統(tǒng)卡地址:https://cdn.openai.com/gpt-4-5-system-card.pdf
Scaling Law 還在生效
可能比我們期待得更久一些,曾是 OpenAI 和 Tesla AI 團(tuán)隊(duì)重要成員的 Andrej Karpathy 直接寫(xiě)了一篇「小作文」,表示期待 GPT-4.5 已經(jīng)約兩年了。
https://x.com/karpathy/status/1895213023238987854
「自從 GPT-4 發(fā)布以來(lái),我一直渴望看到這種升級(jí),因?yàn)樗軓囊粋€(gè)定性的角度來(lái)衡量擴(kuò)大預(yù)訓(xùn)練計(jì)算規(guī)模所帶來(lái)的進(jìn)步(即大力出奇跡)?!?/p>
「每個(gè)版本號(hào)提升 0.5,大致對(duì)應(yīng)預(yù)訓(xùn)練計(jì)算量增長(zhǎng)了十倍。」Karpathy 回顧了 Scaling Law 從 GPT-1 到 GPT-4 逐漸生效的過(guò)程,雖然相比 GPT-3.5,GPT-4 的進(jìn)步似乎有些微妙。
「一切似乎都只是在細(xì)微之處有所改進(jìn):措辭更具創(chuàng)意,對(duì)提示詞的細(xì)微差別理解得更好,類比更合理,模型也更有趣,對(duì)罕見(jiàn)領(lǐng)域的知識(shí)和理解有所提升,幻覺(jué)現(xiàn)象減少了,整體感覺(jué)更好。這就像「水漲船高」,所有方面都提升了大約 20%?!?/p>
因此,帶著這種預(yù)期,Karpathy 開(kāi)始測(cè)試比 GPT-4 的預(yù)訓(xùn)練計(jì)算量增加了 10 倍的 GPT-4.5。在提前體驗(yàn)過(guò) GPT4.5 時(shí),他再次感受到了從 GPT-3.5 進(jìn)化到 GPT-4 時(shí)那種震撼。
更令人興奮的是,Karpathy 認(rèn)為 GPT-4.5 依然展示了 Scaling Law 的獨(dú)到之處,僅僅通過(guò)訓(xùn)練更大模型就能「免費(fèi)」獲得模型各方面能力的提升。
Karpathy 判斷 OpenAI 接下來(lái)會(huì)基于 GPT-4.5 進(jìn)一步通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,使其具備推理能力?!刚?qǐng)注意,GPT-4.5 僅通過(guò)預(yù)訓(xùn)練、監(jiān)督微調(diào)和 RLHF 進(jìn)行了訓(xùn)練,因此它并不是一個(gè)推理模型。因此,在推理至關(guān)重要的場(chǎng)景中(如數(shù)學(xué)、編程等),GPT-4.5 的發(fā)布并沒(méi)有推動(dòng)模型能力的提升?!?/p>
Karpathy 更期望在非推理密集型任務(wù)(更多與情商相關(guān),比如世界知識(shí)、創(chuàng)造力、類比能力、整體理解力、幽默感等等)中看到 GPT-4.5 的進(jìn)步。為此,Karpathy 設(shè)計(jì)了 5 個(gè)好玩的提示詞來(lái)測(cè)試。
大家如果感興趣,可以去 Karpathy 評(píng)論區(qū)的輕量級(jí)模型競(jìng)技場(chǎng)上投票,看看 GPT-4.5 的情商是不是更精進(jìn)了:
題目:創(chuàng)建一段 GPT-4.5 和 GPT-4 之間的對(duì)話,其中 GPT-4.5 以幽默和諷刺的方式嘲笑 GPT-4 的能力不足,GPT-4 則幽默地試圖為自己辯護(hù)。
不過(guò)以「整頓」AI 圈出名的 Gary Marcus 并不看好 GPT -4.5,他表示 GPT-4.5 基本上是個(gè)無(wú)足輕重的研究。GPT-5 仍然是一個(gè)幻想。
更進(jìn)一步的,Marcus 表示擴(kuò)展數(shù)據(jù)和計(jì)算能力并不是一條好的物理定律,過(guò)去幾年我們聽(tīng)到的關(guān)于 GPT-5 的那些夸大其詞的說(shuō)法:并不那么真實(shí)。
https://x.com/GaryMarcus/status/1895212523949113752