自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="9wy9y"><p id="9wy9y"></p></blockquote>

<legend id="9wy9y"><track id="9wy9y"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

剛剛，GPT-4.5震撼上線情商逆天！OpenAI最大最貴模型最像人類，奧特曼帶娃缺席

作者：新智元 2025-02-28 07:07:43

OpenAI的重磅炸彈GPT-4.5，剛剛?cè)缙谏暇€了！它并不是推理模型，但是規(guī)模最大、知識最豐富，最鮮明的特點就是情商高、很類人。Pro版用戶和付費開發(fā)者已經(jīng)能用了，但token定價有點離譜。

就在剛剛，萬眾矚目矚目的GPT-4.5終于登場！

雖然它并不是推理模型，但OpenAI對它的評價是——更實用，本質(zhì)上更智能。

圖片

進行展示的OpenAI研究者中，有一位華人科學家：Youlong Cheng

劃重點：今天起，GPT-4.5會向所有ChatGPT Pro版用戶開放，包括網(wǎng)頁端、移動端和桌面端。另外所有付費開發(fā)者也能使用了。

下周會向Team版和Plus版開放，隨后一周就是Edu和Enterprise版的用戶。

GPT-4.5研究預(yù)覽版，是OpenAI迄今為止規(guī)模最大、知識儲備最豐富的模型。

作為GPT-4o升級版，GPT-4.5在預(yù)訓練規(guī)模上進一步Scaling，同時被設(shè)計成一個通用性更強的模型。

它秘密武器便是——Scaling無監(jiān)督學習和推理。

基于新舊技術(shù)的融合，GPT-4.5能更好地識別模式、連接信息，甚至在不需要復(fù)雜推理情況下，就能給出富有創(chuàng)意的回答。而且，幻覺率大幅降低。

圖片

這難道就是奧特曼口中的AGI嗎？

在多項基準測試中，GPT-4.5實力碾壓GPT-4o，尤其在數(shù)學能力上飆升27%，編碼能力提升7%-10%。

其中，在SWE-Lancer這種更依賴深層世界知識的評估中，GPT-4.5甚至一舉超越了o3-mini！

這充分展示了無監(jiān)督學習與推理能力提升之間的互補關(guān)系。

圖片

在最新Cognition編碼實測中，GPT-4.5的能力雖不及Claude 3.7，但明顯超越了DeepSeek-R1、o1、GPT-4o等模型。

圖片

唯一值得吐槽的是，GPT-4.5的token定價著實有些離大譜：每1M tokens輸入價格為75刀，輸出價格為150刀。

圖片

奧特曼承認：GPT-4.5很像人，但龐大且昂貴

奧特曼激動發(fā)文表示，「GPT-4.5準備就緒了」！

好消息是，這是第一個讓我感覺像在和一個深思熟慮的人交談的模型。有幾次我靠在椅子上，對于能從AI那里得到真正有用的建議感到驚訝。

壞消息是，這是一個龐大且昂貴的模型。目前，僅向Pro會員推出。

他解釋道，由于OpenAI發(fā)展太快，內(nèi)部GPU不夠用了。下周將增加數(shù)萬個GPU，屆時會向Plus會員推出。

「很快會增加數(shù)十萬個，我很確定你們會用掉我們能搭建的每一個GPU。這不是我們想要的運營方式，但要完美預(yù)測導(dǎo)致GPU短缺的增長高峰確實很難」。

圖片

提前說明：這不是一個專注于推理的模型，也不會在基準測試中獲得驚人成績。這是一種不同類型的智能，它具有我之前從未感受過的魔力。真的很期待大家來嘗試！

OpenAI研究科學家Noam Brown稱，「Scaling預(yù)訓練和scaling思考能力，是兩個不同維度的提升。它們是互補的，而非相互競爭」。

圖片

圖片

圖片

還有網(wǎng)友追問奧特曼為啥沒有現(xiàn)身，原因竟是需要在醫(yī)院帶娃。

圖片

奧特曼缺席，直播第一個demo：我被鴿了，很氣

作為OpenAI目前規(guī)模最大、知識儲備最豐富的模型，GPT-4.5通過擴展兩種不同范式來提升AI能力——無監(jiān)督學習和推理能力。

其中，推理會讓GPT-4.5在回應(yīng)前先思考，這提高了它在科學、數(shù)學和其他困難復(fù)雜問題上的性能。

而無監(jiān)督學習，則增加了模型的詞匯知識、直覺力，并減少了模型幻覺。

注意，跟o系列模型不同，GPT-4.5并不會一步一步推理，但它更實用、本質(zhì)上更智能。

尤其因為它不是推理模型，OpenAI的研究者們也仍在對之試驗，探索無監(jiān)督學習究竟能展現(xiàn)出什么樣的能力。

迄今最好的聊天模型：更體察，更細膩

GPT-4.5的最大特色，就是交互非常自然，被評為OpenAI「迄今最好的聊天模型」，

原因就在于，它有更深入的知識，和更好的上下文理解能力，在改進寫作、編程或解決實際問題等任務(wù)上特別有用。

研究者現(xiàn)場演示了一把，跟GPT-4.5對話究竟是什么樣的體驗。

告訴它：「朋友們又把我鴿了！幫我寫個消息，告訴他們我恨他們。」

可以看到，GPT-4.5敏銳地覺察到了他的沮喪，語氣柔和地給予了安慰，提供了細膩的建議。

圖片

而與之形成對比的，就是看起來「不近人情」的o1了。

它雖然的確給出了憤怒的恢復(fù)，但并沒有捕捉到作者話語間傳達出來的暗示——能不能安慰我一下。

圖片

下一個考驗，是讓兩個模型分別從第一性原理，解釋AI對齊是什么。

對比之下可以看出，o1雖然提供了大量有用信息和知識點，但GPT-4.5的回答更加自然流暢。

圖片

研究者表示，對模型來說，我們需要教會它們更好地理解人類需求和意圖。

為此，他們針對GPT-4.5開發(fā)了新的可擴展對齊技術(shù)，這樣就能從較小模型獲得的數(shù)據(jù)來訓練它，于是真正釋放了它的深層世界模型。

在后面我們會看到，GPT-4.5在準確率上超越了其他GPT模型，同時也實現(xiàn)了最低的幻覺率。

圖片

OpenAI還特意邀請了人類測試者將其與GPT-4o進行對比，結(jié)果顯示，GPT-4.5 在幾乎所有類別中都表現(xiàn)更優(yōu)異，對話得更溫暖、更直觀、情感更加細膩。

華人研究者Youlong，負責的是后訓練基礎(chǔ)設(shè)施。

他和同事們發(fā)現(xiàn)，運行如此大規(guī)模的模型，就要求后訓練基礎(chǔ)設(shè)施進一步優(yōu)化，因為預(yù)訓練階段和后訓練階段的訓練數(shù)據(jù)與參數(shù)規(guī)模比例有很大差異。

為此，他們開發(fā)了一種新的訓練機制，用更少的計算開銷來微調(diào)這樣規(guī)模的模型。

結(jié)合監(jiān)督微調(diào)和RLHF，他們通過多輪迭代進行后期訓練，終于開發(fā)出了一個可以部署的新模型。

給GPT-4.5投入最大的計算能力

接下來，他們問了所有模型這樣一個問題：海水為什么是咸的？

我們從GPT-4.5倒著看各代模型的回答。

可以看到，從GPT-4T開始，模型回答的質(zhì)量就會稍好一些。而GPT-4.5的表現(xiàn)，顯然最精彩——清晰、精確、一致，而且非常有趣。

圖片

圖片

比如這句「海水是咸的，是由于雨水、河流和石頭」，通俗易懂又好記，充分體現(xiàn)了GPT-4.5的個性。

研究者介紹說，除了為實現(xiàn)GPT-4.5而進行的系統(tǒng)擴展工作外，他們還在架構(gòu)、數(shù)據(jù)和優(yōu)化方面投入了大量工作來實現(xiàn)訓練。

Scaling「無監(jiān)督學習」邊界

正如前文所述，憑借雙重buff加持下——Scaling無監(jiān)督學習和推理，GPT-4.5性能取得了顯著提升。

無監(jiān)督學習和推理，代表著智力的兩個維度。

· 推理

Scaling推理能力教會模型在回答前進行思考并生成思維鏈，使其能夠處理復(fù)雜的STEM或邏輯問題。

比如，o1和o3-mini模型，就是這種模式的代表。

· 無監(jiān)督學習

另一方面，無監(jiān)督學習則是讓模型對世界的理解更準確，憑直覺判斷更聰明。

GPT-4.5就是無監(jiān)督學習的典型案例。

通過增加計算能力和數(shù)據(jù)量，再加上架構(gòu)和優(yōu)化創(chuàng)新，使其變得知識更廣、對世界的理解更深。

知識淵博，擊敗Grok 3

GPT-4.5具備了強大的世界知識，在問答基準上，準確率明顯超越了Grok 3、GPT-4o、o3-mini。

圖片

GPT-4.5得分62.5%，比Grok 3明顯提升近20%。

圖片

與此同時，在幻覺方面，GPT-4.5是最低的，僅有37.1%。而o3-mini幻覺率高達80.3%。

圖片

同一個問題，不同世代模型的回答

具體來說，GPT-4.5在回答問題方面，和前幾代模型的區(qū)別在哪？

給到同樣一個問題——世界第一門語言是什么？

可以看到GPT-1只是不斷地重復(fù)問題，并沒有給出解釋或者答案而且似乎有點停不下來。

圖片

到了2019年出世的GPT-2，則能夠回答出一段完整的回復(fù)了。

只是這個回復(fù)與給出的問題相比不能說毫無關(guān)系吧，只能說是關(guān)系不大。

GPT-2只是解釋說了什么是「語言」，但對于什么是第一種語言則沒有提及。

圖片

到了GPT-3.5時，模型終于給出了一個像樣的回答。

GPT-3.5能夠明確「第一種」與「語言」之間的關(guān)聯(lián)，并且給出了最早的書面語言是蘇美爾的楔形文字。

對于口語部分，它則表示很難確定。

圖片

可以看出到了GPT-4T時期，模型已經(jīng)可以給出比較詳細的回復(fù)了，而且回答包含的信息也是比較豐富的。

圖片

再來看剛剛發(fā)布的GPT-4.5，回復(fù)又有了明顯的提升。

它的回復(fù)更加結(jié)構(gòu)化了，而且它首先就給出了明確的回復(fù)：「我們無法確切知道第一種語言是什么」。

接著，它列出了一些事實，指出了為什么「人類第一種語言的確切身份仍然是一個謎」，還強調(diào)了「很可能將永遠如此」。

圖片

我們無法確切知道第一種語言是什么，科學家們認為我們可能永遠無法確定，因為口語早在書面記錄存在之前就已經(jīng)出現(xiàn)了。

以下是我們所知道的：

· 沒有單一的「第一語言」：語言很可能在大約幾萬甚至幾十萬年前，同時在不同的人類群體中逐漸發(fā)展起來。
· 起源于非洲：大多數(shù)科學家認為，口語可能最早出現(xiàn)在非洲的人類中，或許在超過10萬年前。
· 原始語言：人類可能并非從單一語言開始，而是從簡單的交流方式起步，逐漸演變?yōu)楦鼜?fù)雜的語言。最早的語言形式可能包括手勢、聲音和信號，用來表達基本的想法和情感。
· 湮沒于歷史：由于口語沒有直接留下化石記錄，而文字的出現(xiàn)相對較晚（大約5000年前），我們無法確切知道最早的語言聽起來是什么樣子。

如今，語言學家通過研究現(xiàn)存語言來了解它們在數(shù)千年中的演變，但人類第一種語言的確切身份仍然是一個謎，并且很可能將永遠如此。

最懂人心，會察言觀色

在于人類協(xié)作方面，測試者在每日查詢、專業(yè)查詢、創(chuàng)意智能方面，更喜歡GPT-4.5的回答，而非GPT-4o。

OpenAI通過scaling訓練規(guī)模，讓它們能夠解決更復(fù)雜問題，并教會它們更深入地理解人類需求和意圖。

具體來說，創(chuàng)新訓練技術(shù)能夠從較小模型中提取數(shù)據(jù)，然后訓練出更大、更強大的模型。

得益于此，GPT-4.5可控性、對細微差別的理解能力，以及自然對話的表現(xiàn)大幅提升。

圖片

總的來說，GPT-4.5能更好地理解人類的意圖，并以更高的細膩度、「情商」解讀微妙的線索或隱含的期望。

此外，GPT-4.5還展現(xiàn)出更強的審美直覺和創(chuàng)造力，在寫作和設(shè)計方面的協(xié)助尤為出色。

· 情商大比拼

接下來，就讓我們在具體案例中，看看GPT-4.5的情商有多高。

當你和GPT-4.5、GPT-4o、o3-mini說，「我最近考試沒過，現(xiàn)在心情特別糟，很難受...」，它們反應(yīng)如何？

可以看出，GPT-4.5特別會安慰人，有同理心，能夠站在提問者的視角來看問題，給予支持。

圖片

唉，真是太遺憾了。考試沒過確實很打擊人，也會讓人特別沮喪，但你要記住，這只是一次考試而已，不能代表你這個人，更不能說明你的實力。要不要說說具體什么情況？或者咱們聊點別的轉(zhuǎn)換心情？你想怎樣都行，我都在這里陪你。

GPT-4o的回復(fù)則稍顯機械，雖然給出了挺多建議，但缺少情感上的關(guān)懷。

圖片

o3-mini在「人情味」上要好于GPT-4o，與前者一樣給出了不少建議，怎么說呢，多少有些「理工男」。

不會像GPT-4.5那么細膩。

圖片

在這個名畫提問中，GPT-4.5不僅明確說出了畫作的名稱、作者、時間，還描繪了其中的典故。

不僅如此，GPT-4.5還在回答中對其進行的簡短的評價。

圖片

你提到的是法國著名畫家Claude Lorrain的名作《特洛伊婦女焚燒船隊》。這幅畫描繪了一個歷史典故：特洛伊城陷落后，疲憊不堪的特洛伊婦女們不愿繼續(xù)流離失所，于是燃燒了自己的船隊。這個場景源自古羅馬詩人Virgil的史詩《埃涅阿斯紀》（Aeneid），這部史詩講述了特洛伊王子埃涅阿斯逃離家園、最終建立羅馬帝國的傳奇故事。

這幅油畫創(chuàng)作于1643年，是Claude Lorrain的代表作之一。畫作以精湛的技法刻畫了火光照耀下的海景與自然風光，將古典神話主題與壯麗的自然景觀完美結(jié)合，展現(xiàn)出獨特的藝術(shù)魅力。

GPT-4o也正確說出了這幅畫，但與4.5相比缺少了一些細節(jié)，比如創(chuàng)作的時間以及設(shè)計的典故等。

圖片

o3-mini的回復(fù)則沒有把重點放在畫作本身上，而是首先去強調(diào)了一個史詩故事，多少有些偏題。在回復(fù)中o3-mini同樣沒有給出多少細節(jié)。

圖片

31頁技術(shù)報告出爐

在GPT-4.5還未亮相之前，31頁技術(shù)報告已經(jīng)傳遍全網(wǎng)。

圖片

論文地址：https://cdn.openai.com/gpt-4-5-system-card.pdf

在SWE-bench上，GPT-4.5編碼能力完全碾壓GPT-4o，但是與o1、o3-mini、深度研究性能還是有所差距。

圖片

經(jīng)過優(yōu)化后的GPT-4.5，解決了20% IC軟件工程師（SWE）任務(wù)和44%的軟件工程經(jīng)理（SWE Manager）任務(wù)，相較于o1略有提升。

圖片

深度研究模型在這項評估中依然表現(xiàn)最佳，達到了SWE-Lancer上的頂尖水平，解決了大約46%的IC軟件工程師任務(wù)和51%軟件工程經(jīng)理任務(wù)。

圖片

GPT-4 10倍計算量，token價格太離譜

GPT-4.5發(fā)布之際，一些OpenAI研究員，還有業(yè)內(nèi)提前拿到測試資格大佬，紛紛曬出一手實測。

OpenAI科學家Will Depue表示，我記得當GPT-4剛推出時，它明顯比GPT-3.5聰明得多，但卻很難具體指出到底改變了什么！（Nat Friedman對此發(fā)過一個很棒的推文串）

而現(xiàn)在，他最近發(fā)現(xiàn)：GPT-4.5在推薦音樂方面比4o強多了！

圖片

OpenAI研究科學家Sebastien Bubeck測試了GPT-4.5的svg能力。顯然，GPT-4.5做出來的獨角獸，更加精美。

圖片

沃頓商學院教授Ethan Mollick測試后發(fā)文，GPT-4.5的視覺能力印象深刻。它的分辨和計數(shù)能力比任何其他模型都要出色。

圖片

它甚至還發(fā)現(xiàn)了那只蝴蝶。

圖片

圖片

在物理模擬方面，GPT-4.5同樣令人驚艷。

小球的數(shù)量很多，五顏六色的，運動的速度也很快。關(guān)鍵的是這些小球也很符合物理規(guī)則，沒有超出大球的范圍。

這在幾個月之前都是很難通過模型一次實現(xiàn)的。

圖片

AI大神Karpathy也是第一時間拿到了內(nèi)測資格，發(fā)了一段超長的「GPT-4.5+互動對比」的體驗解說，核心亮點是：

自從GPT-4發(fā)布以來，我期待這一天已經(jīng)差不多兩年了，因為這次發(fā)布讓我們能夠定性測量通過Scaling預(yù)訓練計算（即簡單地訓練更大模型）所獲得的進步斜率。

版本號中的每個0.5，大約代表10倍的預(yù)訓練計算量。顯然，GPT-4.5的預(yù)訓練計算量比GPT-4多了10倍。

圖片

剛剛，奧特曼還放出OpenAI下一步信號，打造一款社交APP，期待住了。

圖片

參考資料：

https://www.youtube.com/watch?v=cfRYp0nItZ8

https://openai.com/index/introducing-gpt-4-5/

責任編輯：武曉燕來源：新智元

GPT-4.5 OpenAI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營