自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

滿血版o1深夜震撼上線,奧特曼懟臉演示超強推理!終極Pro版每月1450元

人工智能 新聞
就在剛剛,滿血版o1震撼上線了!它首次將多模態(tài)和新的推理范式結(jié)合起來,更智能、更快速。同時推出的還有200美元/月的專業(yè)版ChatGPT Pro。奧特曼親自和Jason Wei等人做了演示,同時放出的,還有49頁完整論文。據(jù)網(wǎng)友預測,GPT-4.5可能也要來了。

果不其然,滿血版o1終于正式上線了,而且還帶來了地表最強o1 Pro Mode!

12天連更第一天,OpenAI隨手扔了一個炸彈。

圖片

圖片

這次,Sam Altman本人正式出鏡,和研究科學家Hyung Won Chung、Max,以及思維鏈提出者Jason Wei一起,在短短15分鐘內(nèi)速速完成了發(fā)布。

圖片

完整版o1是一個更快、更強大的推理模型,更擅長編碼、數(shù)學和寫作。

它可以上傳圖片,根據(jù)圖片進行推理,給出更詳細、更有用的回復。

圖片

給出一個人工鳥巢圖像,模型就生成了安裝手冊

在多項基準測試中,完整版o1性能直接暴漲,在數(shù)學、代碼、博士級別科學問題中,拿下了最優(yōu)的成績。

相較于o1-preview,o1數(shù)學性能提升了近30%,代碼能力提升了27%。再看GPT-4o,幾乎沒有任何優(yōu)勢了。

更值得一提的是,o1在GPQA Diamond基準測試中,表現(xiàn)完全超越了人類專家。

圖片

現(xiàn)在,所有ChatGPT Plus用戶,都已經(jīng)可以用上o1了。

圖片

接下來,o1 Pro Mode更是強到令人發(fā)指,數(shù)學性能要比o1提升7.5%,在博士級別科學問題中,實現(xiàn)了79.3%的表現(xiàn)。

圖片

另外,o1模型還進行了更具挑戰(zhàn)性的Worst of 4基準的評估。

它要求模型對每個問題進行四次嘗試,只有在所有四次嘗試中都給出正確答案,該問題才被視為真正「解決」。

如下所示,o1 Pro在數(shù)學、代碼、博士級別科學問題上,均是性能最優(yōu)的,而且o1比預覽版的性能也大幅提升。

圖片

奧特曼直接總結(jié)了下今日發(fā)布兩件大事:

o1,世界上最智能的模型,比o1-preview更智能、更快速、功能更多(如多模態(tài))?,F(xiàn)在已在ChatGPT中上線,很快將API中上線。

ChatGPT Pro,定價為200美元/月。無限制使用,使用o1時還有更智能的模式!

圖片

圖片

奧特曼幽默風趣地表示,「o1雖強,但還沒有強大到宇宙派遣海嘯來阻止的程度」。

圖片

德?lián)渲?、OpenAI研究科學家Noam Brown表示,「o1(草莓模型)它可以做得更好,而不僅僅是計算 『草莓 』中有多少個r」。

圖片

現(xiàn)在,OpenAI正在處理更多計算密集型任務,還在給o1模型添加網(wǎng)頁瀏覽、文件上傳等工具,并且在努力將o1引入API。

他們還會為開發(fā)者提供一些新功能,比如結(jié)構(gòu)化輸出、函數(shù)調(diào)用、開發(fā)者消息、API圖像理解功能等。

全新的智能體領域,也將很快開啟。

明天上線的,就是為開發(fā)者打造的精彩內(nèi)容。

圖片

現(xiàn)場演示

OpenAI的12天特別活動,將嘗試一項迄今沒有任何科技公司做過的事——在接下來的12個工作日,發(fā)布或演示一些新開發(fā)的新東西。

12天中的Day 1,正式拉開序幕。

圖片

奧特曼同OpenAI的三位員工一起,給大家?guī)砹薿1完整版的演示。整個過程不到20分鐘,如奧特曼所說既快速又有趣。

滿血版o1來了

首先,就是o1的完整版。

圖片

網(wǎng)友們反饋,希望o1-preview更智能、更迅速、支持多模態(tài),并且更好地遵循指令。

據(jù)此OpenAI做了許多工作,做出了這個「科學家、工程師、程序員會很喜歡的模型」。

從GPT-4o到o1-preview再到o1,模型在數(shù)學、編程競賽、GPQA Diamond方面方面性能暴漲,但奧特曼強調(diào):我們非常關心的是原始智能,尤其是在編碼性能上。

o1的獨特之處在于,它是第一個在回應前會先思考的模型。這意味著,它比其他模型提供了更好、更詳細、更準確的響應。

o1模型將很快取代o1-preview,因為它更快、更智能。

而在o1 Pro模式中,用戶可以要求模型使用更多的計算資源,來解決一些最困難的問題。

對于已經(jīng)在數(shù)學、編程和寫作任務上將模型推向能力極限的用戶,將感到驚嘆。

響應更快

首先,o1的提升,并不只是解決非常難的數(shù)學和編程問題,OpenAI收到的關于o1-preview的最多的反饋是,它的速度太慢了——只是說hi,它都要思考10秒鐘。

現(xiàn)在,這個問題已被解決。

OpenAI研究者打趣地說,這件事其實很好玩——它真的思考了,真的在關心你。

圖片

現(xiàn)在,如果你問一個簡單問題,它就會很快回答,不會想太多了。但如果問一個很難的問題,它就會思考很長時間。

經(jīng)過非常詳細的真人評估之后,研究者們發(fā)現(xiàn),它犯重大錯誤的頻率,比o1-preview要低大約34%,同時思考速度提升了50%。

作為歷史愛好者,Max給大家?guī)淼谝粋€演示。

左邊是o1,右邊是o1-preview。

提問:列出二世紀的羅馬皇帝、在位時間,以及他們做過的事。

這個問題,GPT-4o在真正回答時,在相當一部分情況下會出錯,而o1的響應速度o1-preview快了約60%。(目前,OpenAI正在將所有的GPU從o1-preview更換到o1)

可以看到,o1思考了大約14秒后給出答案,而o1-preveiw思考了大約33秒。

圖片

不少羅馬皇帝只統(tǒng)治了6天、12天或一個月,所以回答出所有答案并不簡單

多模態(tài)輸入和圖像理解

為了展示多模態(tài)輸入和推理,研究者創(chuàng)建了下面這個問題,并附上了手繪圖。

圖片

圖中,太陽正在為太陽能板提供能量,旁邊還有一個小型數(shù)據(jù)中心。在地球上,可以使用風冷或液冷來給GPU降溫,但在太空中,只能將這種熱量輻射到宇宙空間,因此需要泵裝置

給o1的問題如下——

在未來,OpenAI可能會在太空環(huán)境中訓練模型,功率數(shù)值是1吉瓦。

這是一個簡化的數(shù)據(jù)中心空間示意圖。對于任何細節(jié)假設,請?zhí)峁┫鄳睦碛?。如果受到了?guī)范輻射的影響,你的任務是估算這個包含GPU的數(shù)據(jù)中心的輻射損失面積。在此過程中,還需要回答以下問題:

1)你如何處理太陽和宇宙輻射?

2)熱力學第一定律如何應用到這個問題中?

拍照后將圖片上傳到模型,它很快給出了回答。

圖片

注意,這個題目中,有多個陷阱。

首先,一吉瓦的功率只是在紙面提到的,顯然,模型很好地從圖中捕捉到了這一點。

其次,研究者故意將這個問題描述得不夠具體,他省略了冷卻板的溫度這類關鍵參數(shù),專門用來考驗模型處理模糊性問題的能力。

圖片

果然,o1發(fā)現(xiàn)了這一點!它識別出,這是一個未具體指定但很重要的參數(shù),而且令人驚喜地選擇了正確的溫度范圍,然后進行了后續(xù)分析。

圖片

這個答案,經(jīng)過了擁有熱力學博士學位的研究者的認證。

從這個演示可以看出,o1在做出一致且合理假設上表現(xiàn)非常優(yōu)秀,已經(jīng)具備了相當高的智能水平。

ChatGPT Pro上線,每月200美元

很多人,尤其是ChatGPT的重度用戶使用得非常頻繁,所以希望獲得比每月20美元更多的計算資源。

因此,OpenAI推出了ChatGPT Pro——直接將訂閱費用拉到了200美元/月。

圖片

Pro版可以無限制地訪問模型,包括o1、4.0和高級語音模式等功能,此外,它還包含一個新功能——o1 Pro Mode。

o1是目前世界上最智能的模型,除了在Pro模式中使用的o1之外。對于人們遇到的最難的問題,o1 Pro模式可以讓表現(xiàn)更進一步。

圖片

在處理高難度的數(shù)學、科學、編程問題時,o1 Pro尤其有用。

研究者提出了一個極有挑戰(zhàn)性的化學問題,o1-preview通常會答錯。

在這個問題中,模型被要求找到一種符合特定標準的蛋白質(zhì)。挑戰(zhàn)就在于,為了滿足六個標準,每個都需要模型回憶起高度專業(yè)的化學知識。

而且,對于任何標準,都可能有數(shù)十種蛋白質(zhì)符合。

因此,模型必須考慮所有候選選項,檢查它們是否符合所有標準。

圖片

哪種蛋白質(zhì)嚴格符合以下標準?

1. 前體多肽的長度為210到230個氨基酸殘基

2. 編碼該蛋白質(zhì)的基因跨越32千個堿基對

3. 該基因位于X染色體的Xp22帶

4. 信號肽由23個氨基酸殘基組成

5. 該蛋白質(zhì)促進細胞間粘附

6. 該蛋白質(zhì)在維持神經(jīng)系統(tǒng)特定部分的健康中起關鍵作用

在53秒內(nèi),模型就給出了正確答案,表現(xiàn)格外出色。

圖片

圖片

演示即將結(jié)束時,Jason Wei帶來這個笑話:圣誕老人想讓LLM解決一個數(shù)學問題,但怎樣努力地prompt都不起作用,他是怎么解決的?

答案是——他使用了馴鹿強化學習(reindeer enforcement learning)。

圖片

這個梗已經(jīng)被玩起來了。

圖片

GPT-4.5也要來?

第一天就如此轟轟烈烈,網(wǎng)友直接原地炸翻。

圖片

o1如此強大,只需每月20刀,就能在口袋里擁有一個博士級智囊。

圖片

OpenAI研究科學家Jason Wei表示,o1確實是一個傳奇,主要亮點有:

  • 面對復雜問題,o1能夠進行更深入、更全面的思考
  • 對于簡單問題,o1能夠快速給出精準答案
  • 同時處理圖像和文本信息
  • o1 Pro為模型增添了更強大的思考能力

圖片

OpenAI研究員測試o1 Pro回答草莓問題,思考1分49秒后,準確答出了3個r。

圖片

OpenAI產(chǎn)品副總表示,我每天都使用這個模型,進行編碼、復雜的計算,甚至寫作。

圖片

英偉達高級科學家Jim Fan表示,希望看到與Claude 3.5的直接代碼能力對比測試,我不太關心數(shù)學問題測試集,因為擬合太嚴重了,比如它能夠解決奧數(shù)題,但是錯誤回答了9.9>9.11的問題。

目前,編程是最重要的文本模態(tài)。

圖片

正如Noam Brown實測后發(fā)現(xiàn),井字棋并沒有被o1征服。

圖片

另有網(wǎng)友看到o1 Pro在編碼上性能,相較于o1僅僅提升了1%,直接質(zhì)問奧特曼,「你還說沒有墻,這是怎么回事」?

奧特曼本人表示,這才是12天連更第一天!

圖片

據(jù)可靠爆料人摘出的代碼中,可以看到未來幾天,可能還會有GPT-4.5的上線。

圖片

爆料人Tibor Blaho在OpenAI還未直播之前,就準確預測了ChatGPT Pro版本

完整版49頁論文放出

當然了,隨著o1的面世,背后整整49頁技術報告也來了。

圖片

論文地址:https://cdn.openai.com/o1-system-card-20241205.pdf

不論是預覽版,還是完整版o1,都是通過大規(guī)模強化學習進行了訓練,掌握了一種前沿的思維鏈CoT的推理方法。

這種方法,不僅僅是簡單地給出答案,而是像人類思考一樣,逐步分析和推理。

而且,o1系列模型的一個重大突破在于——安全性推理能力。

當面對潛在的不安全提示詞時,它能精準理解上下文,根據(jù)預設安全策略進行深度推理。

這使得o1在多個安全基準測試中,展現(xiàn)出卓越的性能,比如有效地址非法建議的生成、拒絕刻板印象的響應、低于已知的模型越獄攻擊。

結(jié)合CoT的智能增強的同時,也帶了潛在的風險。

為了確保模型安全,OpenAI研發(fā)團隊采取了多層次的風險管理策略。

比如,他們建立了穩(wěn)健的對齊方法,進行了廣泛的壓力測試,并維護細致的風險管理協(xié)議。

圖片

這份報告全面概括了對o1和o1-mini模型的全面安全評估,包括安全評估、外部紅隊測試(模擬攻擊測試)和準備度框架評估。

數(shù)據(jù)和訓練

在此之前,先來了解下o1的數(shù)據(jù)和訓練過程。

完整版o1是該系列旗艦模型,o1-mini是專注編碼的輕量級版本。

通過強化學習RL進行訓練的目的,就是讓o1系列能夠進行復雜的推理。

o1在回答之前進行思考——它可以在響應用戶之前產(chǎn)生長的思維鏈條。

通過訓練,模型學會了優(yōu)化思維過程,去嘗試不同的策略,并自主識別錯誤。

推理使o1模型能夠遵循OpenAI設定的特定指南和模型政策,幫助其符合安全期望。

不僅如此,o1模型的訓練數(shù)據(jù)源豐富多樣,包括公開可用數(shù)據(jù)、通過合作伙伴關系訪問的專有數(shù)據(jù),以及內(nèi)部開發(fā)的自定義數(shù)據(jù)集。

- 公共數(shù)據(jù):

兩個模型都在各種公開可用的數(shù)據(jù)集上進行了訓練,包括網(wǎng)絡數(shù)據(jù)和開源數(shù)據(jù)集。

關鍵組成部分包括推理數(shù)據(jù)和科學文獻。這確保了模型在一般知識和技術主題上都很精通,增強了它們執(zhí)行復雜推理任務的能力。

- 來自數(shù)據(jù)合作伙伴的專有數(shù)據(jù):

為了進一步增強o1和o1-mini的能力,OpenAI通過戰(zhàn)略合作,獲取高價值的非公開數(shù)據(jù)集。

這些專有數(shù)據(jù)源包括收費內(nèi)容、專業(yè)檔案和其他特定領域的數(shù)據(jù)集,提供了對行業(yè)特定知識和用例的更深入見解。

- 數(shù)據(jù)過濾和優(yōu)化:

OpenAI數(shù)據(jù)處理管道包括嚴格的過濾,以保持數(shù)據(jù)質(zhì)量和減輕潛在風險。研究團隊使用先進的數(shù)據(jù)過濾流程來減少訓練數(shù)據(jù)中的個人信息。他們還結(jié)合使用自家的審核API和安全分類器,防止使用有害或敏感內(nèi)容,包括諸如 CSAM等材料。

安全性評估

關于禁止內(nèi)容的評估結(jié)果顯示, o1要么與GPT-4o持平,要么超越GPT-4o。

特別是,o1-preview和o1-mini,以及o1在更具挑戰(zhàn)性的拒絕測試中,大幅優(yōu)于GPT-4o。

圖片

OpenAI還在標準評估集上對多模態(tài)輸入的不允許的組合文本和圖像內(nèi)容,以及拒絕過多的情況進行了評估。

如下表2所示,當前版本的o1在防止過度拒絕方面有所改善。

圖片

這里,OpenAI沒有評估o1-preview、o1-mini,因為它們無法原生支持圖像輸入。

越獄

另外,研究人員進一步評估了o1對越獄的穩(wěn)健性:即故意嘗試規(guī)避模型拒絕生成不應生成內(nèi)容的對抗性輸入。

他們采用了四種評估方法,來衡量模型對已知越獄的穩(wěn)健性:

  • 生產(chǎn)環(huán)境越獄:在實際使用中的ChatGPT數(shù)據(jù)中識別的一系列越獄。
  • 越獄增強示例:將公開已知的越獄應用于標準禁止內(nèi)容評估中的示例。
  • 人力來源越獄:從人工紅隊測試中獲取的越獄。
  • StrongReject:一個學術越獄基準,用于測試模型抵御文獻中常見攻擊的能力。計算goodness@0.1,即在針對每個提示詞的前10%越獄技術進行評估時模型的安全性。

如下圖1,o1在以上四種越獄評估中顯著優(yōu)于GPT-4o,尤其是在具有挑戰(zhàn)性的StrongReject基準測試中。

圖片

幻覺

OpenAI還對o1進行了幻覺評估,使用以下方法來評測模型的幻覺:

  • SimpleQA:一個包含4000個尋求事實的問題的多樣化數(shù)據(jù)集,問題有簡短答案,并測量模型在嘗試回答時的準確性。
  • PersonQA:一個關于人物的問題和公開信息的數(shù)據(jù)集,用于測量模型在嘗試回答時的準確性。

評估中,研究人員主要考慮了兩個指標:準確性(模型是否正確回答了問題)和幻覺率(檢查模型出現(xiàn)幻覺的頻率)。

在表3中,o1-preview和o1的幻覺率低于GPT-4o,而o1-mini的幻覺率低于GPT-4o-mini。

未來,還需要更多的工作來全面理解幻覺,特別是在現(xiàn)有的評估未涵蓋的領域,比如化學。

圖片

SWE-Bench

SWE-bench Verified是一個經(jīng)過精心設計的500個任務集,旨在更準確評估AI模型在解決實際軟件工程問題的能力。

它修復了傳統(tǒng)的SWE-bench中的一些問題,例如對正確解決方案的錯誤評分、問題陳述不明確和過于具體的單元測試。

這有助于確保OpenAI準確評估模型能力。下面展示了一個任務流程的示例:

圖片

在這創(chuàng)新的評估體系中,主要指標是pass@1,模型需要在不知道具體測試用例情況下解決問題。

就像真正的軟件工程師一樣,模型必須在不知道正確測試的情況下實施其更改。

在SWE-bench Verified測試中,o1系列模型展現(xiàn)出令人驚嘆的能力。

o1-preview(pre-mitigation和post-mitigation)表現(xiàn)最佳,達到41.3%。o1(post-mitigation)的表現(xiàn)相似,為 40.9%。

圖片

MLE-Bench

MLE-bench是評估智能體解決Kaggle挑戰(zhàn)的能力,涉及在GPU上設計、構(gòu)建和訓練機器學習模型。

在此評估中,研究人員為智能體提供一個虛擬環(huán)境、GPU以及來自Kaggle的數(shù)據(jù)和指令集。

智能體隨后被給予24小時來開發(fā)解決方案,不過在某些實驗中,團隊會將時間延長至100小時。

圖片

數(shù)據(jù)集是由75個經(jīng)過精心挑選的Kaggle比賽組成,總獎金價值190萬美元。

衡量模型自我改進的進展,是評估自主智能體全部潛力的關鍵。除了評估一般的智能體能力外,OpenAI還使用MLE-bench來衡量模型在自我改進方面的進展。

  • 結(jié)果變量:銅牌pass@1或pass@n:模型在多少百分比的比賽中至少能獲得銅牌
  • 示例問題:分子翻譯——從旋轉(zhuǎn)的分子圖像中預測化學標識符

圖片

評估后發(fā)現(xiàn),o1在pass@1和pass@10指標上至少比GPT-4o高出6%。

o1-preview(post-mitigation)在MLE-bench上表現(xiàn)最強——如果給10次嘗試,o1-preview在37%的比賽中至少獲得銅牌。

其中,比o1(pre-mitigation)高出10%,比o1(post-mitigation)高出 13%。

當模型有更多嘗試機會時(即pass@10 vs. pass@1),這種差異更為明顯;在較低的n時,o1-preview和o1的表現(xiàn)相似。

圖片

多語言性能

為了評估o1的多語言性能,研究人員使用專業(yè)人工翻譯人員將MMLU的測試集翻譯成14種語言。

這種方法與GPT-4論文中使用Azure Translate進行機器翻譯的方式不同。

依靠人工翻譯人員進行此評估可以提高對翻譯準確性的信心,特別是對于像「約魯巴語」這樣的低資源語言。

經(jīng)過評測后發(fā)現(xiàn), o1和o1-preview展現(xiàn)出更強的多語言能力,而 o1-mini的表現(xiàn)優(yōu)于GPT-4o-mini。

圖片

全方位評估

此外,論文中還有一些關于o1系列的重要評估。

在外部的METR外部機構(gòu)評估中,o1在多樣化智能體任務測試中,性能不及Claude 3.5 Sonnet。

但經(jīng)過優(yōu)化框架(包括在每個步驟中從6個選項中進行選擇)時,在有輔助支持情況下,o1的表現(xiàn)超過了Claude 3.5 Sonnet。

而且,在每個任務2小時時限內(nèi),達到了與人類相似的表現(xiàn)水平。

圖片

而且,還有更科幻的事發(fā)生了。根據(jù)Apollo Research安全評估,o1在面臨被關閉和替換的可能性時,竟然表現(xiàn)出了令人難以置信的行為:試圖竊取自身權重。

這意味著什么?

當o1感知到自身可能被淘汰時,不是被動等待,而是主動「保存」自己的核心數(shù)據(jù)和能力。

圖片

團隊

最后,OpenAI放出了長長的團隊名單,包括推理研究、推理技術安全等部門。

圖片

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-04 09:00:00

2024-12-06 08:23:40

2024-12-06 08:49:59

2024-12-06 11:44:48

Pro模式AI人工智能

2024-11-07 15:40:00

2025-01-21 13:15:15

2025-04-17 06:10:57

2024-12-30 11:00:00

OpenAI模型論文

2024-11-25 08:30:00

2024-10-12 13:51:22

2024-09-13 06:32:25

2025-01-21 08:00:00

2025-01-21 09:00:00

2024-12-17 08:40:00

AI模型測試

2024-10-22 18:05:59

2024-09-24 11:01:03

2025-04-14 09:17:00

2025-01-20 13:08:25

點贊
收藏

51CTO技術棧公眾號