自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI震撼發(fā)布o1大模型!RL深度思考,技術差距拉開

人工智能
如果用的是常規(guī)的預訓練數據集,中間的CoT部分完全是通過RL訓練出來,完全原生的,那么很好,LLM推理這個領域基本上結束了,我們離AGI又近了一步。

openai放大招了,是奧特曼在推上宣傳了很久的草莓真身,這次它真的來了。

圖片圖片

又給大家?guī)硪稽c小小的震撼,國內大模型老板們也不再迷茫了,4o的多模態(tài)的還沒趕上呢,這下怎么又回到純文本了,不是說大家都搞得差不多了嗎?

奧特曼表示,雖然 o1 的表現(xiàn)仍然存在缺陷,不過你在第一次使用它的時候仍然會感到震撼。

圖片圖片

這對從業(yè)者絕對是一件大好事,老板們發(fā)現(xiàn)餅還比較大,還可以讓資本繼續(xù)投錢,百萬洗數據槽工衣食所系!

直接延長了從愚昧之巔到絕望之谷的到來。

圖片圖片

OpenAI o1到底有多強?

這次發(fā)布的大模型主要針對的任務是復雜任務推理,比如競賽難度的編程問題,奧賽難度的數學問題等。并且效果得到了極大的提升,大概從高中生提升到了博士生。比如寫代碼的水平:

圖片圖片

該模型在 2024 年國際信息學奧林匹克競賽(IOI)賽題上得到了 213 分,達到了排名前 49% 的水平。

圖片圖片

在最難的數學,code,物理化學生物等benchmark上遙遙領先。在全美高中生數學競賽AIME上,o1能達到74分(GPT4-o僅有12分),如果采樣1000次,結合reward model加權投票能到93分,能排進全國前500名,超過USA Mathematical Olympiad的晉級分數線;在GPQA,一個關于物理,化學和生物的智力測試上,OpenAI招募了一群相關領域有博士學位的專家和o1同臺競技, o1能夠在GPQA-diamond questions.上超過這群專家。在視覺感知能力后方面,o1 在 MMMU 上取得了 78.2% 的分數,成為第一個與人類專家媲美的模型。

圖片圖片

值得注意的是,OpenAI在o1的基礎上加強了模型的代碼能力,以o1為初始化又訓了一個o1-IOI,用于參加2024年的國際奧林匹克信息競賽(2024 International Olympiad in Informatics), 在和人類選手相同的條件下,在10h內解決6道非常難的競賽問題,每個問題最多允許提交50次。最終,o1-IOI能獲得一個216分的分數,在放開提交次數后,o1-IOI能獲得362.14,超過了金牌線。這種和人類頂尖選手同臺競技,才是最能反映模型能力的benchmark吧。在CodeForce上,打出了驚人的1807分。

圖片圖片

并且安全性得分上也遙遙領先;

技術上最大的提升技術上最大的提升

一般的LLM訓練,對齊,推理三個階段的耗時通常是:

圖片圖片

這次,o1的耗時分布就變得很神奇。

圖片圖片

并且我們能發(fā)現(xiàn)一個簡單的例子需要消耗690多個token,5秒多。

圖片圖片

OpenAI聲稱,訓練階段,會通過強化學習,讓o1完善其思維鏈并優(yōu)化所使用的策略。例如:識別并糾正錯誤,將復雜步驟拆分為簡單步驟,當前方法不work時,換一種方法在推理階段,模型同樣會在呈現(xiàn)給用戶的cot之外,做一個更深的的所謂的long internal chain of thought,所以推理時間會更長,相當于COT套娃了,給COT再加一個COT。

圖片圖片

但訓練技術上怎么實現(xiàn)的呢?

知乎作者白蘇蘇給了一個關于推理階段內在思維連提升性能的案例:

思維鏈:

圖片圖片

內在思維鏈:

圖片圖片

但具體是怎么訓練來的,openai只提到了強化學習幾個字,從推理速度上來看,模型在推理時候應該是輸出了很多中間token,到了某個觸發(fā)詞{output}再真正的輸出。

這個能力怎么來的,網友MoonCancer發(fā)表了不同見解:

如果用的是常規(guī)的預訓練數據集,中間的CoT部分完全是通過RL訓練出來,完全原生的,那么很好,LLM推理這個領域基本上結束了,我們離AGI又近了一步。

如果是用4o之類的模型合成大量細致的CoT數據,然后進行模仿,再學習把過于細致的部分隱藏起來,那么貢獻基本上等同于把模型scale 10倍,是一種很好的模型增強方法。

如果是專門請人寫了大量CoT數據然后強行給模型finetune進去,那真的是“有多少人工就有多少智能”。

責任編輯:武曉燕 來源: 包包算法筆記
相關推薦

2024-09-13 06:32:25

2024-09-24 11:01:03

2025-02-03 14:17:27

2024-09-13 09:26:17

2025-01-23 10:45:52

2024-10-05 00:00:00

2024-12-05 10:16:14

2024-12-09 11:06:31

2025-01-08 13:08:55

2025-02-19 13:50:00

明星編程軟件

2024-11-07 15:40:00

2024-11-11 07:03:00

HK-O1aw人工智能法律推理大模型

2024-12-23 07:40:00

AI模型數學

2024-09-14 12:51:16

2024-10-14 13:40:00

2024-11-29 13:57:38

2025-02-08 14:03:25

2024-09-18 09:17:00

OpenAI模型開源

2024-09-19 18:03:31

2024-12-16 16:05:34

點贊
收藏

51CTO技術棧公眾號