自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="onmsm"><p id="onmsm"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

OpenAI震撼發(fā)布o1大模型！RL深度思考，技術差距拉開

作者：包包算法筆記 2024-09-13 10:06:21

如果用的是常規(guī)的預訓練數據集，中間的CoT部分完全是通過RL訓練出來，完全原生的，那么很好，LLM推理這個領域基本上結束了，我們離AGI又近了一步。

openai放大招了，是奧特曼在推上宣傳了很久的草莓真身，這次它真的來了。

圖片

又給大家?guī)硪稽c小小的震撼，國內大模型老板們也不再迷茫了，4o的多模態(tài)的還沒趕上呢，這下怎么又回到純文本了，不是說大家都搞得差不多了嗎？

奧特曼表示，雖然 o1 的表現(xiàn)仍然存在缺陷，不過你在第一次使用它的時候仍然會感到震撼。

圖片

這對從業(yè)者絕對是一件大好事，老板們發(fā)現(xiàn)餅還比較大，還可以讓資本繼續(xù)投錢，百萬洗數據槽工衣食所系！

直接延長了從愚昧之巔到絕望之谷的到來。

圖片

OpenAI o1到底有多強？

這次發(fā)布的大模型主要針對的任務是復雜任務推理，比如競賽難度的編程問題，奧賽難度的數學問題等。并且效果得到了極大的提升，大概從高中生提升到了博士生。比如寫代碼的水平：

圖片

該模型在 2024 年國際信息學奧林匹克競賽（IOI）賽題上得到了 213 分，達到了排名前 49% 的水平。

圖片

在最難的數學，code，物理化學生物等benchmark上遙遙領先。在全美高中生數學競賽AIME上，o1能達到74分（GPT4-o僅有12分），如果采樣1000次，結合reward model加權投票能到93分，能排進全國前500名，超過USA Mathematical Olympiad的晉級分數線；在GPQA，一個關于物理，化學和生物的智力測試上，OpenAI招募了一群相關領域有博士學位的專家和o1同臺競技， o1能夠在GPQA-diamond questions.上超過這群專家。在視覺感知能力后方面，o1 在 MMMU 上取得了 78.2% 的分數，成為第一個與人類專家媲美的模型。

圖片

值得注意的是，OpenAI在o1的基礎上加強了模型的代碼能力，以o1為初始化又訓了一個o1-IOI，用于參加2024年的國際奧林匹克信息競賽（2024 International Olympiad in Informatics），在和人類選手相同的條件下，在10h內解決6道非常難的競賽問題，每個問題最多允許提交50次。最終，o1-IOI能獲得一個216分的分數，在放開提交次數后，o1-IOI能獲得362.14，超過了金牌線。這種和人類頂尖選手同臺競技，才是最能反映模型能力的benchmark吧。在CodeForce上，打出了驚人的1807分。

圖片

并且安全性得分上也遙遙領先；

技術上最大的提升

一般的LLM訓練，對齊，推理三個階段的耗時通常是：

圖片

這次，o1的耗時分布就變得很神奇。

圖片

并且我們能發(fā)現(xiàn)一個簡單的例子需要消耗690多個token，5秒多。

圖片

OpenAI聲稱，訓練階段，會通過強化學習，讓o1完善其思維鏈并優(yōu)化所使用的策略。例如：識別并糾正錯誤，將復雜步驟拆分為簡單步驟，當前方法不work時，換一種方法在推理階段，模型同樣會在呈現(xiàn)給用戶的cot之外，做一個更深的的所謂的long internal chain of thought，所以推理時間會更長，相當于COT套娃了，給COT再加一個COT。

圖片

但訓練技術上怎么實現(xiàn)的呢？

知乎作者白蘇蘇給了一個關于推理階段內在思維連提升性能的案例：

思維鏈：

圖片

內在思維鏈：

圖片

但具體是怎么訓練來的，openai只提到了強化學習幾個字，從推理速度上來看，模型在推理時候應該是輸出了很多中間token，到了某個觸發(fā)詞{output}再真正的輸出。

這個能力怎么來的，網友MoonCancer發(fā)表了不同見解：

如果用的是常規(guī)的預訓練數據集，中間的CoT部分完全是通過RL訓練出來，完全原生的，那么很好，LLM推理這個領域基本上結束了，我們離AGI又近了一步。

如果是用4o之類的模型合成大量細致的CoT數據，然后進行模仿，再學習把過于細致的部分隱藏起來，那么貢獻基本上等同于把模型scale 10倍，是一種很好的模型增強方法。

如果是專門請人寫了大量CoT數據然后強行給模型finetune進去，那真的是“有多少人工就有多少智能”。

責任編輯：武曉燕來源：包包算法筆記

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營