自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="drxdo"></ruby>

<cite id="drxdo"></cite>

<style id="drxdo"><rp id="drxdo"></rp></style>

<legend id="drxdo"><track id="drxdo"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！

發(fā)布于 2024-9-13 11:39

瀏覽

0收藏

這篇主要會(huì)回答下面的問題（too long，don't read）：

什么是OpenAI o1？——一個(gè)擅長(zhǎng)數(shù)學(xué)物理化學(xué)生物編程等問題的理科學(xué)霸大模型
OpenAI o1最大的技術(shù)特征是什么？——RL訓(xùn)練和推理，在傳統(tǒng)COT之外隱藏了一個(gè)很長(zhǎng)的內(nèi)在COT，滿足scaling law
OpenAI o1到底有多強(qiáng)？——斷崖碾壓GPT4-o，達(dá)到人類競(jìng)賽選手，以及博士生水平。
人們更喜歡GPT4-o還是OpenAI o1?——文科方面o1沒有優(yōu)勢(shì)，理工科方面碾壓GPT4-o
OpenAI o1的安全性怎么樣？—— 相比4o優(yōu)勢(shì)明顯，更容易教會(huì)模型人類價(jià)值觀和原則
OpenAI o1為什么要向用戶隱藏內(nèi)在思維過(guò)程？——為了安全性和用戶體驗(yàn)（不想讓大家蒸餾它的內(nèi)在思維過(guò)程作為訓(xùn)練數(shù)據(jù)）

知乎：https://zhuanlan.zhihu.com/p/719859500

PS：“9.11和9.8誰(shuí)大”的這個(gè)問題OpenAI o1依然存在問題?。?！OpenAI o1模型是否被過(guò)譽(yù)，讓子彈再飛一會(huì)！

什么是OpenAI o1？

OpenAI o1（后面簡(jiǎn)稱o1）是OpenAI在2024.9.12號(hào)發(fā)布的最新大模型，主要針對(duì)的任務(wù)是復(fù)雜任務(wù)推理，比如競(jìng)賽難度的編程問題，奧賽難度的數(shù)學(xué)問題等。

參考OpenAI原始介紹: https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1最大的技術(shù)特征是什么？

在訓(xùn)練階段，會(huì)通過(guò)強(qiáng)化學(xué)習(xí)，讓o1完善其思維鏈并優(yōu)化所使用的策略。例如：識(shí)別并糾正錯(cuò)誤，將復(fù)雜步驟拆分為簡(jiǎn)單步驟，當(dāng)前方法不work時(shí)，換一種方法

在推理階段，模型同樣會(huì)在呈現(xiàn)給用戶的cot之外，做一個(gè)更深的的所謂的long internal chain of thought，所以推理時(shí)間會(huì)更長(zhǎng)，相當(dāng)于COT套娃了，給COT再加一個(gè)COT（猜測(cè)是把MCTS搜索過(guò)程序列化了，case放在文末）。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

值得注意的是，這次OpenAI依然主打了他們一直信奉的Scaling Law，在訓(xùn)練和測(cè)試時(shí)的時(shí)間都能和性能形成對(duì)數(shù)線性關(guān)系。

OpenAI o1到底有多強(qiáng)？

效果不用多說(shuō)了，跟GPT4-o已經(jīng)是斷崖式差距了，在最難的數(shù)學(xué)，code，物理化學(xué)生物等benchmark上遙遙領(lǐng)先。

在全美高中生數(shù)學(xué)競(jìng)賽AIME上，o1能達(dá)到74分（GPT4-o僅有12分），如果采樣1000次，結(jié)合reward model加權(quán)投票能到93分，能排進(jìn)全國(guó)前500名，超過(guò)USA Mathematical Olympiad的晉級(jí)分?jǐn)?shù)線；
在GPQA，一個(gè)關(guān)于物理，化學(xué)和生物的智力測(cè)試上，OpenAI招募了一群相關(guān)領(lǐng)域有博士學(xué)位的專家和o1同臺(tái)競(jìng)技， o1能夠在GPQA-diamond questions.上超過(guò)這群專家。
在視覺感知能力后方面，o1 在 MMMU 上取得了 78.2% 的分?jǐn)?shù)，成為第一個(gè)與人類專家媲美的模型。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

值得注意的是，OpenAI在o1的基礎(chǔ)上加強(qiáng)了模型的代碼能力，以o1為初始化又訓(xùn)了一個(gè)o1-IOI，用于參加2024年的國(guó)際奧林匹克信息競(jìng)賽（2024 International Olympiad in Informatics），在和人類選手相同的條件下，在10h內(nèi)解決6道非常難的競(jìng)賽問題，每個(gè)問題最多允許提交50次。最終，o1-IOI能獲得一個(gè)216分的分?jǐn)?shù)，在放開提交次數(shù)后，o1-IOI能獲得362.14，超過(guò)了金牌線。這種和人類頂尖選手同臺(tái)競(jìng)技，才是最能反映模型能力的benchmark吧。在CodeForce上，打出了驚人的1807分。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

人們更喜歡GPT4-o還是OpenAI-o1?

OpenAI測(cè)試了在不同領(lǐng)域的問答上，用GPT4-o和o1匿名回答，大家投票，結(jié)果顯示，o1只是在理工科方面顯著高于4o，比如編程，數(shù)據(jù)分析和數(shù)學(xué)題，但是在寫作和文本編輯方面和4o相差無(wú)幾，看起來(lái)o1確實(shí)是一個(gè)偏科的理工科選手。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

OpenAI o1的安全性怎么樣？

將模型需要遵循的準(zhǔn)則融入內(nèi)在COT中，可以高效且穩(wěn)健魯棒地教會(huì)模型人類偏好的價(jià)值和需要遵循的原則，不管是OpenAI內(nèi)部的安全benchmark還是外部公開的benchmark，o1都能達(dá)到極高的水平。更具體的好處有兩點(diǎn):

可以讓我們(不是，是OpenAI，我們看不到)更清晰地看到模型內(nèi)在的思維過(guò)程；
o1關(guān)于安全規(guī)則的模型推理對(duì)于分布外場(chǎng)景（OOD）更加穩(wěn)健.

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

OpenAI o1為什么要對(duì)用戶隱藏internal COT？

翻譯了一下OpenAI的原話，主要是為了用戶體驗(yàn)和安全問題：

“我們認(rèn)為隱藏的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì)。如果思維鏈忠實(shí)且易于理解，它允許我們“讀懂”模型的內(nèi)心并理解其思維過(guò)程。例如，將來(lái)我們可能希望監(jiān)控思維鏈，以識(shí)別是否存在操縱用戶的跡象。然而，為了實(shí)現(xiàn)這一點(diǎn)，模型必須能夠以未經(jīng)過(guò)濾的形式表達(dá)其想法，因此我們不能將任何政策合規(guī)性或用戶偏好嵌入到思維鏈中。同時(shí)，我們也不希望讓不對(duì)齊的思維鏈直接展示給用戶。因此，在權(quán)衡用戶體驗(yàn)、競(jìng)爭(zhēng)優(yōu)勢(shì)以及追求思維鏈監(jiān)控的選項(xiàng)后，我們決定不向用戶展示原始的思維鏈。我們承認(rèn)這一決定存在缺點(diǎn)。我們努力通過(guò)教模型在回答中重現(xiàn)思維鏈中的有用觀點(diǎn)部分來(lái)彌補(bǔ)這一不足。對(duì)于o1模型系列，我們展示了模型生成的思維鏈摘要?！?/p>

但是實(shí)際上，我認(rèn)為主要是不想讓大家蒸餾它的內(nèi)在思維過(guò)程作為訓(xùn)練數(shù)據(jù)。

一些關(guān)于內(nèi)在思維鏈的Cases

都太長(zhǎng)了，展示不下，知道最重要的一點(diǎn)就行：內(nèi)在思維鏈比思維鏈長(zhǎng)的長(zhǎng)的多。

編程題目

Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format.

思維鏈

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

內(nèi)在思維鏈

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

最后說(shuō)一點(diǎn)

雖然OpenAI的o1從各方面來(lái)看很強(qiáng)，但對(duì)于“9.11和9.8誰(shuí)大”的這個(gè)問題，依然回答存在錯(cuò)誤。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

可能是tokenizer的問題，不過(guò)現(xiàn)在還不確定，在 platform.openai.com/tokenizer 上還看不到。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

讓子彈在飛一會(huì)哈。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1！-AI.x社區(qū)

本文轉(zhuǎn)載自?? NLP工作站??，作者：白蘇蘇

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類博士！

Aceryt ? 2280瀏覽 ? 0回復(fù)
OpenAI 發(fā)布新模型 o1，能夠推理復(fù)雜任務(wù)，在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域更牛

AI洞察Insight ? 2221瀏覽 ? 0回復(fù)
OpenAI o1很強(qiáng)，也能被玩壞！

PaperAgent ? 2200瀏覽 ? 0回復(fù)
OpenAI發(fā)布新模型：o1系列模型，更像理科生的模型

大語(yǔ)言模型論文跟蹤 ? 3858瀏覽 ? 0回復(fù)
使用 OpenAI o1 的五種方法「詳細(xì)指南」

51CTO技術(shù)棧 ? 5171瀏覽 ? 0回復(fù)
國(guó)內(nèi)大模型廠商是如何看待突然的OpenAI o1？跟不跟是個(gè)問題！

Syrupup ? 2118瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2148瀏覽 ? 0回復(fù)
開源社區(qū)離Openai o1越來(lái)越近~

NLP前沿1 ? 2236瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2287瀏覽 ? 0回復(fù)
327個(gè)樣本打破常規(guī)，這個(gè)"OpenAI o1復(fù)制之旅"有點(diǎn)燃 | RAG系統(tǒng)迎來(lái)重大突破！

sbf_2000 ? 2024瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來(lái)嗎？

探索AGI ? 1752瀏覽 ? 0回復(fù)
OpenAI o1 模型到來(lái)后，談?wù)勌崾驹~工程的未來(lái)

Baihai_IDP ? 1961瀏覽 ? 0回復(fù)
Kimi深夜炸場(chǎng)：滿血版多模態(tài)o1級(jí)推理模型！OpenAI外全球首次！Jim Fan：同天兩款國(guó)產(chǎn)o1絕對(duì)不是巧合！

51CTO技術(shù)棧 ? 1674瀏覽 ? 0回復(fù)
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來(lái)

小虎哦哦 ? 1.4w瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級(jí)推理模型訓(xùn)練技術(shù)對(duì)比大解密！

51CTO技術(shù)棧 ? 4693瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 1703瀏覽 ? 0回復(fù)
理解什么是AI Agent，看懂這篇就夠了

AIGC新知 ? 1782瀏覽 ? 0回復(fù)
理解什么是推理模型，看懂這篇就夠了

AIGC新知 ? 1493瀏覽 ? 0回復(fù)
構(gòu)建大模型 Agent 應(yīng)用六個(gè)框架對(duì)比剖析

玄姐聊AGI ? 1505瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測(cè) 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？

下一篇： Qwen2.5系列模型開源，你值得擁有?。。?/a>

社區(qū)精華內(nèi)容

目錄

<sub id="u2dff"></sub>

<blockquote id="u2dff"><p id="u2dff"></p></blockquote>

<sub id="u2dff"></sub>