自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!

發(fā)布于 2024-9-13 11:39
瀏覽
0收藏

這篇主要會(huì)回答下面的問題(too long,don't read):

  • 什么是OpenAI o1?——一個(gè)擅長(zhǎng)數(shù)學(xué)物理化學(xué)生物編程等問題的理科學(xué)霸大模型
  • OpenAI o1最大的技術(shù)特征是什么?——RL訓(xùn)練和推理,在傳統(tǒng)COT之外隱藏了一個(gè)很長(zhǎng)的內(nèi)在COT,滿足scaling law
  • OpenAI o1到底有多強(qiáng)?——斷崖碾壓GPT4-o,達(dá)到人類競(jìng)賽選手,以及博士生水平。
  • 人們更喜歡GPT4-o還是OpenAI o1?——文科方面o1沒有優(yōu)勢(shì),理工科方面碾壓GPT4-o
  • OpenAI o1的安全性怎么樣?—— 相比4o優(yōu)勢(shì)明顯,更容易教會(huì)模型人類價(jià)值觀和原則
  • OpenAI o1為什么要向用戶隱藏內(nèi)在思維過(guò)程?——為了安全性和用戶體驗(yàn)(不想讓大家蒸餾它的內(nèi)在思維過(guò)程作為訓(xùn)練數(shù)據(jù))

知乎:https://zhuanlan.zhihu.com/p/719859500

PS:“9.11和9.8誰(shuí)大”的這個(gè)問題OpenAI o1依然存在問題?。?!OpenAI o1模型是否被過(guò)譽(yù),讓子彈再飛一會(huì)!

什么是OpenAI o1?

OpenAI o1(后面簡(jiǎn)稱o1)是OpenAI在2024.9.12號(hào)發(fā)布的最新大模型,主要針對(duì)的任務(wù)是復(fù)雜任務(wù)推理,比如競(jìng)賽難度的編程問題,奧賽難度的數(shù)學(xué)問題等。

參考OpenAI原始介紹: https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1最大的技術(shù)特征是什么?

在訓(xùn)練階段,會(huì)通過(guò)強(qiáng)化學(xué)習(xí),讓o1完善其思維鏈并優(yōu)化所使用的策略。例如:識(shí)別并糾正錯(cuò)誤,將復(fù)雜步驟拆分為簡(jiǎn)單步驟,當(dāng)前方法不work時(shí),換一種方法

在推理階段,模型同樣會(huì)在呈現(xiàn)給用戶的cot之外,做一個(gè)更深的的所謂的long internal chain of thought,所以推理時(shí)間會(huì)更長(zhǎng),相當(dāng)于COT套娃了,給COT再加一個(gè)COT(猜測(cè)是把MCTS搜索過(guò)程序列化了,case放在文末)。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

值得注意的是,這次OpenAI依然主打了他們一直信奉的Scaling Law,在訓(xùn)練和測(cè)試時(shí)的時(shí)間都能和性能形成對(duì)數(shù)線性關(guān)系。

OpenAI o1到底有多強(qiáng)?

效果不用多說(shuō)了,跟GPT4-o已經(jīng)是斷崖式差距了,在最難的數(shù)學(xué),code,物理化學(xué)生物等benchmark上遙遙領(lǐng)先。

  • 在全美高中生數(shù)學(xué)競(jìng)賽AIME上,o1能達(dá)到74分(GPT4-o僅有12分),如果采樣1000次,結(jié)合reward model加權(quán)投票能到93分,能排進(jìn)全國(guó)前500名,超過(guò)USA Mathematical Olympiad的晉級(jí)分?jǐn)?shù)線;
  • 在GPQA,一個(gè)關(guān)于物理,化學(xué)和生物的智力測(cè)試上,OpenAI招募了一群相關(guān)領(lǐng)域有博士學(xué)位的專家和o1同臺(tái)競(jìng)技, o1能夠在GPQA-diamond questions.上超過(guò)這群專家。
  • 在視覺感知能力后方面,o1 在 MMMU 上取得了 78.2% 的分?jǐn)?shù),成為第一個(gè)與人類專家媲美的模型。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

值得注意的是,OpenAI在o1的基礎(chǔ)上加強(qiáng)了模型的代碼能力,以o1為初始化又訓(xùn)了一個(gè)o1-IOI,用于參加2024年的國(guó)際奧林匹克信息競(jìng)賽(2024 International Olympiad in Informatics), 在和人類選手相同的條件下,在10h內(nèi)解決6道非常難的競(jìng)賽問題,每個(gè)問題最多允許提交50次。最終,o1-IOI能獲得一個(gè)216分的分?jǐn)?shù),在放開提交次數(shù)后,o1-IOI能獲得362.14,超過(guò)了金牌線。這種和人類頂尖選手同臺(tái)競(jìng)技,才是最能反映模型能力的benchmark吧。在CodeForce上,打出了驚人的1807分。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

人們更喜歡GPT4-o還是OpenAI-o1?

OpenAI測(cè)試了在不同領(lǐng)域的問答上,用GPT4-o和o1匿名回答,大家投票,結(jié)果顯示,o1只是在理工科方面顯著高于4o,比如編程,數(shù)據(jù)分析和數(shù)學(xué)題,但是在寫作和文本編輯方面和4o相差無(wú)幾,看起來(lái)o1確實(shí)是一個(gè)偏科的理工科選手。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

OpenAI o1的安全性怎么樣?

將模型需要遵循的準(zhǔn)則融入內(nèi)在COT中,可以高效且穩(wěn)健魯棒地教會(huì)模型人類偏好的價(jià)值和需要遵循的原則,不管是OpenAI內(nèi)部的安全benchmark還是外部公開的benchmark,o1都能達(dá)到極高的水平。更具體的好處有兩點(diǎn):

  • 可以讓我們(不是,是OpenAI,我們看不到)更清晰地看到模型內(nèi)在的思維過(guò)程;
  • o1關(guān)于安全規(guī)則的模型推理對(duì)于分布外場(chǎng)景(OOD)更加穩(wěn)健.

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

OpenAI o1為什么要對(duì)用戶隱藏internal COT?

翻譯了一下OpenAI的原話,主要是為了用戶體驗(yàn)和安全問題:

“我們認(rèn)為隱藏的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì)。如果思維鏈忠實(shí)且易于理解,它允許我們“讀懂”模型的內(nèi)心并理解其思維過(guò)程。例如,將來(lái)我們可能希望監(jiān)控思維鏈,以識(shí)別是否存在操縱用戶的跡象。然而,為了實(shí)現(xiàn)這一點(diǎn),模型必須能夠以未經(jīng)過(guò)濾的形式表達(dá)其想法,因此我們不能將任何政策合規(guī)性或用戶偏好嵌入到思維鏈中。同時(shí),我們也不希望讓不對(duì)齊的思維鏈直接展示給用戶。因此,在權(quán)衡用戶體驗(yàn)、競(jìng)爭(zhēng)優(yōu)勢(shì)以及追求思維鏈監(jiān)控的選項(xiàng)后,我們決定不向用戶展示原始的思維鏈。我們承認(rèn)這一決定存在缺點(diǎn)。我們努力通過(guò)教模型在回答中重現(xiàn)思維鏈中的有用觀點(diǎn)部分來(lái)彌補(bǔ)這一不足。對(duì)于o1模型系列,我們展示了模型生成的思維鏈摘要?!?/p>

但是實(shí)際上,我認(rèn)為主要是不想讓大家蒸餾它的內(nèi)在思維過(guò)程作為訓(xùn)練數(shù)據(jù)。

一些關(guān)于內(nèi)在思維鏈的Cases

都太長(zhǎng)了,展示不下,知道最重要的一點(diǎn)就行:內(nèi)在思維鏈比思維鏈長(zhǎng)的長(zhǎng)的多。

  • 編程題目

Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format.

思維鏈

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

內(nèi)在思維鏈

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

最后說(shuō)一點(diǎn)

雖然OpenAI的o1從各方面來(lái)看很強(qiáng),但對(duì)于“9.11和9.8誰(shuí)大”的這個(gè)問題,依然回答存在錯(cuò)誤。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

可能是tokenizer的問題,不過(guò)現(xiàn)在還不確定,在 platform.openai.com/tokenizer 上還看不到。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

讓子彈在飛一會(huì)哈。

六個(gè)問題帶你看懂什么是理工科學(xué)霸-OpenAI o1!-AI.x社區(qū)

本文轉(zhuǎn)載自?? NLP工作站??,作者:白蘇蘇

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦