自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o1 研發(fā)團(tuán)隊(duì)完整采訪:Ilya早期曾參與,靈感源于AlphaGo

人工智能 新聞
展示 o1 實(shí)力的 demo,我們看了不少,評(píng)估 o1 表現(xiàn)的評(píng)測(cè),全網(wǎng)比比皆是,關(guān)于 o1 技術(shù)路線的討論也如火如荼,引發(fā)了廣泛的關(guān)注和深入的思考。

自從 OpenAI 的 o1 問世以來,它強(qiáng)大的推理能力就承包了 AI 圈近期的熱搜。不需要專門訓(xùn)練,它就能直接拿下數(shù)學(xué)奧賽金牌,甚至可以在博士級(jí)別的科學(xué)問答環(huán)節(jié)上超越人類專家。

展示 o1 實(shí)力的 demo,我們看了不少,評(píng)估 o1 表現(xiàn)的評(píng)測(cè),全網(wǎng)比比皆是,關(guān)于 o1 技術(shù)路線的討論也如火如荼,引發(fā)了廣泛的關(guān)注和深入的思考。

不過 o1 背后的故事,還鮮為人知,那些在幕后默默付出的團(tuán)隊(duì)成員們,他們的故事同樣值得被講述和銘記。

剛剛,OpenAI 發(fā)布了 o1 研發(fā)團(tuán)隊(duì)的完整訪談,為我們揭秘了 o1 的「成長(zhǎng)歷程」。o1 如何一步步蛻變,最終成為一個(gè)「智商高達(dá) 120」的非凡存在?他們是將強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)兩種范式結(jié)合起來的?這背后是無數(shù)的突破與挑戰(zhàn),OpenAI o1 的研究人員與 OpenAI 研究團(tuán)隊(duì)的負(fù)責(zé)人 Bob McGrew 暢談了研發(fā)過程中的「Aha moments」—— 那些破解瓶頸、靈感迸發(fā)、豁然開朗的瞬間。

在訪談中,他們揭秘了 o1 團(tuán)隊(duì)的關(guān)鍵人物,最早由 Jakub Pachocki 進(jìn)行了一些探索,后來又和?ukasz Kaiser (Transformer 作者之一)和 Ilya Sutskever 進(jìn)行了早期的探索。這可能也是為什么雖然 Ilya 已經(jīng)離職,但仍出現(xiàn)在貢獻(xiàn)者名單前列的理由。

o1 項(xiàng)目的關(guān)鍵時(shí)刻是 Jerry Tworek 整合了這些內(nèi)容,并繼續(xù)推動(dòng)項(xiàng)目。

原視頻鏈接:https://www.youtube.com/watch?v=tEzs3VHyBDM

以下是對(duì)訪談主要內(nèi)容摘錄:

什么是 o1?

Hyung Won Chung:我們將使用新名稱 o1 推出一系列新模型。這是為了強(qiáng)調(diào)這樣一個(gè)事實(shí):與 GPT-4 等以前的模型相比,您在使用 o1 時(shí)可能會(huì)感到不同。o1 是個(gè)推理模型,它在回答你的問題之前會(huì)做更多思考。我們將發(fā)布兩個(gè)模型:o1 preview,也就是 o1 的內(nèi)容預(yù)覽版,還有采用了與 o1 相似的訓(xùn)練框架、更小更快的 o1 mini。希望你喜歡我們的新命名方案 o1。

圖片

Hyung Won Chung

什么是推理?

Giambattista Parascandolo:可以這么理解:對(duì)于一些需要立即回答的簡(jiǎn)單問題,例如,「意大利的首都是哪里?」,不用想太多,就知道答案是羅馬。但是如果想要解一個(gè)復(fù)雜的謎題、想精心策劃一份商業(yè)企劃書、或者想寫小說,那可能需要很多思考。想得越多,可能成果越好。因此,可以說推理是一種把思考時(shí)間轉(zhuǎn)化為更好成果的能力。

圖片

Giambattista Parascandolo

你們研究 o1 多久了?

Jakub Pachocki:在 OpenAI 的初創(chuàng)時(shí)期,我們深受 AlphaGo 的啟發(fā),意識(shí)到了深度強(qiáng)化學(xué)習(xí)的巨大潛力。因此,我們?cè)谶@方面投入了大量研究,在數(shù)據(jù)和機(jī)器人技術(shù)方面取得了很好的擴(kuò)展效果。我們一直在思考如何在通用領(lǐng)域中應(yīng)用強(qiáng)化學(xué)習(xí),以創(chuàng)造出強(qiáng)大的人工智能。GPT 的成功,讓我們見證了擴(kuò)展和監(jiān)督學(xué)習(xí)的范式所帶來的驚人結(jié)果。從那時(shí)起,我們就一直在思考如何將這兩種不同的范式結(jié)合起來。

圖片

o1 項(xiàng)目的初創(chuàng)成員:Jakub Pachocki

Mark Chen:很難確切指出 o1 是從哪個(gè)具體的時(shí)刻開始的。最早和 Yakob 進(jìn)行了一些探索,后來又和?ukasz 和 Ilya 進(jìn)行了早期的探索。關(guān)鍵時(shí)刻是 Jerry 一起整合了這些內(nèi)容,并由 Jerry 來推動(dòng)項(xiàng)目。

圖片

o1 項(xiàng)目的初創(chuàng)成員:?ukasz Kaiser

圖片

o1 項(xiàng)目的關(guān)鍵人物:Jerry Tworek

圖片

Mark Chen

你們有沒有過「Aha Moment」?

 Jerry Tworek:我們訓(xùn)練了 GPT-2、GPT-3、GPT-4,模型剛出爐時(shí),我們開始與模型對(duì)話,人們都說:「哇,這個(gè)模型真的很棒?!乖谟?xùn)練過程中,有一個(gè)特定的時(shí)刻,我們投入了更多的計(jì)算資源,并訓(xùn)練模型生成連貫的思維鏈。然后我們看到:「哇,這看起來和以前真的有顯著的不同。」對(duì)我來說,那就是「Aha Moment」。

Trapit Bansal:與此相關(guān)的另一個(gè)發(fā)現(xiàn)是。當(dāng)我們開始考慮要訓(xùn)練一個(gè)推理模型時(shí),我最先想到的方法就是,可以讓人類寫下他們的思維過程,然后以此進(jìn)行訓(xùn)練。我的「Aha Moment」是當(dāng)我們發(fā)現(xiàn),通過使用強(qiáng)化學(xué)習(xí)來訓(xùn)練模型生成和打磨它自己的思維鏈,效果竟然比讓人類為其寫下思維鏈更好。我們意識(shí)到可以真正擴(kuò)展這個(gè)方法,并且專家模型也可以通過這種方式進(jìn)行推理。

Hunter Lightman:我們一直在嘗試提升模型的數(shù)學(xué)能力。我們?yōu)榇烁冻隽撕芏嗯?,也曾嘗試過很多不同方法。但有一件事讓我一直很在意,每次我閱讀模型的輸出時(shí),我總是感到非常沮喪。模型似乎從不質(zhì)疑自己哪里出了錯(cuò),尤其是在犯錯(cuò)的時(shí)候。

但是,當(dāng)在訓(xùn)練 o1 模型的早期,我們開始與它進(jìn)行對(duì)話,并向它提出這些問題,它在數(shù)學(xué)測(cè)試中的得分變高了。我們可以觀察到它是如何推理的,你可以清楚地看到它開始質(zhì)疑自己,并進(jìn)行有趣的反思。對(duì)我來說,那一刻我心想,「我們做出了全新的發(fā)現(xiàn),這是一切都融會(huì)貫通起來了的時(shí)刻?!?/span>

當(dāng)你閱讀這些思維過程時(shí),感覺像是在看一個(gè)人類的思考,還是像在看一個(gè)機(jī)器人?

Liam Fedus:這更像是一種精神體驗(yàn)。你可以與模型共鳴,可以看到它犯了很多人類常犯的錯(cuò)誤,你還能看到它在質(zhì)疑一些世俗常規(guī)。但在行為上,模型卻表現(xiàn)得出奇地像人類。

 Wojciech Zaremba:還有一點(diǎn)很酷:當(dāng)我們給模型設(shè)置思考時(shí)間的 ddl 時(shí),它往往會(huì)在快到時(shí)間截止點(diǎn)時(shí)迅速得出結(jié)論,它仿佛意識(shí)到了:「哎呀,我必須現(xiàn)在完成了!」

你們遇到了哪些障礙?

Jerry Tworek:從本質(zhì)上講,訓(xùn)練大型模型是非常困難的事情,有成千上萬的事情可能出錯(cuò),實(shí)際在每一輪訓(xùn)練中至少有數(shù)百個(gè)地方確實(shí)出錯(cuò)了。幾乎每個(gè)人都投入了大量的心血、汗水和眼淚去訓(xùn)練這些模型,并想辦法讓它們繼續(xù)學(xué)習(xí)和改進(jìn)。通向成功的道路非常狹窄,而失敗的可能性卻很多。

Ilge Akkaya:這個(gè)模型非常優(yōu)秀,很多時(shí)候甚至表現(xiàn)得比人類還要好,就像擁有好幾個(gè)博士學(xué)位的水平。但這有時(shí)也是一種挑戰(zhàn),因?yàn)槲覀兘?jīng)常需要驗(yàn)證模型是否沒有偏離軌道,或者是否在做一些不合理的事情。隨著模型規(guī)模的擴(kuò)大,這開始變得非常耗時(shí);我們已經(jīng)用盡了所有行業(yè)級(jí)資源,但我們不知道接下來應(yīng)該找什么,所以這也是一個(gè)挑戰(zhàn)。

你們用什么方法來測(cè)試模型?

Shengjia Zhao:讓 o1 數(shù) Strawberry 里有多少 r。

Hunter Lightman:我們經(jīng)常去推特上搜誰發(fā)了個(gè)帖子:「大語言模型不能做...」,我們就復(fù)制粘貼過來,輸入我們的模型進(jìn)行測(cè)試,驗(yàn)證它是否能做到內(nèi)部人士如何使用 o1?

Hyung Won Chung:我使用 o1 來編程,畢竟我的工作大部分就是編程。所以我現(xiàn)在更多地專注于問題的定義,并采用 TDD(測(cè)試驅(qū)動(dòng)開發(fā))方法,與其編寫直接能實(shí)現(xiàn)功能的代碼,我更傾向編寫一個(gè)單元測(cè)試,明確程序應(yīng)該如何運(yùn)行才能算正確,然后交給 o1 來完成。這樣我可以把精力放在更重要、更高層次的問題上。

另一個(gè)方面是調(diào)試。當(dāng)我遇到 bug 時(shí),我現(xiàn)在會(huì)直接交給 o1, 它會(huì)輸出一些提示。有時(shí)它能夠立即解決問題,即使沒能解決,它至少能引導(dǎo)我提出更好的問題,提供更有價(jià)值的思路。

Jerry Tworek:我越來越多地用 o1 來學(xué)習(xí),向它詢問各種復(fù)雜的技術(shù)問題時(shí),它產(chǎn)生的幻覺更少,并且比以前的模型解釋得更好。

Jason Wei:對(duì)我來說,我喜歡把 o1 當(dāng)作一個(gè)頭腦風(fēng)暴的伙伴,從解決某個(gè)非常具體的機(jī)器學(xué)習(xí)問題到如何寫一篇博客都適用。比如,我最近寫了一篇關(guān)于語言模型評(píng)估的博客,我向 o1 詢問了有關(guān)博文結(jié)構(gòu)的想法、某些基準(zhǔn)測(cè)試的優(yōu)缺點(diǎn),甚至包括寫作風(fēng)格的建議。因?yàn)樗诮o出最終答案之前會(huì)思考,更好地更好地連接起思路,它還可以修改和評(píng)估備選的方案。

圖片

Jason Wei

Liam Fedus:當(dāng)你只有一些散亂的思路時(shí),它可以幫你將這些想法串聯(lián)起來,找出遺漏的部分。通過它的最終答案和它的思維過程,它真的能夠?yàn)槟銕砀玫慕Y(jié)果。

Hongyu Ren:是的,我用它來嘗試我們內(nèi)部的一些「秘密想法」,并努力改進(jìn)。

圖片

Hongyu Ren

這個(gè)項(xiàng)目中有沒有哪些部分是必須的,但人們可能沒有意識(shí)到它有多重要?

?ukasz Kondraciuk:我認(rèn)為,建立實(shí)驗(yàn)室規(guī)模的可靠基礎(chǔ)設(shè)施,用來運(yùn)行我們最大、最重要的模型訓(xùn)練平臺(tái)以及進(jìn)行研究實(shí)驗(yàn),雖然不像研究本身那么令人興奮,但卻至關(guān)重要,對(duì)整個(gè)項(xiàng)目的成功產(chǎn)生了巨大影響?!?/span>

圖片

?ukasz Kondraciuk

Jerry Tworek:我覺得 OpenAI 在如何構(gòu)建其研究方面有一些特別之處,我們同樣重視算法進(jìn)步和建立可靠的大規(guī)模系統(tǒng),以及創(chuàng)建用于訓(xùn)練這些模型的數(shù)據(jù)集。我為 OpenAI 這一點(diǎn)感到非常自豪。

Jakub Pachocki:每次我們將某件事擴(kuò)大一個(gè)數(shù)量級(jí)時(shí),都會(huì)遇到一組新的問題 —— 包括算法和基礎(chǔ)設(shè)施方面的問題 ——OpenAI 無疑已經(jīng)發(fā)展出了同時(shí)解決這兩個(gè)方面問題的強(qiáng)大能力。

O1 Mini 是如何誕生的?

Hongyu Ren:我們的動(dòng)機(jī)是希望將 o1 系列帶給更多的用戶,并降低成本。因此,我們創(chuàng)建了 o1 Mini,它的設(shè)計(jì)目的是展示整個(gè) o1 管道或框架的簡(jiǎn)化版本。我們讓它成為一個(gè)推理專家,它可能不一定知道你最喜歡的名人的生日,但它確實(shí)能夠非常有效地理解如何進(jìn)行推理。它比我們之前最好的推理模型要聰明得多,并且?guī)缀跖c我們最好的模型 o1 持平。

它確實(shí)有一些限制,比如可能不知道很多外界的信息,尤其是與科學(xué)或技術(shù)無關(guān)的內(nèi)容。但我們努力讓它大致與我們之前最好的模型(如 GPT-4o mini)相當(dāng)。我們正在進(jìn)一步改進(jìn)它,我非常期待外部用戶能夠嘗試體驗(yàn)這種「閃電般」的推理和思維。

完整訪談視頻內(nèi)容,請(qǐng)查看原視頻。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-03-05 09:54:08

雅虎研發(fā)團(tuán)隊(duì)

2024-09-29 13:40:00

2024-11-07 15:40:00

2024-09-14 12:51:04

2025-01-20 09:28:00

AI工具模型

2024-09-24 11:01:03

2024-10-14 13:40:00

2024-11-05 14:20:00

AI模型

2024-10-08 08:35:00

模型訓(xùn)練

2025-03-18 08:58:13

2025-01-08 13:08:55

2025-03-17 09:35:00

AI模型數(shù)據(jù)

2009-11-16 09:59:11

谷歌Chrome操作系統(tǒng)

2009-11-16 09:11:51

GoogleChrome中國團(tuán)隊(duì)

2024-10-05 15:30:00

LLM模型推理

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2024-12-12 14:52:47

OpenAI4o、o1產(chǎn)品

2024-09-19 18:03:31

2024-10-17 14:10:00

模型訓(xùn)練

2024-12-06 14:17:41

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)