自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI o1要跟,怎么跟?這個(gè)GitHub項(xiàng)目把解讀、博客、相關(guān)論文一網(wǎng)打盡

人工智能 新聞
優(yōu)秀的 GitHub 項(xiàng)目啊!有關(guān) OpenAI ο1 的一切都在這里

在 AI 領(lǐng)域,OpenAI 已經(jīng)成了指路明燈一般的存在。隨著 o1 模型的發(fā)布,全世界的 AI 工程師都開(kāi)始了新一輪的學(xué)習(xí)。

為了幫助大家盡快抓住重點(diǎn),機(jī)器之心一直在跟進(jìn)報(bào)道相關(guān)的解讀,包括:

  • 北大對(duì)齊團(tuán)隊(duì)獨(dú)家解讀:OpenAI o1 開(kāi)啟「后訓(xùn)練」時(shí)代強(qiáng)化學(xué)習(xí)新范式
  • 張俊林:OpenAI o1 的價(jià)值意義及強(qiáng)化學(xué)習(xí)的 Scaling Law

同時(shí),我們也發(fā)現(xiàn)了其他一些有用的資源,比如在一個(gè) Github 項(xiàng)目中,有人匯總了最近的高質(zhì)量技術(shù)解讀博客以及「可能」與 o1 技術(shù)路線相關(guān)的論文。相關(guān)資源列表會(huì)一直更新,

圖片


  • 項(xiàng)目鏈接:https://github.com/hijkzzz/Awesome-LLM-Strawberry

這些博客、論文有些是大家都讀過(guò)的,還有些可能被淹沒(méi)在平時(shí)的眾多資源中?;蛟S從中大家可以找到復(fù)現(xiàn) OpenAI o1 的有效方法。

博客

  • 博客 1:Learning to Reason with LLMs
  • 作者:OpenAI
  • 鏈接:https://openai.com/index/learning-to-reason-with-llms/

博客概述:這篇博客簡(jiǎn)單介紹了 OpenAI o1 模型的訓(xùn)練方法,比如思維鏈的采用、模型安全性的提升等。

  • 博客 2:OpenAI o1-mini
  • 作者:OpenAI
  • 鏈接:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

博客概述:這篇博客介紹了 OpenAI o1-mini 模型的概況。

  • 博客 3:Finding GPT-4’s mistakes with GPT-4
  • 作者:OpenAI
  • 鏈接:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

博客概述:這篇博客介紹了 CriticGPT——OpenAI 基于 GPT-4 訓(xùn)練的一個(gè)專門(mén)給 ChatGPT 挑毛病的新模型。它通過(guò)精準(zhǔn)地分析 ChatGPT 的回答并提出建設(shè)性的批評(píng),幫助人類訓(xùn)練師更準(zhǔn)確地評(píng)估模型生成的代碼,并識(shí)別其中的錯(cuò)誤或潛在問(wèn)題。據(jù)介紹,在 CriticGPT 的輔助下,人們審查 ChatGPT 代碼的準(zhǔn)確率提高了 60%。研究人員還發(fā)現(xiàn),CriticGPT 在很多情況下比人類專家更擅長(zhǎng)發(fā)現(xiàn)錯(cuò)誤,它們甚至能在一些被認(rèn)為是「完美無(wú)缺」的任務(wù)中找出問(wèn)題,盡管這些任務(wù)大多數(shù)并不是代碼任務(wù),對(duì) CriticGPT 來(lái)說(shuō)有點(diǎn)超綱。

由于該研究發(fā)表時(shí),Jan Leike 等 OpenAI 超級(jí)對(duì)齊團(tuán)隊(duì)成員已經(jīng)離職,因此也被稱為對(duì)齊團(tuán)隊(duì)「遺作」。

  • 博客 4:Summary of what we have learned during AMA hour with the OpenAI o1 team
  • 作者:Tibor Blaho
  • 鏈接:https://twitter-thread.com/t/1834686946846597281
  • 推文鏈接:https://x.com/btibor91/status/1834686946846597281

博客概述:最近,OpenAI o1 團(tuán)隊(duì)開(kāi)展了一次答疑活動(dòng),這個(gè)帖子總結(jié)了答疑的概要,包括模型命名和推理范式,o1 模型的尺寸和性能,輸入 token 上下文和模型能力,工具、功能和即將推出的特性,CoT 推理,API 和使用限制,定價(jià)、微調(diào)與擴(kuò)展,模型開(kāi)發(fā)和研究見(jiàn)解,提示技術(shù)和最佳實(shí)踐等幾個(gè)模塊。每個(gè)模塊的總結(jié)都比較簡(jiǎn)短,感興趣的讀者可以參見(jiàn)原文。

圖片

  • 博客 5:OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference
  • 作者:Nathan Lambert(Allen AI 研究科學(xué)家)
  • 鏈接:https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

博客概述:在文章中,作者討論了 OpenAI 的新方法「Strawberry」及推理 scaling law,強(qiáng)調(diào)了推理計(jì)算的投入對(duì) AI 能力提升的重要性。作者指出,擴(kuò)大推理計(jì)算比單純擴(kuò)大模型規(guī)模更有效,類似 AlphaGo 的推理技術(shù)能夠顯著提升模型表現(xiàn)。文章呼吁未來(lái) AI 開(kāi)發(fā)要更多關(guān)注推理技術(shù)。 

這篇博客發(fā)布于 9 月初,當(dāng)時(shí) OpenAI 還沒(méi)有發(fā)布 o1 模型,因此現(xiàn)在看起來(lái)非常有前瞻性。

  • 博客 6:Reverse engineering OpenAI’s o1
  • 作者:Nathan Lambert(Allen AI 研究科學(xué)家)
  • 鏈接:https://www.interconnects.ai/p/reverse-engineering-openai-o1

博客概述:這篇博客系統(tǒng)討論了 OpenAI o1。o1 通過(guò)訓(xùn)練新模型處理長(zhǎng)推理鏈,并使用大量強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)。與自回歸語(yǔ)言模型不同,o1 在線為用戶搜索答案,展示了新的 scaling law—— 推理 scaling law。博客還討論了 o1 的一些技術(shù)細(xì)節(jié),包括其如何使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以及它在推理時(shí)的高成本。此外,博客還探討了 o1 對(duì)未來(lái) AI 領(lǐng)域的影響,包括它如何改變 AI 產(chǎn)品的部署堆棧和期望,以及它如何作為一個(gè)模型,通過(guò)不同的生成策略來(lái)實(shí)現(xiàn)復(fù)雜的任務(wù)。最后,博客提出了一些關(guān)于 o1 結(jié)構(gòu)和功能的問(wèn)題,并討論了在開(kāi)源領(lǐng)域復(fù)制這種系統(tǒng)所面臨的挑戰(zhàn)。作者還對(duì) AI 未來(lái)的發(fā)展方向表示了期待,認(rèn)為 AI 的進(jìn)步將繼續(xù)獎(jiǎng)勵(lì)那些敢于想象不可能很快變?yōu)榭赡艿娜恕?/span>

圖片

論文

OpenAI o1 貢獻(xiàn)者參與撰寫(xiě)的論文

  • 論文 1:Training Verifiers to Solve Math Word Problems
  • 機(jī)構(gòu):OpenAI
  • 作者:Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman
  • 鏈接:https://arxiv.org/abs/2110.14168

論文概述:這篇論文發(fā)布于 2021 年 10 月。論文指出,盡管最先進(jìn)的語(yǔ)言模型在很多任務(wù)上表現(xiàn)優(yōu)異,但在處理多步驟數(shù)學(xué)推理時(shí)仍有困難。為了解決這個(gè)問(wèn)題,作者創(chuàng)建了 GSM8K 數(shù)據(jù)集,包含 8500 個(gè)多樣化的小學(xué)數(shù)學(xué)問(wèn)題。研究發(fā)現(xiàn),即使是大型 Transformer 模型也難以在這些任務(wù)上取得好成績(jī)。為了提高性能,作者建議訓(xùn)練驗(yàn)證器來(lái)評(píng)估模型答案的正確性。通過(guò)在測(cè)試時(shí)生成多個(gè)答案并選擇驗(yàn)證器評(píng)分最高的答案,這種方法顯著提升了模型在 GSM8K 上的表現(xiàn),并證明了這種方法比傳統(tǒng)的微調(diào)方法更有效。

  • 論文 2:Generative Language Modeling for Automated Theorem Proving
  • 機(jī)構(gòu):OpenAI
  • 作者:Stanislas Polu, Ilya Sutskever
  • 鏈接:https://arxiv.org/abs/2009.03393

論文概述:這篇論文發(fā)布于 2020 年 9 月,Ilya Sutskever 是作者之一。論文探討了基于 Transformer 的語(yǔ)言模型在自動(dòng)定理證明中的應(yīng)用。研究的動(dòng)機(jī)是,自動(dòng)定理證明器與人類相比的一個(gè)主要限制 —— 生成原創(chuàng)的數(shù)學(xué)術(shù)語(yǔ) —— 可能可以通過(guò)語(yǔ)言模型的生成來(lái)解決。作者介紹了一個(gè)名為 GPT-f 的自動(dòng)證明器和證明助手,用于 Metamath 形式化語(yǔ)言,并分析了其性能。GPT-f 發(fā)現(xiàn)了被 Metamath 主要庫(kù)接受的新短證明,據(jù)作者所知,這是基于深度學(xué)習(xí)系統(tǒng)首次為形式數(shù)學(xué)社區(qū)貢獻(xiàn)并被采納的證明。

  • 論文 3:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
  • 機(jī)構(gòu):谷歌大腦
  • 作者:Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou
  • 鏈接:https://arxiv.org/abs/2201.11903

論文概述:這篇論文發(fā)布于 2022 年 1 月。論文探討了如何通過(guò)生成一系列中間推理步驟(即「思維鏈」)來(lái)顯著提高大型語(yǔ)言模型進(jìn)行復(fù)雜推理的能力。具體來(lái)說(shuō),作者提出了思維鏈提示的方法,即在提示中提供幾個(gè)思維鏈的示例,以此來(lái)引導(dǎo)模型進(jìn)行更深入的推理。實(shí)驗(yàn)表明,這種方法在三個(gè)大型語(yǔ)言模型上提高了算術(shù)、常識(shí)和符號(hào)推理任務(wù)的性能。

  • 論文 4:Let's Verify Step by Step
  • 機(jī)構(gòu):OpenAI
  • 作者:Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe
  • 鏈接:https://arxiv.org/abs/2305.20050

論文概述:這篇論文發(fā)布于 2023 年 5 月。論文探討了大型語(yǔ)言模型在復(fù)雜多步推理任務(wù)中的表現(xiàn)及其可靠性問(wèn)題。作者比較了兩種訓(xùn)練方法:結(jié)果監(jiān)督(outcome supervision)和過(guò)程監(jiān)督(process supervision),前者僅對(duì)最終結(jié)果提供反饋,后者則對(duì)每個(gè)推理步驟提供反饋。研究發(fā)現(xiàn),過(guò)程監(jiān)督在訓(xùn)練模型解決 MATH 數(shù)據(jù)集中的問(wèn)題時(shí),顯著優(yōu)于結(jié)果監(jiān)督。具體來(lái)說(shuō),采用過(guò)程監(jiān)督的模型在 MATH 測(cè)試集的一個(gè)代表性子集中解決問(wèn)題的成功率為 78%。此外,論文還展示了主動(dòng)學(xué)習(xí)(active learning)在提高過(guò)程監(jiān)督效率方面的重要性。為了支持相關(guān)研究,作者還發(fā)布了 PRM800K 數(shù)據(jù)集,這是一個(gè)包含 800,000 個(gè)步驟級(jí)人類反饋標(biāo)簽的完整數(shù)據(jù)集,用于訓(xùn)練他們的最佳獎(jiǎng)勵(lì)模型。

由于包括 Ilya 在內(nèi)的多位 o1 核心貢獻(xiàn)者都參與了這篇論文,有人猜測(cè)這是 o1 模型訓(xùn)練的方法論。

圖片

  • 論文 5:LLM Critics Help Catch LLM Bugs
  • 機(jī)構(gòu):OpenAI
  • 作者:Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike
  • 鏈接:https://arxiv.org/abs/2407.00215

論文概述:這篇論文發(fā)布于 2024 年 6 月。論文介紹了一種通過(guò)訓(xùn)練「批評(píng)者」模型(即前面提到的 CriticGPT )來(lái)提高人類評(píng)估機(jī)器學(xué)習(xí)模型輸出的方法。這些批評(píng)者模型是大型語(yǔ)言模型,它們被訓(xùn)練來(lái)提供自然語(yǔ)言反饋,指出代碼中的問(wèn)題。研究表明,這些模型在識(shí)別代碼錯(cuò)誤方面比人類更有效,甚至能夠發(fā)現(xiàn)人類審查者未發(fā)現(xiàn)的錯(cuò)誤。盡管存在局限性,如可能產(chǎn)生誤導(dǎo)的幻覺(jué)錯(cuò)誤,但結(jié)合人類和機(jī)器的團(tuán)隊(duì)可以減少這種誤導(dǎo),同時(shí)保持錯(cuò)誤檢測(cè)的效率。

  • 論文 6:Self-critiquing models for assisting human evaluators
  • 機(jī)構(gòu):OpenAI
  • 作者:William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike
  • 鏈接:https://arxiv.org/pdf/2206.05802

論文概述:這篇論文發(fā)布于 2022 年 6 月。論文研究了如何通過(guò)微調(diào)大型語(yǔ)言模型,使用行為克隆來(lái)生成自然語(yǔ)言的批評(píng)性評(píng)論,以幫助人類發(fā)現(xiàn)摘要中的缺陷。實(shí)驗(yàn)表明,這些模型生成的評(píng)論能夠揭示人類和機(jī)器生成摘要中的問(wèn)題,包括故意誤導(dǎo)的錯(cuò)誤。研究發(fā)現(xiàn),更大的模型在撰寫(xiě)有幫助的評(píng)論和自我批評(píng)方面表現(xiàn)更好,并且能夠利用自我批評(píng)來(lái)改進(jìn)自己的摘要。論文還提出了一個(gè)比較批評(píng)能力、生成能力和辨別能力的框架,并指出即使是大型模型也可能有未表達(dá)的知識(shí)。這項(xiàng)研究為使用人工智能輔助的人類反饋來(lái)監(jiān)督機(jī)器學(xué)習(xí)系統(tǒng)提供了概念驗(yàn)證,并公開(kāi)了訓(xùn)練數(shù)據(jù)集和實(shí)驗(yàn)樣本。

其他論文

除了以上論文,作者還按照年份列出了一些可能與 OpenAI o1 相關(guān)的論文,列表如下:

2024 年:

圖片

圖片

2023 年:

圖片

2022 年:

圖片

2021 年:

圖片

2017 年:

圖片

更多信息請(qǐng)參見(jiàn)原 GitHub 庫(kù)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-04-26 00:25:52

Rust語(yǔ)法生命周期

2021-08-05 06:54:05

流程控制default

2023-04-06 09:08:41

BPM流程引擎

2019-12-11 13:42:19

開(kāi)源技術(shù) 軟件

2024-02-27 10:11:36

前端CSS@規(guī)則

2021-10-11 07:55:42

瀏覽器語(yǔ)法Webpack

2013-08-02 10:52:10

Android UI控件

2024-04-07 08:41:34

2024-08-26 10:01:50

2024-06-12 00:00:05

2010-08-25 01:59:00

2011-12-02 09:22:23

網(wǎng)絡(luò)管理NetQos

2020-05-27 14:58:04

Python Java編程語(yǔ)言

2013-10-16 14:18:02

工具圖像處理

2024-02-23 08:14:01

項(xiàng)目開(kāi)發(fā)Spring

2019-07-24 15:30:00

SQL注入數(shù)據(jù)庫(kù)

2021-05-20 11:17:49

加密貨幣區(qū)塊鏈印度

2021-10-29 09:32:33

springboot 靜態(tài)變量項(xiàng)目

2023-09-06 18:37:45

CSS選擇器符號(hào)

2020-02-21 08:45:45

PythonWeb開(kāi)發(fā)框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)