是時(shí)候停止炒作「o3是AGI」了!背后15人安全對齊團(tuán)隊(duì)大盤點(diǎn)
昨天凌晨,OpenAI 連續(xù) 12 天發(fā)布會(huì)終于落下了帷幕,并甩出了最強(qiáng)大的推理模型 o3 系列!
當(dāng)然,用戶現(xiàn)在想要體驗(yàn) o3 或者 o3-mini,需要申請并等待數(shù)周。從目前 OpenAI 官方給出的一些紙面數(shù)據(jù)來看,o3 的能力遠(yuǎn)超以往任何推理模型,并在 ARC-AGI 基準(zhǔn)上達(dá)到了優(yōu)良水平,成為首個(gè)突破該基準(zhǔn)的 AI 模型。其中,o3 系列模型最低可達(dá)到 75.7%,最高可達(dá)到 87.5%。
o3 系列模型如此強(qiáng)大的能力,激起了大家對 AGI 的熱烈談?wù)?,很多人都興奮地宣布:這就是 AGI、AGI 已經(jīng)實(shí)現(xiàn)、AGI 比你想象的更加接近。
圖源:X@MatthewBerman
圖源:X@treky_x
圖源:X@WesRothMoney
圖源:X@FinanceLancelot
面對關(guān)于 o3 愈演愈烈、愈加失控的炒作,知名博主、AI 研究者「elvis」認(rèn)為,o3 系列不是 AGI、不是奇點(diǎn),人們甚至無法訪問這些模型。連 OpenAI 都明確表示還有很多需要改進(jìn)的地方。雖然進(jìn)展的確令人興奮,但網(wǎng)絡(luò)上誤導(dǎo)信息太多,基準(zhǔn)測試結(jié)果也并沒有多大意義。
圖源:X@omarsar0
有人表示,每次發(fā)布新的 OpenAI 模型(這次是 o3),都會(huì)有人宣稱「AGI 來了」、「不再需要程序員了」等言論。雖然 o3 看起來令人印象深刻,但它遠(yuǎn)沒有在現(xiàn)實(shí)世界中得到檢驗(yàn)。AGI 仍然遙遙無期。
圖源:X@drjohnflackett
還有人說到,為什么我們要在一個(gè)還無法體驗(yàn)的演示版 AI 模型上宣布「AGI」呢?雖然 o3 系列模型看起來很棒,但并不是一個(gè)正式發(fā)布版本,也無法驗(yàn)證。
圖源:X@mcguinnessfortx
持有這種觀點(diǎn)的人不在少數(shù),有人覺得,o3 系列在編碼和數(shù)學(xué)領(lǐng)域的確很強(qiáng),但 AGI 是要?jiǎng)偃稳祟惸茏龅乃惺虑椤N覀円氖侨苄腿瞬?,而非專業(yè)人才。另外,一次基準(zhǔn)測試表現(xiàn)很好不能說明全部的情況,并不意味著能夠迎接其他不可預(yù)測的挑戰(zhàn)。最后,真正的 AGI 應(yīng)該是適應(yīng)性很強(qiáng)的,即使資源緊張也能運(yùn)行。但 o3 的運(yùn)行成本高得離譜,這顯然不是 AGI 的意義所在。
圖源:X@marthinusstryd1
顯然 o3 離跟 AGI 畫上等號還有很長的路要走,但無疑是一次巨大的進(jìn)步。尤其是推理速度提升、成本降低且兼顧性能的 o3-mini,它更加經(jīng)濟(jì)高效,并使用全新的安全評估方法審議式對齊(deliberative alignment)。
這是一種直接教模型安全規(guī)范的新范式,訓(xùn)練模型在回答之前明確回憶規(guī)范并準(zhǔn)確執(zhí)行推理。OpenAI 使用這種方法來對齊包括 o3-mini 在內(nèi)的 o 系列模型 ,實(shí)現(xiàn)對 OpenAI 安全政策的高度精確遵守,并且這個(gè)過程無需人工編寫的思路或答案。
下圖 1 為包括 o3-mini 在內(nèi)的 o 系列模型與 GPT-4o 在關(guān)鍵政策領(lǐng)域的比較結(jié)果,比如不允許的內(nèi)容、遵守響應(yīng)風(fēng)格指南、越獄和過度拒絕等。
接下來,機(jī)器之心對該范式相關(guān)論文的作者進(jìn)行了完整的盤點(diǎn)。
論文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf
o3-mini 對齊范式作者盤點(diǎn)
Melody Y. Guan
Melody Y. Guan 本碩均就讀于哈佛大學(xué),目前是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士研究生。
在加入斯坦福大學(xué)之前,Melody Y. Guan 曾在谷歌擔(dān)任研究員。她與 OpenAI 的關(guān)系主要體現(xiàn)在她的研究工作上,她與 OpenAI 的研究人員合作發(fā)表了多篇論文。
Melody Y. Guan 的研究興趣主要集中在強(qiáng)化學(xué)習(xí)和神經(jīng)架構(gòu)搜索等領(lǐng)域。她與 Google Brain 團(tuán)隊(duì)合作,提出了著名的神經(jīng)架構(gòu)搜索方法 ENAS(Efficient Neural Architecture Search via Parameter Sharing)。此外,她還發(fā)表了多篇關(guān)于機(jī)器學(xué)習(xí)和人工智能的學(xué)術(shù)論文。
Manas Joglekar
Manas Joglekar 本科畢業(yè)于印度理工學(xué)院孟買分校,后于斯坦福大學(xué)讀博士。
博士期間,他曾先后在微軟、谷歌和 Facebook 進(jìn)行實(shí)習(xí),2016 年正式進(jìn)入谷歌擔(dān)任高級軟件工程師,2019 年他擔(dān)任 Snorkel AI 創(chuàng)始工程師,負(fù)責(zé)領(lǐng)導(dǎo)機(jī)器學(xué)習(xí)基礎(chǔ)工作,2023 年 10 月加入 OpenAI。
Manas Joglekar 發(fā)表過多篇論文,主要研究方向包括計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)。
Eric Wallace
Eric Wallace 是 OpenAI 的研究員,致力于使下一代大型語言模型(LLMs)更加安全、可靠和注重隱私。
他本科畢業(yè)于馬里蘭大學(xué)帕克分校計(jì)算機(jī)科學(xué)系,目前還在加州大學(xué)伯克利分校攻讀博士學(xué)位,研究方向是增強(qiáng)機(jī)器學(xué)習(xí)的安全性、隱私性和魯棒性。
在加入 OpenAI 之前,Eric Wallace 曾在 DeepMind 和 Meta 實(shí)習(xí)。
他在 OpenAI 的工作主要集中在提升大模型的安全性和隱私性,曾參與了 GPT-4o mini、o1、o1-mini 等安全和能力方面的研究。
Saachi Jain
Saachi Jain 是 OpenAI 的研究人員,她本碩畢業(yè)于斯坦福大學(xué),目前在麻省理工學(xué)院(MIT)攻讀博士學(xué)位。
她的研究主要集中在構(gòu)建更魯棒和可靠的機(jī)器學(xué)習(xí)模型,特別是理解模型如何進(jìn)行泛化。
在加入 OpenAI 之前,Saachi Jain 曾在特斯拉擔(dān)任計(jì)算機(jī)視覺科學(xué)家,參與自動(dòng)駕駛技術(shù)的視覺模型設(shè)計(jì)和訓(xùn)練。她還在 Facebook 和 Google 等公司進(jìn)行過實(shí)習(xí)。
在 OpenAI,她曾是 o1 項(xiàng)目的安全技術(shù)負(fù)責(zé)人之一,該項(xiàng)目旨在提高模型的推理能力和安全性。
Boaz Barak
Boaz Barak 是哈佛大學(xué)計(jì)算機(jī)科學(xué)教授。他是一位理論計(jì)算機(jī)科學(xué)家,研究領(lǐng)域包括計(jì)算復(fù)雜性、算法、密碼學(xué)、量子計(jì)算以及機(jī)器學(xué)習(xí)的基礎(chǔ)。Boaz Barak 曾參與了 OpenAI o1 項(xiàng)目的安全研究工作。
Alec Heylar
他本科畢業(yè)于弗吉尼亞理工學(xué)院暨州立大學(xué),曾在微軟度過 5 年職業(yè)生涯,2024 年 5 月進(jìn)入 OpenAI 擔(dān)任研究員。
Alec Heyla 的專業(yè)技能涵蓋了人工智能、大語言模型等多個(gè)領(lǐng)域。
Rachel Dias
Rachel Dias 本科畢業(yè)于美國芝加哥大學(xué)的政治學(xué)專業(yè),曾在 Meta 擔(dān)任產(chǎn)品策略與運(yùn)營,后來加入 TikTok 擔(dān)任政策實(shí)施經(jīng)理。
2024 年 1 月進(jìn)入 OpenAI, 是 OpenAI o1 模型的「準(zhǔn)備評估」團(tuán)隊(duì)成員之一。
Andrea Vallone
她在加州大學(xué)圣巴巴拉分校獲得了英語(B.A. English)和心理學(xué)(B.A. Psychology)的雙學(xué)士學(xué)位。
后來加入 Facebook 擔(dān)任產(chǎn)品和政策傳播經(jīng)理、產(chǎn)品政策經(jīng)理。2022 年 8 月加入 OpenAI 從事模型安全工作。
Hongyu Ren
Hongyu Ren 在去年 7 月加入,現(xiàn)在是 OpenAI 的一名研究科學(xué)家,他還是 GPT-4o 、GPT-4o mini 的核心貢獻(xiàn)者,并致力于 GPT-Next 的研究。Hongyu Ren 本科畢業(yè)于北京大學(xué)、博士畢業(yè)于斯坦福大學(xué)。此前,他在蘋果、谷歌、英偉達(dá)、微軟等工作過。
Jason Wei
AI 圈的人大概都很熟悉 Jason Wei,他本科畢業(yè)就加入谷歌(2020 到 2023 年在 Google Brain 擔(dān)任研究科學(xué)家),以一作身份寫出了「思維鏈」(CoT)的開山之作。2023 年 2 月加入 OpenAI,擔(dān)任 AI 研究人員。2024 年,他參與了 OpenAI o1 模型的研發(fā)。他的工作推廣了 CoT 提示、指令調(diào)整和智能涌現(xiàn)等領(lǐng)域。
Hyung Won Chung
Hyung Won Chung 現(xiàn)在是 OpenAI 的一名研究科學(xué)家。研究重點(diǎn)是大型語言模型。在那之前,他在谷歌大腦工作,并在 MIT 攻讀博士學(xué)位。他也是 OpenAI o1 的核心貢獻(xiàn)者之一。
他曾參與過一些重要項(xiàng)目的研究工作,比如 5400 億參數(shù)的大型語言模型 PaLM 和 1760 億參數(shù)的開放式多語言語言模型 BLOOM。機(jī)器之心也曾介紹過他為一作的論文《Scaling Instruction-Finetuned Language Models》。
Sam Toyer
Sam Toyer 本科畢業(yè)于澳大利亞國立大學(xué),博士生就讀于加州大學(xué)伯克利分校。研究領(lǐng)域包括計(jì)算機(jī)視覺、規(guī)劃、模仿學(xué)習(xí)和獎(jiǎng)勵(lì)學(xué)習(xí)。近期,我的研究重點(diǎn)是如何使大規(guī)模語言模型更加安全和魯棒,這些特性對于在高風(fēng)險(xiǎn)場景中的應(yīng)用至關(guān)重要。以下是他的工作經(jīng)歷:
Johannes Heidecke
Johannes Heidecke 是巴塞羅那的一名人工智能碩士研究生,目前專注于探索強(qiáng)化學(xué)習(xí)和生成模型。
他對機(jī)器學(xué)習(xí)和人工智能的研究充滿熱情,并參與了許多 OpenAI 的相關(guān)工作。
他相信人工智能對人類未來具有巨大的潛力,但要讓先進(jìn)的人工智能系統(tǒng)與我們的價(jià)值觀和目標(biāo)保持一致,還需要大量有針對性的工作和研究。
為此,他正在探索將機(jī)器學(xué)習(xí)應(yīng)用于價(jià)值學(xué)習(xí)問題的方法:通過觀察人類行為,推斷他們的動(dòng)機(jī)是什么。
Alex Beutel
Alex Beutel 在卡內(nèi)基梅隆大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,此前在杜克大學(xué)主修計(jì)算機(jī)科學(xué)和物理學(xué)。
他目前是 OpenAI 安全研究團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人。他曾在 Google Research 擔(dān)任高級員工研究科學(xué)家、技術(shù)負(fù)責(zé)人和經(jīng)理,聯(lián)合領(lǐng)導(dǎo)了一個(gè)負(fù)責(zé)機(jī)器學(xué)習(xí)責(zé)任研究的團(tuán)隊(duì)(Responsible ML team),并推動(dòng)了涵蓋推薦系統(tǒng)、公平性、魯棒性、強(qiáng)化學(xué)習(xí)以及數(shù)據(jù)庫機(jī)器學(xué)習(xí)的研究工作。
Amelia Glaese
Amelia Glaese 本科就讀于慕尼黑工業(yè)大學(xué),攻讀航天工程。在慕尼黑工業(yè)大學(xué)與佐治亞理工學(xué)院分別攻讀了機(jī)械工程以及計(jì)算機(jī)科學(xué)與工程碩士。曾任谷歌軟件工程師,后來加入 DeepMind 團(tuán)隊(duì),工作了四年多。在此期間,她參與了 Gemini 相關(guān)論文的發(fā)布。今年 3 月,Amelia Glaese 正式加入 OpenAI。