OpenAI聯(lián)創(chuàng)John Schulman,被曝火速離職Anthropic!剛剛?cè)肼?個月
加入Anthropic才剛六個月的OpenAI聯(lián)創(chuàng)John Schulman,又火速選擇離開了!
此前,Schulman曾在OpenAI工作了9年。
去年8月份,他選擇離開OpenAI,加入Anthropic。
當時,他在給前同事們的信中表示,自己之所以做此選擇,目的是「深化自己對AI對齊的關(guān)注,開啟自己職業(yè)生涯的新篇章,回歸到能親自動手的技術(shù)工作」。
而如今加入Anthropic才剛半年,他卻又忽然選擇離開。
Anthropic:表示遺憾
Anthropic首席科學官Jared Kaplan在一份聲明中表示:「我們對John的離開感到遺憾,但完全支持他追求新機會的決定,并祝愿他一切順利?!?/span>
有人表示,Schulman的離職對Anthropic是一種打擊。他不僅是強化學習先驅(qū),更是ChatGPT背后開發(fā)核心架構(gòu)師。
2024年8月,時任OpenAI「后訓練」團隊負責人John Schulman,在推特上官宣入職勁敵Anthropic。
當時這個消息,就曾引起巨大震動。
原因不僅僅在于,Schulman是OpenAI最受矚目的技術(shù)領(lǐng)袖之一,帶領(lǐng)團隊為ChatGPT取得突破性成果做出了關(guān)鍵貢獻。
他離開的時節(jié)也十分敏感。當時,正處于OpenAI的高管離職潮,CTO Mira Murati在內(nèi)的其他高管,也幾乎在同一時間離職。
對此,Sam Altman甚至十分鄭重地用了「大寫字母」來發(fā)文回應。
ChatGPT架構(gòu)師,PPO一作
Schulman與OpenAI的結(jié)緣,是在研究生學業(yè)完成后,以創(chuàng)始人身份正式加入OpenAI。
至今,他已在OpenAI供職9年。值得一提的是,這是Schulman除實習之外,唯一工作的公司。
之前,他負責的是對齊團隊,隨后他開始主要領(lǐng)導「后訓練」團隊,對部署在ChatGPT和OpenAI API中的模型進行微調(diào)。
John Schulman本科在加州理工學院學習物理學,之后到加州大學伯克利分校攻讀神經(jīng)科學方向的博士。
當時,他對人工智能也有點興趣,但在其中并沒有看到類似神經(jīng)科學的可遵循的道路。
直到參與伯克利的實驗室輪換項目時,他與Pieter Abbeel共同進行了直升機和機器人方面的工作,由此決定轉(zhuǎn)到EECS(電子工程和計算機科學)。
Schulman與OpenAI結(jié)緣已久。作為ChatGPT架構(gòu)師,早在2015年還在讀博士學位時,他就加入OpenAI成為聯(lián)合創(chuàng)始人之一。
在一次采訪中,Schulman解釋了自己加入OpenAI的原因:
「我想做人工智能方面的研究,我認為OpenAI這家公司的使命雄心勃勃,并且致力打造通用人工智能?!?/span>
「盡管,在當時談?wù)揂GI似乎有些瘋狂,但我認為開始考慮它是合理的,我希望在一個地方談?wù)揂GI是可以接受的?!?/span>
另外,據(jù)Schulman透露,OpenAI將人類反饋強化學習(RLHF)引入ChatGPT的想法可以追溯到2017年,當時Jan Leike和Dario Amodei等人發(fā)表的一篇論文提到了這個方法。
論文地址:https://arxiv.org/abs/1706.03741
此外,2017年,Schulman在OpenAI任職期間也和團隊首次提出了近端策略優(yōu)化(PPO)算法,其變體PPO-Clip成為了OpenAI使用的主要算法。
論文地址:https://arxiv.org/abs/1707.06347
OpenAI安全團隊之所以致力于這項工作,是因為想讓模型符合人類的偏好,真正傾聽人類意見,并試圖做人類想做的事情。
在GPT-3完成訓練時,Schulman看到了整個研究方向的潛力并決定加入這股潮流。
在很多次采訪中,Schulman都表達了對于人工智能下一前沿領(lǐng)域的看法:AI在更艱難的任務(wù)上不斷進步的同時,人類應該做些什么?在哪些任務(wù)中,人類可以在大模型幫助下有更大影響力,做更多的工作。
此外,指路Schulman在個人博客上發(fā)布的機器學習研究指南,最初是在2017年為OpenAI 研究員計劃編寫的。干貨滿滿,值得一觀。
文章地址:http://joschu.net/blog/opinionated-guide-ml-research.html