微軟萬引理論大佬跳槽OpenAI!入職第一天:瘋了,這里的人才密度簡直瘋了
傳聞證實,微軟機器學習理論萬引大佬,官宣跳槽加入OpenAI。
入職第一天,他便發(fā)出如此感慨:
這個地方的人才密度,簡直是瘋了!
話一說出去就得到印證,他口中的人才們都來評論區(qū)排隊歡迎了。
他是Sebastien Bubeck,微軟前AI副總裁和杰出科學家,在微軟工作10年。
2021年,他曾用一篇理論研究展示擴大AI模型規(guī)模的重要性,幫助說服微軟CEO納德拉在AI基礎設施上增加數(shù)十億美元的投資。
他的職業(yè)生涯前15年都投入在計算機理論和機器學習理論,研究的是凸優(yōu)化、在線學習和對抗穩(wěn)健性這些問題,直到——
微軟作為OpenAI合作伙伴,派他參與了未安全對齊版GPT-4早期測試,期間他來了一場戲劇性的轉型。
全面轉向AGI研究。
在當時外界還只接觸過GPT-3.5的背景下,看起來就像“理論學者轉型研究科幻了”,而他本人是這么解釋的:
現(xiàn)在我更關注大型語言模型中智能是如何形成,如何利用這種理解提高模型性能,并可能邁向構建AGI。
我們的方法稱作“AGI的物理學”(Physics of AGI)。
之后他便帶領微軟團隊發(fā)布一篇154頁的GPT-4實驗報告《AGI的火花》,一時引起全業(yè)界轟動,成為人們對AI過高期待的重要推手。
后來他承認過當時的實驗方法并不算嚴格,但并不后悔,并堅持“沒有證據(jù)否定GPT-4已經(jīng)具有一定推理能力”。
在轉型期間的一次演講中,他分享了自己對“Transformer到底有什么特別之處”的思考,指出很多人容易忽略的一點:Transformer不是序列模型。
與RNN等模型關鍵區(qū)別在于Transformer一次處理一個集合,而不是序列中的單個輸入。
集合是一種強大的抽象層次,讓模型能看到元素之間的關系,從“絕對機器”變成相對機器。
這次他加入OpenAI的時機非常微妙,本人強調是在“開發(fā)安全AGI的關鍵時刻加入”。
微軟發(fā)言人的聲明中也提到,“Sebastien已決定離開微軟,以進一步開發(fā)AGI”。
同時,現(xiàn)在也是OpenAI和微軟聯(lián)盟漸漸破裂的時刻,奧特曼和OpenAI首席財務官近期對員工抱怨,微軟行動速度不夠快,沒有提供足夠的服務器。
兩家開始相互視對方為備胎,OpenAI找了甲骨文做額外的云計算供應商,微軟也開始在旗下產(chǎn)品中接入谷歌和Anthropic模型。
不得不說,很耐人尋味。
一篇論文影響微軟對AI的數(shù)十億美元投入
Sebastien Bubeck,2010博士畢業(yè)于法國里爾第一大學數(shù)學專業(yè)。
在普林斯頓大學做三年助理教授后,于2014年加入微軟,從普通研究員一路做到VP。
在2023年轉型AGI研究之前,就憑理論研究收獲上萬被引,現(xiàn)在總被引數(shù)來到23475。
2021年他與斯坦福博士生Mark Sellke合著論文《A Universal Law of Robustness via Isoperimetry》,不僅入選NeurIPS2021杰出論文,也對微軟和整個人工智能業(yè)界產(chǎn)生影響。
這篇論文解釋了為什么實踐中訓練模型需要的參數(shù)比理論建議的要多得多,幫助說服微軟CEO納德拉和微軟研究院院長Peter Lee等,在AI基礎設施上增加數(shù)十億美元的投資。
隨后這些對數(shù)據(jù)中心和先進GPU的投資為OpenAI提供了訓練和部署大模型的支柱。
Peter Lee后來表示“這是整個人工智能之旅中非常重要的時刻,不僅對于微軟,而是對于所有大型科技公司”。
在轉型研究AGI后,他在研究中解釋了自己的新方向:AGI的物理學。
他認為Transformer和自然界一樣都是復雜系統(tǒng),需要用物理的方法去研究。
物理學的核心在于將一個系統(tǒng)進行分解,辨認出產(chǎn)生所觀察到的行為的真正關鍵要素。
第一步從通過可控的實驗,研究小規(guī)?!巴婢吣P汀遍_始。
隨后他就在微軟開啟了Phi系列小模型研究,控制訓練數(shù)據(jù)中只有教科書級別的高質量數(shù)據(jù)和合成數(shù)據(jù),并發(fā)表論文《Textbook is all you need》。
到現(xiàn)在Phi系列小模型已迭代到phi-3.5版本,在本地大模型推理工具ollma上,開源模型中受歡迎程度排第5。
One More Thing
Bubeck在《AGI的火花》論文中,展示了滿血版GPT-4通過代碼畫獨角獸的能力,隨訓練進度增長飛快。
他認為未來這是考驗大模型智力的一個有趣的檢驗標準,也成了這個meme的代言人。
但或許出乎他意料的是,今天的主流模型不僅能勝任畫圖,甚至能組團玩你畫我猜了。