GPT-4o 17人Omni金牌團(tuán)隊首揭秘!清北上交中科大六位華人領(lǐng)銜
幾天前的發(fā)布會上,OpenAI再次向全世界證明,它永遠(yuǎn)走在AI領(lǐng)域的最前沿。
眼看著《Her》中的Samantha在自己眼前成真,那一刻,全世界為之振奮。
就在剛剛,GPT-4o的關(guān)鍵團(tuán)隊信息,也被公布了出來。
就是這個名為「omni」的團(tuán)隊,發(fā)揮出了不可思議的潛力,讓OpenAI的首個原生全多模態(tài)模型成為可能。
Sam Altman盛贊,如果沒有團(tuán)隊負(fù)責(zé)人Prafulla Dhariwal長期以來的遠(yuǎn)見、才智、信念和決心,就沒有GPT-4o。而整個團(tuán)隊的努力,才使得他所期待的人機(jī)交互革命成為現(xiàn)實(shí)。
OpenAI聯(lián)創(chuàng)Greg Brockman,也表揚(yáng)了這位肩負(fù)著整個團(tuán)隊使命的負(fù)責(zé)人。
多虧了Prafulla Dhariwal「建立全能大模型」的信念,并且在過去的18個月中聯(lián)合了OpenAI的許多團(tuán)隊,在多個團(tuán)隊的通力合作下,GPT-4o才得以誕生。
GPT-4o可以識別不同的聲音
根據(jù)負(fù)責(zé)人的說法,其實(shí)OpenAI早就有意打造這樣一個Omni大模型了。
然而一年多之前,團(tuán)隊曾經(jīng)做過多次多模態(tài)的嘗試,卻沒有一次能讓最大的GPT成功地完成多模態(tài)運(yùn)行。
幸運(yùn)的是,團(tuán)隊成員齊心協(xié)力,用出色的能力攻克了種種能力,使GPT-4o成為可能。
網(wǎng)友銳評:「你們確實(shí)處于創(chuàng)新的前沿,執(zhí)行水平達(dá)到了大型科技巨頭夢寐以求的水平?!?/span>
而如此驚艷的演示,竟然是一個不到20人的小團(tuán)隊打造出來的。
Omni團(tuán)隊揭秘
接下來,一起看看打造OpenAI首個原生多模態(tài)GPT-4o背后團(tuán)隊成員,都有誰?
負(fù)責(zé)人Prafulla Dhariwal
領(lǐng)導(dǎo)GPT-4o開發(fā)的負(fù)責(zé)人Prafulla Dhariwal,是一位印度小哥。
他于2017年獲得了麻省理工學(xué)院的計算機(jī)科學(xué)學(xué)士學(xué)位。
畢業(yè)前夕,Dhariwal就加入了OpenAI(那時OpenAI僅成立一年),并在17年正式成為研究科學(xué)家。
至今,Dhariwal任職OpenAI 7年,可以說,他見證了這家初創(chuàng)公司的成長全過程。
在此期間,Dhariwal參與了諸多重磅的研究。
根據(jù)LinkedIn個人主頁,他將發(fā)表論文的領(lǐng)域分類為生成式模型、無監(jiān)督學(xué)習(xí)、Scaling Law、定理證明、強(qiáng)化學(xué)習(xí)、量子復(fù)雜性。
其中包括DALL·E 3、DALL·E 2,模型一致性等,還共同提出了著名的「Scaling Law」。
值得一提的是,Dhariwal曾在高中期間參加了幾次國際奧林匹克競賽。
他是2012年IMO競賽的金牌得主,也是IAO(國際天文學(xué)奧林匹克競賽)、IPhO(國際物理奧林匹克)的金牌獲得者。
有網(wǎng)友稱,Prafulla Dhariwal從高中起就是我的靈感來源。他當(dāng)年為印度贏得了IAO、IPhO和IMO的金牌,并在OpenAI大學(xué)畢業(yè)后從事非常酷的VAE、Gans、DDPM、一致性模型等項(xiàng)目。
6位華人
Li Jing
Li Jing在團(tuán)隊中發(fā)揮的作用是,讓大家擁有令人驚嘆的圖像/3D生成。
此前,他為Dall-E 3、Sora、GPT-4o都做出過貢獻(xiàn)。
他曾在Meta做過2年的博后研究員,隨后進(jìn)入OpenAI成為全職研究員。
雖然才入職OpenAI不到兩年,但他已參與過多個OpenAI的重磅研究了。
他在北京大學(xué)獲得物理學(xué)學(xué)士學(xué)位,在MIT獲得物理學(xué)博士學(xué)位。
Casey Chu
Casey Chu是團(tuán)隊的老員工了。
他從2020年4月就入職了OpenAI,如今已經(jīng)是4年的「元老」了。
他本科在哈維·穆德學(xué)院獲得數(shù)學(xué)學(xué)士學(xué)位,在斯坦福大學(xué)獲得計算數(shù)學(xué)碩士學(xué)位。
Mark Chen
Mark Chen是OpenAI的前沿研究主管,并且還是美國IOI隊的教練。
在團(tuán)隊漫長的研究中,Mark Chen是大家奮斗的支柱。
他已是OpenAI五年多的老員工。此前曾在微軟、Trading實(shí)習(xí),在哈佛做訪問學(xué)者,在量化研究工作過5年,并且成為合伙人。
他畢業(yè)于MIT數(shù)學(xué)-計算機(jī)專業(yè)。
Jiahui Yu(于佳慧)
Jiahui Yu負(fù)責(zé)帶領(lǐng)OpenAI的感知團(tuán)隊。
此前,他曾擔(dān)任Google Brain和Google DeepMind的高級研究科學(xué)家和經(jīng)理。
他的研究領(lǐng)域包括序列建模(語言、語音、視頻、金融數(shù)據(jù))、計算機(jī)視覺、生成模型和高性能計算。
在研究生期間,他在微軟亞研院、曠視科技、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和Google Brain都有過實(shí)習(xí)經(jīng)歷。
他本科畢業(yè)于中國科技大學(xué)少年班,獲得計算機(jī)學(xué)士學(xué)位。博士畢業(yè)于伊利諾伊大學(xué)香檳分校。
Huiwen Chang
Huiwen Chang在OpenAI已經(jīng)工作一年。
此前她曾在谷歌工作過5年,在微軟亞研院、Adobe、Facebook有過實(shí)習(xí)經(jīng)歷。
她在清華大學(xué)計算機(jī)科學(xué)實(shí)驗(yàn)班(姚班)取得學(xué)士學(xué)位,然后在普林斯頓大學(xué)取得博士學(xué)位。
Yu Zhang
他在OpenAI工作了8個月。他此前曾在谷歌DeepMind工作過6年,還在微軟亞研院、微軟實(shí)習(xí)過。
他本科在上海交通大學(xué)取得計算機(jī)學(xué)士學(xué)位,在MIT取得博士學(xué)位。
其他關(guān)鍵成員
James Betker
James Betker在這個團(tuán)隊中負(fù)責(zé)得非常全面,應(yīng)有盡有,包括圖像、音頻、數(shù)據(jù)、集成、后訓(xùn)練(post-training)。
這是從谷歌跳槽至OpenAI的大咖。
在加入OpenAI之前,Betker曾在谷歌擔(dān)任了3年的軟件工程師。
此外,他還在2011年加入了Garmin International,現(xiàn)任職高級軟件工程師。
上下滑動查看
他曾獲得了UCSB的計算機(jī)科學(xué)學(xué)士學(xué)位,與此同時,在2005-2009年期間,還是在學(xué)校擔(dān)任4年的軟件工程師。
Jamie Kiros
Jamie Kiros讓GPT-4獲得當(dāng)前最佳的視覺感知能力,做出了非凡的成績。
此前,他曾在谷歌工作過3年。
他在多倫多大學(xué)取得計算機(jī)博士學(xué)位。
Rowan Zellers
Rowan Zellers在Omni團(tuán)隊中的貢獻(xiàn)是,讓OpenAI可以像人一樣自然地看到視頻。
畢業(yè)后,他加入了艾倫人工智能研究所(AI2)成為研究實(shí)習(xí)生。
2022年6月,成為OpenAI的一名技術(shù)人員。
Zellers曾獲得了哈維·穆德學(xué)院(Harvey Mudd College)的數(shù)學(xué)和計算機(jī)科學(xué)的學(xué)士學(xué)位,以及華盛頓大學(xué)計算機(jī)科學(xué)博士學(xué)位。
Alexis Conneau
在加入OpenAI之前,Alexis Conneau就已經(jīng)提出了「Her」(視覺模型)的理念,并且堅持不懈地執(zhí)行并實(shí)現(xiàn)了它。
目前,Conneau是OpenAI的語音AGI負(fù)責(zé)人。
進(jìn)入他的個人主頁,就知道Conneau對Her有多么癡迷了。
Conneau在加入OpenAI之前,曾在Meta、谷歌擔(dān)任過研究科學(xué)家,有著9年的自然語言深度學(xué)習(xí)的經(jīng)驗(yàn)。
華盛頓郵報曾對Conneau進(jìn)行了個人專題報道——
Alexis Conneau曾幫助Meta(Facebook)和谷歌打造了以驚人的精確性理解數(shù)十種語言的AI系統(tǒng)。
在Meta期間,Conneau團(tuán)隊推進(jìn)了機(jī)器學(xué)識算法,將語言用數(shù)字抽象形式表現(xiàn)的能力,最終訓(xùn)出能夠處理同步語言的AI。
比如XLM-R模型可以處理100+語言,其準(zhǔn)確性幾乎與單一語言模型一致。
Conneau在Meta做的最后一項(xiàng)工作是Wave2vec-U。這是一種無人監(jiān)督的語音識別系統(tǒng),可以從音頻中讀取單詞。
此外,他還發(fā)明了一種算法XLm-Roberta,能夠閱讀各種語言的海量數(shù)據(jù)。這項(xiàng)研究也成為他被引最高的成果。
他曾獲得了Facebook AI Research的計算機(jī)科學(xué)博士學(xué)位,在巴黎-薩克雷高等師范學(xué)校獲得了機(jī)器學(xué)習(xí)碩士學(xué)位,以及巴黎綜合理工學(xué)院獲得了數(shù)學(xué)碩士學(xué)位。
Gabriel Goh
Gabriel Goh和接下來要介紹的Ishaan Gulrajani,在團(tuán)隊中主要貢獻(xiàn)是,提出了一系列相關(guān)的「Scaling Law」的工作。
這樣當(dāng)所有這些模態(tài)(視覺、語音等)匯集在一起時,模型便可以擅長處理一切事物!
Gabriel Goh也是OpenAI 5年多的老員工,此前曾在蘋果工作1年半。
他在英屬哥倫比亞大學(xué)取得碩士學(xué)位,在加州大學(xué)戴維斯分校取得了數(shù)學(xué)專業(yè)博士學(xué)位。
CBC曾報道過Gabriel Goh到OpenAI后,在2021年設(shè)計的CLIP系統(tǒng)。
他參與的這項(xiàng)研究,揭示了CLIP無法正確識別圖像,會把放著iPod字樣的蘋果識別為iPod。
Ishaan Gulrajani
Ishaan Gulrajani目前是OpenAI的研究員。
根據(jù)OpenReview的介紹,他曾在谷歌和Meta工作過。并在MIT獲得學(xué)士學(xué)位,以及在斯坦福大學(xué)獲得博士學(xué)位。
Alex Nichol
Alex Nichol在團(tuán)隊中主攻3D圖像生成,也是DALL·E 2的共同發(fā)明者。
此前,他一直是一位自由職業(yè)者。
隨后,在2107年加入了OpenAI任技術(shù)研究員,中間還離職有近一年時間,并在2020年5月再次入職。
比如,在GPT-4o官方報博客中的演示,它可以生成一致的試圖,重建復(fù)雜3D模型。
這些所展示出的成果,離不開Nichol的貢獻(xiàn)。
Heewoo Jun
與Nichol一樣,Heewoo Jun在團(tuán)隊中也在負(fù)責(zé)圖像、3D生成。
根據(jù)OpenReview介紹,他曾在2015-2019年間在百度(美國研究院)擔(dān)任研究員,2019年從百度離職后加入OpenAI擔(dān)任研究員至今。
他曾獲得了斯坦福大學(xué)的碩士學(xué)位,以及多倫多大學(xué)的學(xué)士學(xué)位。
Christine McLeavey
這位Christine,是一位寶藏研究員。
她在OpenAI已經(jīng)工作6年。
此前,她曾在Unity從事2D、3D、VR、AR游戲的工作。
還曾做過4年的鋼琴演奏藝術(shù)家,創(chuàng)辦了交響樂、芭蕾、歌劇院管弦樂團(tuán)的音樂家組織。
圖片
圖片
她在普林斯頓取得了藝術(shù)、物理、和鋼琴表演的學(xué)士學(xué)位。
在畢業(yè)后,她在世界頂尖音樂學(xué)院——茱莉亞學(xué)院進(jìn)修了兩年鋼琴。
三年后,她在斯坦福取得了神經(jīng)科學(xué)的碩士學(xué)位。
al jabr
最后這位「al jabr」,并沒有公布自己的真名,因此資料無從查找。
參與GPT-4o的所有成員
網(wǎng)友:下一個方向是什么
在留言區(qū),網(wǎng)友們紛紛表示贊嘆——
「團(tuán)隊使這種令人難以置信的突破性體驗(yàn)成真,o將徹底重構(gòu)人機(jī)交互的方式?!?/span>
「GPT-4o是創(chuàng)新和協(xié)作的證明,你們的奉獻(xiàn)精神,構(gòu)造了人工智能進(jìn)步的燈塔?!?/span>
所以,Omni團(tuán)隊的下一步,又會給全世界帶來怎樣驚人的大作?