剛剛,谷歌ViT核心骨干集體投奔OpenAI:他們?yōu)镾ora打下基礎(chǔ)
爆炸消息——
ViT三大核心作者集體離職谷歌DeepMind。下一站:OpenAI!
他們分別是翟曉華(Xiaohua Zhai)、盧卡斯·拜爾(Lucas Beyer)、亞歷山大·科列斯尼科夫(Alexander Kolesnikov)。
相關(guān)消息已被本人證實,三人均官宣了新動向。
2021年,他們?nèi)俗鳛楣餐蛔鞯挠嬎銠C視覺領(lǐng)域神作ViT發(fā)布即刷新ImageNet最高分。
這項研究證實了CNN在CV領(lǐng)域不是必需的,Transformer從NLP跨界,一樣可以取得先進效果。開創(chuàng)了Transformer在CV領(lǐng)域應(yīng)用的先河。
目前這篇論文被引用量已超過4.9萬。
此外,他們還共同提出了SigLIP、PaliGamma等SOTA級工作。
幾周后,他們將正式加入OpenAI蘇黎世實驗室。
值得一提的是,Wired方面消息稱,三人是被OpenAI挖走的。
網(wǎng)友評論:能撬動這一“鐵三角”黃金組合,OpenAI真的太幸運了。
ViT三大核心作者投奔OpenAI
Xiaohua Zhai(翟曉華)
此前他是Google DeepMind 的高級研究員,領(lǐng)導著蘇黎世一個多模態(tài)研究小組。重點研究多模態(tài)數(shù)據(jù)(WebLI)、開放權(quán)重模型 ( SigLIP、PaliGemma )以及文化包容性。
目前谷歌學術(shù)引用數(shù)超六萬多。
2014年他畢業(yè)于北京大學,獲得計算機系博士學位;本科畢業(yè)于南京大學。一畢業(yè)就前往谷歌蘇黎世工作。
Lucas Beyer
這位同樣也是谷歌DeepMind蘇黎世小組的一位成員,共同領(lǐng)導著DeepMind的多模態(tài)研究團隊和基礎(chǔ)設(shè)施。
目前已經(jīng)撰寫超50篇論文,被CVPR、NeurIPS、ICCV 等這些頂級會議接收。
據(jù)他個人官網(wǎng)中介紹,他在比利時長大,曾夢想制作電子游戲以及從事AI研究。自我認定為「自學成才的黑客和研究科學家,致力于創(chuàng)造飛凡實物」。
他在德國亞琛工業(yè)大學學習機械工程,并在那里獲得了機器人感知和計算機視覺博士學位。2018年加入谷歌。
Alexander Kolesnikov
2018年以來,他就在谷歌大腦,現(xiàn)為DeepMind團隊工作。之前主要成就包括訓練SOTA視覺模型*(從2019年到2021年都實現(xiàn)了ImageNet SOTA);開放權(quán)重模型(SigLIP和PaliGemma),以及神經(jīng)架構(gòu)方面的工作:BiT、ViT、MLP-Mixer和FlexiViT。
除此之外,編寫靈活、高性能的研究基礎(chǔ)設(shè)施,尤其是Jax。
此前,他在奧地利科學技術(shù)研究所(ISTA)攻讀博士學位,研究方向是弱監(jiān)督學習和圖像生成模型。
曾是谷歌CV的“黃金鐵三角”
在谷歌任職期間,三人多次合作并帶來了影響領(lǐng)域發(fā)展的重要工作。
其中最重要的一篇莫過于ViT。
這篇研究驗證了Transformer架構(gòu)在計算機視覺領(lǐng)域的通用性。在它的基礎(chǔ)上衍生出了Swin Transformer、DeiT(Data-efficient Image Transformers)等。
它創(chuàng)新性提出將圖像分割成固定大小的塊(patches),并將每個塊視為一個序列元素,與NLP中的單詞類似。然后,這些塊通過變換器進行處理。
在許多視覺任務(wù)中,ViT在性能上超過了傳統(tǒng)的CNN模型,尤其是在大規(guī)模數(shù)據(jù)集上進行訓練時表現(xiàn)尤為突出。例如,在ImageNet分類任務(wù)中,ViT取得了與最先進的CNN模型相當甚至更好的結(jié)果。
此外他們還合作推出了MLP-Mixer、BiT(CV界的BERT)等領(lǐng)域內(nèi)知名工作。
參考鏈接:
[1]https://www.wired.com/story/openai-hires-deepmind-zurich/。
[2]https://kolesnikov.ch/。
[3]https://sites.google.com/view/xzhai。
[4]https://lucasb.eyer.be/。