谷歌AI新星轉(zhuǎn)投Pika:視頻生成Lumiere一作,擔(dān)任創(chuàng)始科學(xué)家
視頻生成進(jìn)展如火如荼,Pika迎來(lái)一位大將——
谷歌研究員Omer Bar-Tal,擔(dān)任Pika創(chuàng)始科學(xué)家。
一個(gè)月前,還在谷歌以共同一作的身份發(fā)布視頻生成模型Lumiere,效果十分驚艷。
當(dāng)時(shí)網(wǎng)友表示:谷歌加入視頻生成戰(zhàn)局,又有好戲可看了。
Stability AI CEO、谷歌前同事等在內(nèi)一些業(yè)內(nèi)人士送上了祝福。
Lumiere一作,剛碩士畢業(yè)
Omer Bar-Tal,2021年本科畢業(yè)于特拉維夫大學(xué)的數(shù)學(xué)與計(jì)算機(jī)系,隨后前往魏茨曼科學(xué)研究所攻讀計(jì)算機(jī)碩士,主要聚焦于圖像和視頻合成領(lǐng)域的研究。
其論文成果多次被頂會(huì)接收,比如Text2LIVE(ECCV 2022 Oral)、MultiDiffusion(ICML 2023)、TokenFlow(ICLR 2024)。
以TokenFlow為例,他們提出了一種框架,基于擴(kuò)散模型實(shí)現(xiàn)文本驅(qū)動(dòng)的視頻編輯,支持視頻編輯任務(wù)無(wú)需任何訓(xùn)練或微調(diào)。
此次加盟Pika前,他曾是谷歌研究院以Student Researcher身份待了9個(gè)月,最終經(jīng)過7個(gè)月的研究以共同一作身份推出了Lumiere。這時(shí)候碩士應(yīng)該還沒有畢業(yè)。
Lumiere的創(chuàng)新點(diǎn)在于,提出了時(shí)空U-Net(STU-Net)架構(gòu):將視頻在空間和時(shí)間兩個(gè)維度同時(shí)進(jìn)行下采樣和上采樣,在網(wǎng)絡(luò)的中間層得到視頻的壓縮時(shí)空表示。
在學(xué)習(xí)了3000萬(wàn)視頻之后,Lumiere可支持文生視頻、視頻編輯修復(fù)、圖片轉(zhuǎn)視頻以及視頻風(fēng)格化等多種功能。
當(dāng)時(shí)Jeff Dean盛贊:多模態(tài)視頻生成革命正在發(fā)生。
威爾史密斯吃面(Pika版)
官宣加盟Pika消息之后,官方以及投資人等也送上了祝福。
前幾天,還有位Pika華人研究員Yilun Du發(fā)布了篇文章, 不過應(yīng)該剛從MIT博士畢業(yè)(也可能還沒畢業(yè)),論文單位仍是MIT。
另外在官網(wǎng)還在繼續(xù)招人中。