撰稿 | 伊風
整個2月,Sora 可謂是當之無愧的 AI 明星,公布的兩波 AI 視頻吸睛無數(shù)。沒想到在2月末尾,還能有另一位視頻生成“選手”讓我們感到驚喜!
那就是阿里新推出的視頻生成框架——EMO (Emote Portrait Alive) 。EMO 基于擴散模型,只需要提供圖像和音頻就可以生成富有表現(xiàn)力的肖像視頻。從公布的視頻來看,EMO 在生成肖像的動作、口型及表情等方面均表現(xiàn)不俗,展現(xiàn)了與 Sora 一樣豐富的“可玩性”,能完成許多具有想象力和創(chuàng)造性的各類視頻。
EMO 驅(qū)動的肖像不僅可以唱歌、口語對白,甚至還能為你秀一段快嘴說唱。示例視頻中展現(xiàn)了 EMO 多樣的生成能力和優(yōu)越的實現(xiàn)效果,含有阿里團隊的大量“官方整活”。
通過 EMO,你可以讓蒙娜麗莎不再只是神秘微笑,轉(zhuǎn)而縱情高歌一首時下的熱曲《flowers》;讓蔡徐坤去秀一段快嘴,成為比肩姆爺?shù)摹皉ap god”;或者讓反派高啟強改邪歸正加入普法隊伍……不得不說,每一支視頻都腦洞大開。
1.歌聲驅(qū)動,人人都能當歌星
畫面中 AI 生成的蒙娜麗莎,正站在她那神秘、幽靜的山巒之間,遠處是無際的綠植與道路。置身于這樣的美景之間,蒙娜麗莎情不自禁地唱起麥莉·賽勒的《flowers》。唱到陶醉之時的蒙娜麗莎不僅會流露自信的笑容,還間或閉上眼睛,完全沉醉在歌唱之中,給人非常真實的視聽體驗。
Sora 視頻中那位走在巴黎街頭的皮衣女士也來體驗了一把 EMO 的生成效果。在該視頻中“Sora 女士”不僅頭部運動自然,發(fā)力時眉毛的運動及換氣的感覺也都讓人十分驚喜。此外, EMO 對于耳環(huán)的擺動、甚至墨鏡中反光的倒影也進行了較為逼真的還原。
2.二次元到三次元,多個語種都能唱
視頻中銀發(fā)綠瞳的精致女孩正面朝陽光,唱著寧藝卓翻唱版本的《Melody》,中英文切換時自然流暢。值得一提的是,驅(qū)動這支視頻的圖像也由 AI 生成,但整體呈現(xiàn)的效果猶如一位真實的美女主播。
畫面中的“哥哥”張國榮正唱著 Eason 的那首《無條件》。有網(wǎng)友認為,這支視頻暴露了EMO 在跟隨粵語時生成的口型不夠自然。不知道大家欣賞這支視頻時,是否會有“音畫不同步”的感覺。當然,這支視頻中哥哥愉悅的積極情緒與《無條件》歌詞的情感基調(diào)有斷裂,這可能也是讓我們感到“哪里不對”的原因之一。
3.語速快如rap god,也不留破綻
視頻中還沒成為中年大叔的貌美版“小李子”,正唱著阿姆的《GODZILLA》。從驅(qū)動視頻來看,肖像人物的表情與說唱的節(jié)奏配合自然,中間停頓時的神情也極具感染力。
以下視頻來源于
往事如歌
沒有比讓坤坤唱《rap god》更抽象的整活了。不知道為何,兩個說唱的示例都選擇了“姆爺”的歌曲,這可能也是阿里團隊的一種炫技。
4.對白也能 hold 住,反派普法不是夢
視頻采用了《The Dark Knight》 2008 Jocker 的經(jīng)典臺詞,“Why so serious? Let's put a smile on that face ” 驅(qū)動了 2019 版 Jocker 。小丑臉上的油彩隨著肌肉的運動而自然運動著。
這支視頻讓強哥和“法外狂徒張三”聯(lián)動了一把。視頻中的高啟強為大家解讀“緊急避險”的概念,看來強哥不僅可以吃魚,餓到快死的時候吃點熊貓、金絲猴也是可以的。
視頻來源:https://humanaigc.github.io/emote-portrait-alive/