導演消失了!Midjourney+妙鴨相機+Gen2新玩法:10塊錢創(chuàng)造馬斯克宇宙,一鍵圖生視頻
生成式AI的大爆發(fā),帶來了無限可能。
近來,在國內(nèi),秒鴨相機火遍全網(wǎng),服務器幾度被擠爆,堪比羊了個羊。
只需上傳一張照片,分分鐘得到一套AI寫真,讓許多人驚呼海馬體們要失業(yè)了。
與此同時,在國外,初創(chuàng)公司Runway剛剛宣布,不用文本,一張圖,Gen-2就能生成視頻。
圖片
最最最重要的是,網(wǎng)頁版免費用,iOS即將上線。
圖片
這意味著,一部大片,只需要圖片就夠了,豈不是人人都能成為好萊塢導演。
這不,已經(jīng)有網(wǎng)友用Gen-2,結合PS修圖,MusicGen、AudioLDM等工具配音,做出了「機器人總動員」翻版影片。
幾張場景人物圖片,一段電影內(nèi)容就出來了!真是有手就行!
還有,穿越山海的龍之戀,愛了!
有人把Midjourney和Gen-2混搭,視頻畫面高級質(zhì)感簡直讓人驚掉下巴。
圖片
網(wǎng)友表示,這簡直就是神圣的地獄之王,Midjourney 5.2+Gen-2太炸裂。這是一個很深很深的兔子洞,我會迷失一段時間。
接下來,繼續(xù)看一波體驗吧。
好玩到停不下來!
一句話總結下Gen-2,好玩到停不下來!
圖片
有人用時4小時,制作了一部「火焰之旅」預告片,沒有任何提示,只是圖像!
圖片
有了Gen-2,重拍一部「獅子王」,絕對是不可想象的!
圖片
Anomaly Z(第一季)預告片。
圖片
我完全被Gen2震撼了,動作是如此自然。
圖片
文本提示生成,和圖片提示生成的對比。
圖片
有網(wǎng)友找到了,讓Gen-2輸出更長時間視頻的方法。
方法是用Midjourney生成的圖像作為初始圖像,然后使用Gen-2輸出的最后一幀作為下一張的圖像提示。
圖片
路人視角,從街市,走到建筑樓中。
圖片
再看個手的細節(jié),雖有些不完美,但已經(jīng)很厲害了。
圖片
機械姬效果來一波。
圖片
圖片
晶瑩剔透的深海水泡。
圖片
Q版的鋼鐵俠,還是大叔氣質(zhì)的。
圖片
Stability AI家的SDXL生成圖片后,再用Gen-2生成視頻。
圖片
AI的多元宇宙來了。
一些小bug。有人也喜歡Gen2奇怪的客串,和消失的肢體嗎?
圖片
呆萌的大熊貓。
圖片
手把手教程
這么炫酷的效果,估計大家已經(jīng)忍不住想上手試試了,小編就來給大家來親手實測一波。
首先通過網(wǎng)頁https://research.runwayml.com/gen2注冊登錄runway的賬號,進入runway的編輯界面.
點擊左側的Generate Video。
然后點擊屏幕中間的Gen-2:Text to Video進入Gen-2。
在左邊的區(qū)域上傳一張照片,小編這里用的是一張由Midjourney生成的機器人的照片。
提示詞:Futuristic machine who is a kind robot who wants to save his planet from his human friends, cinematic, digital illustration, stylized, deep depth of field, high definition, --ar 16:9 --v 5.2
然后什么Prompt都不用輸入,上傳完照片之后就直接點擊Generate。大概1分鐘之后,一段4秒鐘的視頻就生成了。
圖片
圖中的機器人瞬間就動了起來!
小編用最近比較火的妙鴨相機生成了一張地球網(wǎng)紅馬老板的「美顏證件照」,再用Gen-2的圖生視頻模式給他來一段視頻。
圖片
再來看看女裝馬老板的動態(tài)效果
而且小編在使用過程中發(fā)現(xiàn),如果圖片本身就有動態(tài)效果的元素,那么生成的視頻的動態(tài)效果會更明顯。
圖片
而如果原圖本來就是一張靜物,或者沒有太明顯的動態(tài)效果提示,那生成的視頻就幾乎不會動,比如下圖的貓貓就只會原地不動地坐著。
圖片
照片中也只有云朵會有動態(tài)效果,其他場景也是原地不動的。
圖片
因為現(xiàn)在根據(jù)照片生視頻的功能本身不能和提示詞結合起來,所以動畫的動態(tài)效果只能根據(jù)照片里包含的內(nèi)容來生成。
開發(fā)人員這樣的設定應該是要保證生成的動態(tài)效果符合圖片內(nèi)容的物理設定,避免生成各種匪夷所思的動態(tài)效果。
但是這就對生成視頻的原圖提出了一些要求,如果是明顯的靜物圖片或者場景,那就幾乎不會有明顯的動態(tài)效果。
圖片
梵高、冰雕風格一鍵切換
有了Gen-2生成視頻效果,你還可以實現(xiàn)效果轉換。
給大家推薦一個最新的TokenFlow模型,能夠將視頻的風格轉換成梵高、海洋奇緣、雕塑等風格。
圖片
目前,最先進的視頻模型在視覺質(zhì)量和用戶對生成內(nèi)容的控制方面,仍然落后于圖像模型。
這不,研究人員想了個轍,把文生圖模型推廣到文本編輯視頻上,搞了個新框架TokenFlow。
具體來說,在給定源視頻和目標文本提示的情況下,研究人員的方法能生成與目標文本一致的高質(zhì)量視頻,同時保留輸入視頻的空間布局和動態(tài)效果。
主要方法是通過強制擴散特征空間的一致性,獲得編輯視頻的一致性。
根據(jù)模型中隨時可用的幀間對應關系明確傳播擴散特征,從而實現(xiàn)這一目標。因此新框架不需要任何訓練或微調(diào),可以直接與任何現(xiàn)成的文本到圖像編輯方法相結合來使用,可謂事半功倍。
圖片
同時,團隊還觀察到,視頻的時間一致性水平與其特征表示的時間一致性密切相關,這一點可以從下面的特征可視化圖中看出。
自然視頻的特征具有共享的時間一致性的特點,而當按幀編輯視頻時,這種一致性就會被打破。新方法則能保證編輯后的視頻與原始視頻特征相同的特征一致性。
圖片
在編輯過程中,通過強化跨幀內(nèi)部擴散特征的一致性,可以實現(xiàn)時間上一致的編輯。
為此,研究人員利用原始視頻特征之間的對應關系,跨幀傳播一小部分已編輯的特征。
即:給定輸入視頻I,研究人員通過反轉每一幀,提取標記的方式,使用最近鄰(NN)搜索提取幀間特征對應關系。
在每個去噪步驟中,研究人員會從噪聲視頻J_t中采樣出關鍵幀,并使用擴展注意模塊對其進行聯(lián)合編輯。編輯后的標記集為T_base。
之后,再根據(jù)預先計算的原始視頻特征的對應關系,在整個視頻中擴散經(jīng)過編輯的標記。
為了對J_t進行去噪處理,研究人員會將每一幀輸入網(wǎng)絡,并利用第二步獲得的標記來替換生成的標記。
圖片
下圖是其它的一些定性比較。
RGB傳播只能獲取光流等低層次的線索,因此在內(nèi)容展示或動態(tài)復雜的視頻中會產(chǎn)生視覺假象。
而Text2LIVE則基于CLIP,沒有利用擴散模型的生成先驗,因此在視覺質(zhì)量方面受到更多限制。
當然,這套框架也有一些局限性。
研究人員的方法是根據(jù)原始視頻的特征對應關系來編輯視頻,因此無法處理需要有結構偏差的編輯。
圖片
妙鴨相機
昨天在網(wǎng)上有一款AI生成照片的應用火了——妙鴨相機。
首先在微信中搜索小程序「妙鴨相機」,它是一款用個人照片快速生成數(shù)(mei)字(yan)分(zhao)數(shù)(pian)的應用。
進去以后按照它的要求先傳一張個人照片,檢測合格之后,突然要求上傳20張個人照片!
作為鐵直男,小編從有手機以來應該就沒有存過20張自己的自拍照,于是呢,出任實測模特的重任自然落到了網(wǎng)紅馬老板身上。
在花了10塊錢,等了一個多小時以后,馬老板的「妙鴨相機數(shù)字分身」上線!
圖片
可以用這個數(shù)字分身結合開發(fā)者提供的幾個模板生成各種不同背景和風格的照片,比如:
少年萌版馬斯克
民族服飾女裝馬老板
找工作時的馬斯克
家人們,還在等什么,趕快上手試試吧。