自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

國產(chǎn)動漫視頻AI火了!二次元老婆隨意捏,哥特、夢幻、機甲一鍵get

人工智能
視頻生成賽道又起新秀,而且還是二次元定制版!穩(wěn)定產(chǎn)出電影級畫面,一鍵文/圖生成視頻,即使是「手殘黨」也能復(fù)刻自己喜歡的動漫作品了。

現(xiàn)在,各位二次元萌新們,不用再等「太太」出圖啦!

我們不僅可以自己產(chǎn)糧,而且還是會動的那種。

圖片圖片

圖片圖片

如今,AI視頻生成這個賽道,可謂是殺得如火如荼。這些更新更強的模型,思路和Scaling Law一脈相承,主打一個「又大又全」。

然而出圖效果如何,全靠「抽卡」運氣,更別提真實視頻生成的恐怖谷效應(yīng)、動漫視頻生成的畫風(fēng)突變。

圖片圖片

和大語言模型類似,在應(yīng)用落地上想要全盤通吃的,就很難根據(jù)行業(yè)特征和專屬訴求去進行專注的服務(wù)。

尤其是對于「二刺螈」小編來說,一直以來都沒有找到合適的模型。

畢竟,作為普通動漫愛好者,想要和喜愛的角色同框出鏡,或二創(chuàng),沒有繪畫技能也只能空想。

從腳本構(gòu)思、關(guān)鍵幀繪圖、骨骼綁定到動態(tài)渲染,都需要付出大量的時間和精力。

圖片圖片

來源網(wǎng)絡(luò)

最近,小編發(fā)現(xiàn)了一個專為二次元打造的創(chuàng)作網(wǎng)站「YoYo」——

只需通過文字提示或者上傳圖片等簡單操作,即可一鍵獲得生成高質(zhì)量一致性強的動漫內(nèi)容,讓喜歡的角色栩栩如生地出現(xiàn)在「同人視頻」中了!

圖片圖片

大陸站傳送門:yoyo.avolutionai.com

國際站傳送門:yoyo.art

同人視頻一鍵get

可以看到,YoYo不僅創(chuàng)作界面簡潔,而且操作起來也非常容易上手。

圖片

而且最重要的是,對于動漫愛好者和創(chuàng)作者來說,二次元氛圍沉浸感極強。

不管是提示詞還是圖片,都有著非常豐富的高質(zhì)量素材——幾十個流行人物角色,以及通用、平涂、機甲等各種風(fēng)格,可謂是一站式集齊,讓人直呼過癮。

圖片

這些定制選擇,可以在生成過程中控制角色的設(shè)計、故事走向,甚至是每一個細微的動畫效果。

圖文生動漫

話不多說,先來一波實測。

櫻花飄落、頷首淺笑,再加上精致的的背景和服裝,日漫的氛圍感一下就出來了。

圖片圖片

prompt:穿著和服的女子在開滿印花的庭院

燃燒的蠟燭,火焰般的眼眸,黑色的lolita,詭異的氛圍,拿捏得十分到位。

圖片圖片

prompt:最高品質(zhì),杰作,插圖,超級詳細,(1女性:1.2),及肩長發(fā),哥特服飾,鬧鬼的大廈,拿著蠟燭,詭異

接下來,再看看出色的人物一致性。(白毛控狂喜)

從嫉惡如仇的屠龍少女——

圖片圖片


prompt:1girl ,hair between eyes ,white hair, blue eyes,long hair,no hat,white dress ,elf,pointy ears, fight with a big dragon, sword

到林間散步的青澀女孩——

圖片圖片


prompt:1girl,white hair,elf,blue eyes,long hair,pointy ears,sitting in river,stars,white dress,pink canvas backpack,taking a walk in the forest

亦或是坐在水中的精靈公主——

圖片圖片

prompt:1girl,white hair,elf,blue eyes,long hair,pointy ears,sitting in river,stars,white dress,sitting quietly on the water

順便一提,中英混合的prompt也是可以支持的。

圖片圖片

prompt:1girl,hair between eyes,white hair,blue eyes,long hair,no hat,white dress,elf,pointy ears,瀑布,坐在瀑布下面,雙手合十,閉眼

從上面這些動圖可見,AI還原出了精準而富有表現(xiàn)力的人物表情,讓短短幾秒的視頻充滿了故事感。

頭發(fā)、蒲公英和身上的裙子,一同在隨風(fēng)飄動非常自然。

圖片圖片

prompt:一個紫色長發(fā)的女孩,在長滿蒲公英的草原迎風(fēng)微笑,天空中閃爍極光

落下的雪和杯中的熱氣升騰,即使相互交織在一起也能一眼分清。

圖片圖片

prompt:一個圍著圍巾的短發(fā)女孩,在大雪天喝著熱茶

一臺巨大的「蘿卜」矗立在城市里,林立的高樓描繪出震撼的場景。

圖片圖片

prompt:機甲,無人,獨自,云,武器,科幻,發(fā)光,天空,拿著武器,建筑物,城市

除了人物角色之外,背景的生成也非常有電影鏡頭的感覺。

圖片圖片

prompt:夢幻的森林大陸的鳥瞰全貌,有森林湖泊,有小小的城鎮(zhèn),也有遠遠的高山

圖片圖片

prompt:一個古樸小鎮(zhèn)熱鬧的街市

從此,不論我們腦海有多么奇幻的場景,都可以讓它在動畫中還原出來了!

圖片圖片

prompt:夢幻的森林大陸上的森林,小兔子,小松鼠,五彩的蘑菇

圖片圖片

prompt:一只通體雪白,角生梅花的鹿站在雪山頂峰眺望遠方,身邊發(fā)出微光

畫面一鍵「復(fù)刻」

在「風(fēng)物」這個場景中,我們可以一鍵「復(fù)刻」同好們生成的心儀場景。

圖片圖片

選擇「取材」后,模型根據(jù)同樣的prompt,就生成了類似風(fēng)格的圖。

圖片圖片

接著點「生成視頻」——穿著JK制服的長發(fā)女孩,和彈鋼琴的白色貓貓,這畫面簡直不要太美。

圖片圖片

生成模型

當(dāng)前AI生成的視頻存在兩大技術(shù)缺陷,一是可控性,二是生成速度。

以往的模型大多使用圖像或文本指令作為生成條件,但缺少對視頻中動作的精確、交互式控制。在生成視頻時速度也非常慢,這對于C端應(yīng)用來說也會嚴重影響用戶體驗。

為了解決這些模型缺陷,鹿影團隊長期專注于技術(shù)攻關(guān),并取得了豐碩的成果,發(fā)表了多篇「干貨滿滿」的高水平論文。

Motion-I2V

今年1月剛剛發(fā)表的Motion-I2V論文提出了創(chuàng)新的圖生視頻框架,對于復(fù)雜圖像,也能生成一致且可控的視頻。

圖片圖片

論文地址:https://arxiv.org/abs/2401.15977

之前的方法,例如AnimateDiff架構(gòu),通常會讓模型同時負責(zé)運動建模和視頻生成,直接學(xué)習(xí)從圖像到視頻的映射關(guān)系。

論文提出,這種合二為一的做法會導(dǎo)致細節(jié)上的動作失真和時序不一致。Motion-I2V則選擇解耦這兩個過程。

第一階段使用基于擴散模型的運動場預(yù)測器(motion field predictor),參考給定的圖像和文本提示,專注于像素級的運動軌跡推斷,預(yù)測參考幀和所有未來幀之間的運動場映射。

第二階段則提出了一種新穎的運動增強時序?qū)?,用于增強模型中有限的一維時間注意力。這個操作可以擴大時序感受域,減輕了同時學(xué)習(xí)時空模式的復(fù)雜性。

圖片圖片

有了第一階段軌跡預(yù)測的指導(dǎo),第二階段的模型能更有效地將所給圖像的特征傳播至合成的視頻幀,加上稀疏的軌跡控制網(wǎng)絡(luò)Control-Net,Motion-I2V還可以支持用戶對運動軌跡和運動區(qū)域的精準控制。

與僅依賴文本prompt相比,這種方法為I2V過程提供了更多的可控性。此外,第二階段的模型還天然地支持零樣本生成,以及視頻到視頻的轉(zhuǎn)換。

與現(xiàn)有方法相比,即使在運動幅度較大、視角變化的情況下,Motion-I2V也能生成更一致的視頻。

從demo中可以明顯看出,相比Pika、Gen-2等模型,Motion-I2V的確能模擬出更好的運動形態(tài),視覺細節(jié)也更逼真。

圖片

圖片圖片

AnimateLCM

在文生視頻方面,今年2月發(fā)表的AnimateLCM模型公開了源代碼和預(yù)訓(xùn)練權(quán)重,僅需4個迭代步驟就能生成質(zhì)量優(yōu)秀的動畫,因此受到了開源社區(qū)的廣泛歡迎,僅單月下載量就超過6萬。

圖片圖片

倉庫地址:https://huggingface.co/wangfuyun/AnimateLCM

文章提出,擴散模型的雖然有優(yōu)秀的生成效果,但其中迭代去噪過程包含30~50個步驟,計算量很大且比較費時,因而對實際應(yīng)用造成了限制。

團隊從潛在一致性模型(Latent Consistency Model,LCM)中得到啟發(fā),旨在用最少步驟生成高質(zhì)量的逼真模型。

圖片圖片

論文地址:https://arxiv.org/abs/2402.00769

AnimateLCM沒有直接在原始的視頻數(shù)據(jù)集上進行訓(xùn)練,而是從訓(xùn)練好的Stable Diffusion模型中蒸餾出先驗知識。并且采用了解耦策略,將圖像生成和運動生成的先驗分開,再對圖像模型進行3D膨脹,能夠提高訓(xùn)練效率和生成質(zhì)量。

圖片圖片

此外,為了讓AnimateLCM模型更好地適應(yīng)社區(qū)中被廣泛應(yīng)用的各種適配器(adapter),論文提出了一種不需要額外教師模型的「加速」策略來訓(xùn)練適配器。

實驗證明,這種策略行之有效。搭配圖像條件適配器或布局條件適配器時都有很好的兼容性,不僅沒有損害采樣效率,還實現(xiàn)了模型功能的擴展。

除了文生視頻和圖生視頻,AnimateLCM還能在零樣本情況下進行高效的視頻風(fēng)格遷移,或者用于擴展視頻長度,最多可達到基本長度的4倍,并且實現(xiàn)了近乎完美的一致性。

圖片圖片

Phased Consistency Model

雖然AnimateLCM已經(jīng)取得了很好的效果,但開發(fā)團隊并沒有就此止步,而是選擇在此基礎(chǔ)上進一步探索。

在5月發(fā)表的最新論文中,作者指出,潛在一致性模型依舊存在一些本質(zhì)缺陷。論文逐個調(diào)查了這些缺陷背后的成因,并提出了改進過的階段一致性模型(Phased Consistency Model,PCM),實現(xiàn)了顯著的提升。

圖片圖片

論文地址:https://arxiv.org/abs/2405.18407

CM和LCM的設(shè)計局限主要體現(xiàn)在三方面:

1. 可控性:在圖像和視頻生成中,有一個名為CFG的重要參數(shù)(classifier-free guidance),控制文本提示對生成結(jié)果的影響程度。CFG值越高,圖像或視頻與提示的相關(guān)程度就越高,但也提高了畫面失真的可能性。

Stable Diffusion模型在較大的CFG值范圍內(nèi)(2~15)都能生成出較好的畫面,但LCM可接受的CFG值一般不能超過2,否則就會出現(xiàn)過度曝光問題。

無法提高CFG值,大大限制了文本提示對生成視頻的可控性。此外,LCM對負面提示也非常不敏感,比如下圖的第一個例子中,模型會「明目張膽」地?zé)o視提示要求,偏要生成一只帶黑色毛的狗。

2. 一致性:這兩種模型都只能使用隨機的多步采樣算法,因此即使采用同一個種子開始生成,在推理過程中也能看到各步驟之間明顯的不一致。

圖片圖片

3. 效率:除了上面兩個硬傷之外,作者發(fā)現(xiàn),LCM在少于4步的少步驟推理中無法給出較好的生成結(jié)果,因而限制了采樣效率。

PCM的架構(gòu)設(shè)計就很好地解決了以上三個缺陷:

  • PCM模型支持確定性采樣,能夠保持多個推理步驟中的圖像一致性
  • PCM可以使用LCM中不可用的普通常微分方程求解器,代替原有的CFG增強的求解策略,從而讓模型能夠接受更高的CFG值
  • 在隱空間中引入對抗性損失來確保圖像分布的一致性,大大提升了少步驟推理情況下的生成效果

實施了針對性的解決措施后,PCM在1~4步推理時生成的視頻效果相比LCM有了肉眼可見的顯著優(yōu)化。后續(xù)的消融實驗也證明了PCM這些創(chuàng)新設(shè)計的必要性。

圖片圖片

從MotionI2V到AnimateLCM,再到最新的PCM,鹿影團隊逐步的迭代中不斷尋求突破和提升,實現(xiàn)了PCM的驚艷效果,模型的先進性能從基準測試的得分和橫向?qū)Ρ戎芯涂梢娨话摺?/span>

在單步推理生成圖像時,PCM方法在2個數(shù)據(jù)集、5個指標上幾乎都超過了Stable Diffusion-Turbo的得分,一致性得分的優(yōu)勢更加顯著,從SD-Turbo的0.71提升至0.81。

圖片圖片

當(dāng)推理步驟從第1步逐漸增大到第16步時,這種優(yōu)勢依舊明顯。多數(shù)情況下,使用普通ODE求解方法的更勝一籌。

圖片圖片

使用CLIP分數(shù)、光流估計、CLIP一致性三個指標量化評估視頻生成質(zhì)量時,PCM模型依舊在少步驟推理(≤4步)中取得了明顯的優(yōu)勢,相比其他兩個Diffusion架的構(gòu)基線模型DDIM、DPM以及AnimateLCM都有大幅度提升。

圖片圖片

值得一提的是,鹿影科技的研發(fā)并非一朝一夕之功,他們的技術(shù)創(chuàng)新持續(xù)數(shù)年并不斷迭代。

比如2022年提出的新穎架構(gòu)FlowFormer在當(dāng)時的Sintel光流基準測試中排名第一,2023年發(fā)布的視頻光流估計框架VideoFlow在所有公共基準測試上刷新了SOTA。

圖片圖片

論文地址:https://arxiv.org/abs/2203.16194

圖片圖片

論文地址:https://arxiv.org/abs/2303.08340

MPI Sintel是由華盛頓大學(xué)、佐治亞理工學(xué)院和馬克·普朗克研究所的多名研究人員共同開發(fā)的開源數(shù)據(jù)集,是目前光流算法領(lǐng)域使用最廣泛的基準之一。其中的樣本很好地代表了自然場景和運動,對當(dāng)前的方法極具挑戰(zhàn)性。

在最新的排行榜上,前五名中VideoFlow系列就占據(jù)了三個位置,其中ViCo_VideoFlow_MOF更是排名第一,足可見鹿影團隊的技術(shù)沉淀和硬實力。

圖片圖片

一直以來,我們高喊國漫崛起,但新作品發(fā)展遲緩,始終未能實現(xiàn)真正的突破。

未來,有了AI的入局,會讓動漫制作的現(xiàn)狀和創(chuàng)意,得到極大地改善。

對于鹿影科技,接下來要做的是,讓科研成果迅速轉(zhuǎn)化,讓AI工具幫助原創(chuàng)動漫實現(xiàn)指數(shù)級增長。

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2022-01-10 09:41:27

AI 數(shù)據(jù)人工智能

2020-08-05 19:01:57

谷歌代碼開發(fā)者

2021-01-31 18:28:13

二次元Python開發(fā)

2023-12-25 12:49:09

訓(xùn)練模型

2024-10-08 14:20:21

2018-07-02 17:48:31

視頻

2021-09-22 09:25:38

AI 數(shù)據(jù)人工智能

2020-06-08 10:03:33

視頻AI動畫

2023-11-16 12:39:13

模型數(shù)據(jù)

2023-06-19 09:52:15

谷歌模型

2025-04-01 00:00:22

數(shù)據(jù)場景競品

2024-04-08 14:07:51

Animagine開源

2015-11-09 15:09:11

騰訊嗶哩嗶哩BAT

2024-07-15 12:27:08

2015-02-09 15:25:52

換膚

2023-04-03 10:04:44

開源模型

2020-03-16 09:26:56

開發(fā)技能代碼

2024-01-04 08:32:28

點贊
收藏

51CTO技術(shù)棧公眾號