盤點如何用AI做動畫,還有各種工具等你取用
生成式 AI 已經(jīng)成為互聯(lián)網(wǎng)的一個重要內(nèi)容來源,現(xiàn)在你能看到 AI 生成的文本、代碼、音頻、圖像以及視頻和動畫。今天我們要介紹的文章來自立陶宛博主和動畫師 aulerius,其中按層級介紹和分類了動畫領(lǐng)域使用的生成式 AI 技術(shù),包括簡要介紹、示例、優(yōu)缺點以及相關(guān)工具。
他寫道:「作為一位動畫制作者,我希望一年前就有這樣一份資源,那時候我只能在混亂的互聯(lián)網(wǎng)上自行尋找可能性和不斷出現(xiàn)的進展?!?/span>
本文的目標讀者是任何對這一領(lǐng)域感興趣的人,尤其是不知如何應(yīng)對 AI 領(lǐng)域新技術(shù)發(fā)展的動畫師和創(chuàng)意人士。另需說明,視頻風(fēng)格化雖然也是相關(guān)技術(shù),但本文基本不會涉及這方面。
本文的文章結(jié)構(gòu)。
圖像生成
圖像生成技術(shù)是指使用 AI 模型生成圖像的技術(shù),這些 AI 模型的訓(xùn)練使用了靜態(tài)圖像。
將生成的圖像用作素材
將任意 AI 應(yīng)用生成的靜態(tài)圖像用作 2D 剪貼畫、數(shù)字處理、拼貼等傳統(tǒng)工作流程中的素材,或者用作其它 AI 工具的資源,比如提供給圖像轉(zhuǎn)視頻(image2video)工具來生成視頻。除了作為圖像和素材來源,這類技術(shù)還需依賴剪切和圖像編輯等一些常用技能。
短片《Planets and Robots》中使用了數(shù)字剪貼畫來將生成的 AI 圖像動畫化,其中的配音也是使用 LLM 基于腳本生成的。
優(yōu)點:
- 現(xiàn)有動畫師就很容易上手使用
- 可用于生成背景圖
缺點:
- 生成結(jié)果沒有多少「新意」
- 需要動畫師協(xié)調(diào)處理素材和動畫
免費工具(任何生成圖像模型或應(yīng)用):
- Stable Diffusion(SD,運行在本地計算機上)或這些在線應(yīng)用:Craiyon
- Invokeai (使用了 SD)
- Enfugue (使用了 SD)
- SkyBox AI—— 能生成適用于 VR 的 360 度場景圖
插件和附加組件:
- 在 Blender 中使用的 ComfyUI 節(jié)點
- Krita 上的 Stable Diffusion
- Krita 上的 ComfyUI—— 界面簡單易用,對藝術(shù)家友好
此外,Hugging face space 上還有一些免費的演示:https://huggingface.co/spaces
付費工具(任何生成圖像模型或應(yīng)用):
- MidJourney
- Runway
- DALL?E 2
- Adobe 的 FireFly
注:動畫制作使用的工具包括 After Effects、Moho、Blender……
逐幀生成圖像
這類技術(shù)是以一種相當程度上立足動畫根源的精神來使用生成式擴散圖像模型,其是以逐幀方式生成動作序列,就像是傳統(tǒng)動畫制作的繪制再拍攝過程。其中的一大關(guān)鍵是這些模型在生成每張圖像時沒有時間或運動的概念,而是通過某種機制或各種應(yīng)用或擴展來幫助得到某種程度上的動畫,從而實現(xiàn)所謂的「時間一致性(temporal consistency)」。
這些技術(shù)得到的動畫往往會出現(xiàn)閃爍現(xiàn)象。盡管許多使用這些工具的用戶會努力清理這些閃爍,但動畫師卻會把這視為一種藝術(shù)形式,稱為 boiling。
這方面最常用的是 Stable Diffusion 等開源模型以及基于它們構(gòu)建的工具。用戶可以使用公開的參數(shù)來配置它們,還可以將它們運行在本地計算機上。相較之下,MidJourney 工具的模型沒有公開,而且主要是為圖像生成設(shè)計的,因此無法用來生成逐幀動畫。
動畫也可能使用 Stable WarpFusion 來制作,這其中涉及到圖像轉(zhuǎn)圖像的工作流程,通過一些扭變(置換)將底層的視頻輸入變成動畫。視頻作者:Sagans。
用逐幀圖像來制作動畫通常需要混合使用以下工具:
一步到位的工具(文本轉(zhuǎn)圖像)
有一些新技術(shù)支持直接通過文本 prompt 和參數(shù)調(diào)配來生成動畫:
- 參數(shù)插值(變形)
在每張生成的圖像幀上逐漸進行參數(shù)插值,以得到過渡動畫。這里的參數(shù)可能包括任何與模型相關(guān)的設(shè)定,比如文本 prompt 本身或底層的種子(隱空間游走)。
prompt 編輯法,即通過逐漸改變權(quán)重來創(chuàng)建動畫過渡。這里使用了 Depth ControlNet 來保持手部整體形狀的一致性。
- 圖像到圖像(I2I)反饋循環(huán)
通過圖像到圖像技術(shù),將每張生成的圖像幀作為輸入來生成動畫的下一幀。這樣在其它參數(shù)和種子變化時也可以生成看起來相似的幀序列。這個過程通常由 Deforum 中的「去噪強度」或「強度調(diào)度」來控制。起始幀可以是已有的圖片。
這是大多數(shù)使用 Stable Diffusion 的動畫實現(xiàn)的一個核心組件,而 Stable Diffusion 是下列許多應(yīng)用依賴的技術(shù)。這種技術(shù)很難平衡,并且很大程度上取決于使用的采樣器(噪聲調(diào)度器)。
使用一張起始圖像,然后使用一個稍有不同的 prompt,使其逐幀變化成其它形態(tài)。
- 2D 或 3D 變換(基于 I2I 循環(huán))
逐漸變換每一幀生成圖像,之后再將其作為 I2I 循環(huán)的輸入。2D 變換對應(yīng)于簡單的平移、旋轉(zhuǎn)和縮放。3D 技術(shù)則會想象一個在 3D 空間中移動的虛擬相機,這通常需要估計每幀生成圖像的 3D 深度,然后根據(jù)想象中的相機運動來進行變形處理。
想必你已經(jīng)看過這種無限放大的動畫。它的視覺效果如此之棒,是因為其使用了 SD 來持續(xù)構(gòu)建新細節(jié)。
- 實驗性、運動合成、混合等技術(shù)
運動合成的目標是「想象」后續(xù)生成幀之間的運動流,然后使用這個運動流來逐幀執(zhí)行變形處理,從而基于 I2I 循環(huán)注入有機的運動。這通常需要依賴在視頻的運動估計(光流)上訓(xùn)練的 AI 模型,只不過其關(guān)注的不是后續(xù)視頻幀,而是后續(xù)生成幀(通過 I2I 循環(huán)),或是使用某種混合方法。
其它技術(shù)還包括圖像修復(fù)和變形技術(shù)搭配使用、采用多個處理步驟或甚至捕獲模型訓(xùn)練過程的快照等先進技術(shù)。舉個例子,Deforum 有很多可供用戶調(diào)控的地方。
使用 SD-CN Animation 制作,其使用了一種在生成幀之間產(chǎn)生幻覺運動的獨特方法。起始圖像只是作為起點,沒有其它用途。
變換型技術(shù)(圖像到圖像):
此外還可以使用某個來源的輸入來助力生成的幀和所得的動畫結(jié)果:
- 混合(風(fēng)格化)—— 混合視頻源或 / 和按條件處理(ControlNets)
這類方法范圍很廣,做法是使用輸入視頻來混合和影響生成的序列。這些輸入視頻通常分為多個幀,作用通常是風(fēng)格化現(xiàn)實視頻。在現(xiàn)如今的風(fēng)格化跳舞視頻和表演熱潮中,這類技術(shù)常被用于實現(xiàn)動漫造型和性感體格。但你可以使用任何東西作為輸入,比如你自己動畫的粗略一幀或任何雜亂抽象的錄像。在模仿 pixilation 這種定格動畫技術(shù)和替換動畫技術(shù)方面,這類技術(shù)有廣泛的可能性。
在每一幀,輸入幀要么可以直接與生成圖像混合,然后再輸入回每個 I2I 循環(huán),要么可以采用更高級的設(shè)定附加條件的做法,比如 ControlNet。
Deforum 搭配 ControlNet 條件化處理的混合模式,左圖是原視頻。遮掩和背景模糊是分開執(zhí)行的,與這項技術(shù)無關(guān)。
- 光流變形(使用視頻輸入在 I2I 循環(huán)上執(zhí)行)
「光流」是指視頻中估計的運動,可通過每一幀上的運動向量表示,其指示了屏幕空間中每個像素的運動情況。當估計出變形工作流程中的源視頻的光流后,就可以根據(jù)它對生成的幀執(zhí)行變形,使得生成的紋理在對象或相機移動時也能「粘黏」在對象上。
Deforum 的混合模式支持這種技術(shù)搭配各種設(shè)置使用。為了得到閃動更少的結(jié)果,也會增加 cadence,使得變形的效果更好。遮掩和背景模糊是分開執(zhí)行的,與這項技術(shù)無關(guān)。
- 3D 衍變
通過變形工作流程完成的條件處理也可能直接關(guān)聯(lián) 3D 數(shù)據(jù),這可以跳過一個可能造成模糊的環(huán)節(jié),直接在視頻幀上完成處理。
舉個例子,可以直接通過虛擬 3D 場景提供 openpose 或深度數(shù)據(jù),而不是通過視頻(或經(jīng)過 CG 渲染的視頻)估計這些數(shù)據(jù)。這允許采用最模塊化和最可控的 3D 原生方法;尤其是組合了有助于時間一致性的方法時,效果更佳。
這可能是現(xiàn)有技術(shù)與用于 VFX 的 AI 技術(shù)之間最有潛力的交叉領(lǐng)域,如下視頻所示:https://youtu.be/lFE8yI4i0Yw?si=-a-GvsaIVPrdaQKm
有一個廣泛應(yīng)用的工具也使用了該技術(shù),其可簡化并自動化用 Blender 生成直接適用于 ControlNet 的角色圖像的過程。在這個示例中,ControlNet 使用手部骨架來生成 openpose、深度和法線貼圖圖像,最終得到最右側(cè)的 SD 結(jié)果。(openpose 最終被舍棄了,因為事實證明它不適用于只有手部的情況。)
將所有這些技術(shù)結(jié)合起來,似乎有無盡的參數(shù)可以調(diào)整動畫的生成結(jié)果(就像模塊化的音頻制作)。它要么可以通過關(guān)鍵幀進行「調(diào)度」并使用 Parseq 這樣的工具繪制圖形,要么可以與音頻和音樂關(guān)聯(lián),得到許多隨音頻變化的動畫。只需如此,你就能使用 Stable Diffusion 幫你跳舞了。
優(yōu)點:
- 全新且不斷演變的美學(xué)風(fēng)格,這是這種媒體形式特有的。
- 在概念上與傳統(tǒng)的動畫技術(shù)有共同點。
- 最容易定制化、最實用且易于指導(dǎo)。
- 模塊化、分層的方法。
缺點:
- 往往會有閃動問題,有時候會顯得很混亂。
- 技術(shù)方面要考慮的東西很多,難以平衡考慮,要想成為高手必須經(jīng)歷陡峭的學(xué)習(xí)曲線。
- 如果沒有性能卓越的本地硬件(英偉達 GPU),就會很不方便。
免費工具:
可在 A1111 webui 中使用的工具:
- 用于參數(shù)插值動畫(travel)的小腳本:步驟(https://github.com/vladmandic/sd-extension-steps-animation) 、prompt(https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel )、種子(https://github.com/yownas/seed_travel)。
- Deforum—— 能夠滿足各種動畫 SD 需求的最佳工房,整合了上面大多數(shù)技術(shù)。
- Parseq—— 用于 Deforum 的常用視覺參數(shù)排序工具。
- Deforum timeline helper—— 另一款參數(shù)可視化和調(diào)度工具。
- Deforumation—— 用于實時控制 Deforum 參數(shù)的 GUI,支持反應(yīng)性調(diào)整和控制。
- TemporalKit—— 采用了 EBsynth 的一些原則,可與 SD 搭配使用實現(xiàn)一致的視頻風(fēng)格化。
- SD-CN Animation—— 這多少還是個實驗性工具,支持一些混合風(fēng)格化工作流程,也支持有趣的光流運動合成(這會導(dǎo)致運動抖動)。
- TemporalNet——ControlNet 模型可以用在 Deforum 等其它工作流程中,目標是提升時間一致性。Python 筆記本(需要在 Google Colab 或 Jupyter 上運行)。
- Stable WarpFusion —— 實驗性的代碼工具包,目標是執(zhí)行高級的視頻風(fēng)格化和動畫。與 Deforum 有很多一樣的功能。
插件和附加組件:
- 用于 Blender 的 Dream Textures
- Stabiliy AI 的 Blender 插件
- 看起來像用于 Blender 的 Openpose 的角色骨架 —— 可在 Blender 之外使用 ControlNet
- 用于虛幻引擎 5 的 Unreal Diffusion
- 用于 After Effects 的 After-Diffusion(目前還在開發(fā)中)
- 用于 TouchDesigner 的 A1111 或 ComfyUI API—— 如果你知道如何操作,那么這可用于執(zhí)行動畫等各種任務(wù)
付費工具:
(通常也依賴于 SD,但運行在「云」上,用起來也更簡單):
- Stability AI 的動畫 API
- Kaiber 的 Flipbook 模式 —— 按照描述,基于 Deforum 代碼
插件和附加組件:
- 用于 After Effects 的 Diffusae
市面上還有許多應(yīng)用和工具,但如果是付費工具,多半是基于開源的 Deforum 代碼。
注:最好的情況是你有足夠的優(yōu)良硬件(即 GPU)在本地運行這些工具。如果沒有,你也可以嘗試運行在遠程計算機上的、功能有限的免費服務(wù),比如 Google Colab。不過,Google Colab 上的筆記本也可以運行在本地硬件上。
視頻生成技術(shù)
這類技術(shù)使用在運動視頻上訓(xùn)練的視頻生成 AI 模型,另外可以在神經(jīng)網(wǎng)絡(luò)層面上使用時間壓縮來增強。
目前,這些模型有一個共同特征是它們僅能處理時間很短的視頻片段(幾秒),并受到 GPU 上可用視頻內(nèi)存的限制。但是,這方面的發(fā)展速度很快,并且可以用一些方法將多個生成結(jié)果拼接成更長的視頻。
視頻生成模型
這是指使用從頭構(gòu)建和訓(xùn)練的模型來處理視頻。
現(xiàn)今的這類模型得到的結(jié)果往往晃動很大、有明顯的 AI 痕跡、顯得古怪。就像是很久之前生成圖像的 AI 模型一樣。這個領(lǐng)域的發(fā)展落后一些,但進展很快,我個人認為在靜態(tài)圖像生成上取得的進展并不會同等比例地在視頻生成方面重現(xiàn),因為視頻生成的難度要大得多。
Paul Trillo 使用 Runway 的 Gen-2,僅通過圖像和文本 prompt 讓 AI 生成的視頻。
我認為在這方面,動畫和傳統(tǒng)電影之間的界限很模糊。只要其結(jié)果還與現(xiàn)實有差異,那么我們就可以在一定程度上把它們看作是動畫和視頻藝術(shù)的一種怪異新流派。就目前而言,我認為大家還是別想著用這類技術(shù)做真實風(fēng)格的電影了,只把它視為一種新形式的實驗媒體即可。玩得開心哦!
一步到位的工具(文本轉(zhuǎn)視頻):使用文本 prompt 生成全新的視頻片段
理論上講,這類技術(shù)有無限可能性 —— 只要你能將其描述出來(就像靜態(tài)圖像生成那樣),就可能將其用于直播表演或生成任何超現(xiàn)實和風(fēng)格化的內(nèi)容。但從實踐角度看,為了訓(xùn)練視頻模型,收集多樣化和足夠大的數(shù)據(jù)集要難得多,因此僅靠文本來設(shè)定生成條件,很難用這些模型實現(xiàn)利基(niche)的美學(xué)風(fēng)格。
使用這種方法,只能很寬松地控制創(chuàng)意工作。當與圖像或視頻條件化處理(即變形工作流程)組合使用時,這種技術(shù)就會強大得多。
Kyle Wiggers 做的動畫生成測試,使用了 Runway 的 Gen-2
變形:使用文本 prompt,再根據(jù)已有的圖像或視頻進行進一步的條件化處理
- 圖像到視頻生成
很多視頻生成工具都能讓你以圖像為條件生成視頻。其做法可以是完全從你指定的圖像開始生成,也可以將指定圖像用作語義信息、構(gòu)圖和顏色的粗略參考。
人們經(jīng)常會使用傳統(tǒng)的靜態(tài)圖像模型生成起始圖像,然后再將其輸入視頻模型。
這里生成的每一段視頻都是使用一張唱片封面作為起始圖像,作者:Stable Reel
- 視頻到視頻生成
類似于圖像生成模型中的圖像到圖像過程,也有可能將輸入視頻的信息嵌入到視頻模型中,再加上文本 prompt,讓其生成(去噪)輸出。
我并不理解這其中的具體過程,但似乎這個過程不僅能在逐幀層面上匹配輸入視頻片段(如同使用 Stable Diffusion 進行風(fēng)格化處理),而且能在整體和運動層面上匹配。和圖像到圖像生成過程一樣,這個過程受去噪強度控制。
如果運氣好并且有合適的 prompt,你也可以輸入視頻來「啟發(fā)」模型重新想象源視頻中的運動,并以完全不同的形式將其呈現(xiàn)出來。使用 webui txt2vid 中的 Zeroscope 完成,使用了 vid2vid 模式。
優(yōu)點:
- 這類技術(shù)具有最大的可能性,并且會隨時間不斷改進。
- 在專業(yè)動畫知識方面沒有進入門檻。
- 相比于逐幀的技術(shù),這類技術(shù)的結(jié)果往往更加平滑,通常也更為一致。
- 對于「變形」工作流程而言,這可能是比逐幀方法更簡單直接的方法。
缺點:
- 得到的結(jié)果通常顯得離奇怪異,一看就是 AI 生成的,而且這種情況比靜態(tài)圖像嚴重多了。在涉及人的仿真實影像方面尤其明顯。
- 計算成本高。相比于圖像 AI,更難以在本地硬件上運行。
- 存在視頻時長短和上下文短等限制(目前而言)。
免費工具:
- Stable Video (SVD)—— 來自 StabilityAI 的開源視頻擴散模型。目前很多托管式應(yīng)用和工具都在快速部署實現(xiàn)該模型。
- SVD ComfyUI 實現(xiàn)
- SVD 時間 ControlNet
- MotionCtrl—— 經(jīng)過增強,允許在各種視頻模型中控制目標運動和攝像機軌跡。
- Emu Video——Meta 的視頻生成模型的預(yù)覽演示。
- A1111 webui 的文本轉(zhuǎn)視頻插件,可搭配以下模型使用(如果你的硬件足夠):
- VideoCrafter
- Zeroscope
插件和附加組件:
- 用于 Blender 的 Pallaidium—— 一個多功能工具包,包含跨圖像、視頻甚至音頻領(lǐng)域的生成功能。
- 此外,你還能在 Hugging face space 上找到一些免費演示。
付費工具(有試用版):
- Runway 的 Gen2
- Kaiber 的 Motion 模式
- Pika labs(受限 beta 版)
注:最好的情況是你有足夠的優(yōu)良硬件(即 GPU)在本地運行這些工具。如果沒有,你也可以嘗試運行在遠程計算機上的、功能有限的免費服務(wù),比如 Google Colab,不過大多數(shù)免費或試用服務(wù)的功能都有限。
使用運動壓縮增強的圖像模型
隨著 AnimateDiff 的日益流行,出現(xiàn)了一個使用視頻或「運動」壓縮來增強已有圖像擴散模型的新興領(lǐng)域。相比于使用逐幀技術(shù)生成的結(jié)果,其生成的結(jié)果更相近于原生視頻模型(如上面介紹的)。這種技術(shù)的優(yōu)勢是你還可以使用為 Stable Diffusion 等圖像模型構(gòu)建的工具,如社區(qū)創(chuàng)建的任何檢查點模型、LoRA、ControlNet 以及其它條件化處理工具。
你甚至有可能通過 ControlNet 提供視頻條件化處理,就像是使用逐幀技術(shù)一樣。社區(qū)仍在積極實驗這一技術(shù)。可用的技術(shù)有的來自靜態(tài)圖像模型(比如 prompt 遍歷),也有的來自視頻原生模型。
如下視頻為使用 ComfyUI 中 AnimateDiff 完成的動畫,過程使用了多個不同的 prompt 主題。
視頻鏈接:https://www.instagram.com/p/Cx-iecPusza/?utm_source=ig_embed&utm_campaign=embed_video_watch_again
這種技術(shù)中的運動本身通常非常原始,只是在視頻片段中松散地插入對象和流,這往往會將事物變形成其它模樣。不過,這種技術(shù)有更好的時間一致性,而且仍處于起步階段。當場景很抽象,沒有具體物體時,這種方法能得到最好的結(jié)果。
優(yōu)點:
- 可以受益于現(xiàn)有圖像擴散模型的進展。
- 可以通過去噪或使用 ControlNet 用視頻來進行條件化處理。
- 處理抽象、流運動效果很好。
缺點:
- 難以為人物或不常見的物體產(chǎn)生復(fù)雜、連貫一致的運動,反而常出現(xiàn)變形問題。
- 和視頻原生模型一樣,計算成本高。相比于圖像 AI,更難以在本地硬件上運行。
- 受限于較短的上下文窗口(目前而言),但也有一些人正在實驗解決方案。
免費工具:
目前,AnimateDiff (SD v1.5) 的實現(xiàn)一馬當先:
- 用于 AnimateDiff 的 A1111 webui 插件
- ComfyUI 中 AnimateDiff 實現(xiàn)
- VisionCrafter—— 一個用于 AnimateDiff 實現(xiàn)等項目的 GUI 工具
- 用于 SD XL:Hotshot-XL
- 多功能實現(xiàn):Enfugue
付費工具:
- 目前好像沒有
整合語音合成的人臉動畫
大家都知道,這是一個流行迷因背后的技術(shù)。你可能看過一個相對靜止的人物(相機可能在移動)只有臉動著說話,這多半是用到了 AI 人臉動畫化和語音合成工具的組合方法。
這其中組合了多個技術(shù)步驟和組件。其源圖像多半是使用圖像生成 AI 制作的,但也可以使用任何帶有人臉的圖像。語音是根據(jù)文本生成的,并根據(jù)所選任務(wù)的音色進行了條件化處理。然后再使用另一個工具(或工具包中的某個模型)合成與音頻唇形同步的人臉動畫 —— 通常只生成圖像中臉部和頭部區(qū)域的運動。使用預(yù)訓(xùn)練的數(shù)字化身也能讓身體動起來。
優(yōu)點:
- 可用于輕松制作迷因動圖。
- …… 呃,有喜劇效果?
缺點:
- 通??雌饋聿蛔匀弧N疫€想不出這能有什么實際用途。
- 過于依賴付費應(yīng)用提供的閉源人臉動畫工具。
- 即使你使用自己的錄像來訓(xùn)練數(shù)字化身,得到的結(jié)果也過于呆板,動態(tài)效果很差。
免費工具:
- ElevenLabs—— 有使用次數(shù)限制,但次數(shù)似乎每個月都會刷新。
- A1111 WebUI 的 Wav2Lip 插件 —— 用于生成唇形同步動畫的工具??雌饋韮H限于嘴部區(qū)域。
你也可以在網(wǎng)上直接搜索文本轉(zhuǎn)語音服務(wù),不可勝計,但效果多半趕不上 ElevenLabs。
至于全臉動畫化,就我所知,目前僅有一些付費應(yīng)用提供了試用版,而且使用很受限。
付費工具(有試用版):
人臉動畫制作(通常會搭配語音合成):
- D-ID
- Heygen
- Synesthesia
搜索「D-ID 替代品」就能找到很多。
生成三維的人物運動
這是指為 3D 人物合成運動的技術(shù)。這類技術(shù)可以應(yīng)用于 3D 動畫電影、視頻游戲或其它 3D 交互應(yīng)用。正如圖像和視頻領(lǐng)域一樣,新興的 AI 工具讓人可通過文本來描述人物的運動。此外,一些工具還能根據(jù)很少的關(guān)鍵姿勢來構(gòu)建運動或者在交互環(huán)境中實時動態(tài)地生成動畫。
Nikita 的充滿天才巧思的元人工智能電影預(yù)告片,其中將 AI 的運動學(xué)習(xí)過程展現(xiàn)成了一部滑稽幽默的有趣短片。
由于本文的關(guān)注重點是生成工具,因此沒有包含自動化某些非創(chuàng)意任務(wù)的 AI 應(yīng)用,比如 AI 驅(qū)動的運動跟蹤、合成、打碼等,例子包括 Move.ai 和 Wonder Dynamics。
優(yōu)點:
- 能整合進現(xiàn)有的 3D 動畫制作流程中,可減少重復(fù)性任務(wù),有望成為動畫老手的好幫手。
- 能很好地處理物理效果和重量。
- 在未來的視頻游戲中實現(xiàn)動態(tài)的人物動畫?
缺點:
- 似乎受限于人類形態(tài)的雙足式人物。
- 還需要其它工具輔助。只是 3D 動畫制作流程的一個組件。你需要知道接下來該做什么。
- 訓(xùn)練過程通?;谌祟愡\動數(shù)據(jù),這意味著到目前為止這些工具只能實現(xiàn)基于真實物理效果的運動,無法實現(xiàn)風(fēng)格化或卡通中的運動機制。
免費工具(或可免費使用部分功能的服務(wù)):
- Mootion
- Omni Animation
- Cascadeur—— 動畫制作助理,可以根據(jù)最小化的輸入創(chuàng)建平滑的、基于物理機制的動畫和姿勢??煽匦愿?,可能會成為未來一個主力工具。
- ComfyUI 中的 MDM、MotionDiffuse 和 ReMoDiffuse 實現(xiàn)。
付費工具:
- 免費工具的付費套餐會提供更多功能,使用限制也更少。
LLM 驅(qū)動的工具
從理論上講,由于大型語言模型(LLM)在編程任務(wù)上表現(xiàn)出色,尤其是經(jīng)過微調(diào)之后,那么我們就可以在制作動畫的軟件中讓其編程和編寫腳本。這就意味著按照常規(guī)工作流程制作動畫時,能讓 AI 從頭到尾一直輔助。極端情況下,AI 能幫你完成一切工作,同時還能為后端流程分配適當?shù)娜蝿?wù)。
在實踐中,你也能嘗試這么做了!舉個例子,Blender 配備了非常廣泛的 Python API,允許通過代碼操作該工具,因此現(xiàn)在已經(jīng)有幾個類似 ChatGPT 的輔助工具可用了。這個趨勢不可避免。只要有代碼,LLM 多半就會有用武之地。
優(yōu)點:
- 潛力 —— 最終突破創(chuàng)意工作者面臨的任何技術(shù)障礙。
- 可用作創(chuàng)意軟件的助理,消除繁瑣重復(fù)的任務(wù),幫你深度挖掘文檔內(nèi)容。
缺點:
- 如果 AI 能幫你創(chuàng)造一切,那么成為創(chuàng)意工作者還有什么意義?
- 目前,LLM 只能運行在強大的遠程計算機上,通常是按 token 數(shù)收費或采用訂閱制。
免費工具:
- Blender Chat Companion——(類似于 Blender Copilot)Blender 中的一個 ChatGPT 實現(xiàn),專用于處理適當?shù)娜蝿?wù)。使用了 ChatGPT API,這需要付費。
付費工具:
- Genmo—— 承諾會實現(xiàn)「創(chuàng)意通用智能」,采用了多步過程并且全都可以通過聊天界面控制。
- Blender Copilot——(類似于 Blender Chat Companion)Blender 中的一個 ChatGPT 實現(xiàn),專用于處理適當?shù)娜蝿?wù)。使用了 ChatGPT API,這需要付費。
注:還有一個即將推出的 ChatUSD—— 這是一個可以操作和管理 USD 的聊天機器人,這是由皮克斯最初創(chuàng)建的標準,用以統(tǒng)一和簡化動畫電影制作中的 3D 數(shù)據(jù)交換和并行化。目前沒有更多相關(guān)消息了,但英偉達似乎很歡迎這項標準并在推動其成為各種 3D 內(nèi)容的標準,而不只是電影。
終于完結(jié)了!內(nèi)容很多,但我多半還是遺漏了一些東西。