自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vxiee"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

騰訊又整活！一句話讓圖片變動(dòng)漫主角！

原創(chuàng) 精選

作者：徐杰承 2023-12-13 21:50:59

11月底 AI 文生視頻工具 Pika 1.0 橫空出世、風(fēng)頭一時(shí)無兩，日前斯坦福大學(xué) AI 科學(xué)家李飛飛團(tuán)隊(duì)聯(lián)合谷歌推出AI 視頻生成模型 W.A.L.T（Window Attention ）繼續(xù)炸圈，近日，騰訊團(tuán)隊(duì)帶著新作品來炸場了！

撰稿 | 清竹

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

2023年底，AI圈似乎已經(jīng)被“文生視頻”模型攻占了！

11月底 AI 文生視頻工具 Pika 1.0 橫空出世、風(fēng)頭一時(shí)無兩，日前斯坦福大學(xué) AI 科學(xué)家李飛飛團(tuán)隊(duì)聯(lián)合谷歌推出AI 視頻生成模型 W.A.L.T（Window Attention ）繼續(xù)炸圈，近日，騰訊團(tuán)隊(duì)帶著新作品來炸場了！

1、吊打黑馬AnimateDiff，實(shí)力碾壓

AnimateZero 是騰訊AI團(tuán)隊(duì)發(fā)布的一款視頻生成模型，它通過改進(jìn)預(yù)訓(xùn)練的視頻擴(kuò)散模型（Video Diffusion Models），將視頻生成當(dāng)作一種零樣本的圖像動(dòng)畫問題，能夠更精確地控制視頻的外觀和運(yùn)動(dòng)。

據(jù)介紹，該模型的效果秒殺 Animatediff，并且能夠更好地兼容現(xiàn)有的SD生態(tài)?？谡f無憑，先來看看 AnimateZero 生成的視頻效果如何？

AnimateZero 展示了在多個(gè) T2I 模型上生成的個(gè)性化視頻。

比如由動(dòng)漫人物的圖片生成的視頻，人物動(dòng)作流暢，還融入了眼睛變色、頭發(fā)蓬蓬的小細(xì)節(jié)：

再看看自然景觀的生成，沙灘上浪花的涌動(dòng)、煙花的絢爛綻放、閃電襲來的氛圍感，都有種身臨其境的感覺。

AnimateZero 還演示了一種通過插入文本嵌入來控制視頻的動(dòng)態(tài)效果：由圖像生成視頻后，再增加如“快樂+微笑”、“憤怒而嚴(yán)肅”、“張開嘴”、“非常悲傷”等文本，視頻人物就能呈現(xiàn)對應(yīng)的情緒和動(dòng)作。

除了在現(xiàn)有模型上生成個(gè)性化視頻，AnimateZero 是如何“秒殺”AnimateDiff 的？

AnimateZero 方面表示， AnimateDiff （AD）的一種常見用途是協(xié)助 ControlNet (CN) 進(jìn)行視頻編輯，但它仍然存在域間隙問題。AnimateZero （AZ）在這方面具有明顯的優(yōu)勢，即生成主觀質(zhì)量更高、與給定文本提示匹配度更高的視頻。

AnimateZero 官方也給出了視頻效果對比：根據(jù)原視頻生成在熔巖中游泳的女孩，AnimateDiff 的視頻畫面比較模糊，熔巖的效果幾乎看不出來，對比之下，AnimateZero 的視頻無論是與文本的契合度還是畫面的美感，明顯優(yōu)于AnimateDiff。

如果要將原視頻中的黑色汽車變成紅色呢？效果也顯而易見：

再來看看要求將原視頻變成在森林的草地上奔跑的小女孩，AnimateDiff生成的視頻既沒有呈現(xiàn)森林也沒有看到草地，只是在背景墻和小女孩的頭發(fā)上呈現(xiàn)一些綠色，這顯然不符合要求；而AnimateZero的效果就好多了，和主題詞完美契合。

2、AnimateZero 到底強(qiáng)在哪？

AnimateZero是一種基于視頻擴(kuò)散模型的零樣本圖像動(dòng)畫生成器。傳統(tǒng)的視頻擴(kuò)散模型（VDM）存在以下幾個(gè)問題：

黑匣子：生成過程不透明
低效且不可控：要獲得滿意的結(jié)果，需要大量的試錯(cuò)
域差距：受訓(xùn)練期間使用的視頻數(shù)據(jù)集的域限制

AnimateZero 利用一種分步生成視頻的方法，將外觀和運(yùn)動(dòng)過程解耦，解決了傳統(tǒng)文本到視頻（T2V）擴(kuò)散模型缺乏精確控制的問題。通過零樣本修改，還能將T2V模型轉(zhuǎn)換為I2V模型，使其成為零樣本圖像動(dòng)畫生成器。

解耦：視頻生成過程解耦為外觀（T2I）和運(yùn)動(dòng)過程（I2V）
高效可控：T2I 生成相比 T2V 更加可控、高效，在 I2V 生成視頻之前可以獲得滿意的圖像
緩解域差距問題：可以微調(diào) T2I 模型的域以與實(shí)際域保持一致，這比調(diào)整整個(gè)視頻模型更有效

傳統(tǒng)視頻擴(kuò)散模型（a) 和 AnimateZero 視頻生成模型 (b) 的對比

除了本身的創(chuàng)新之外，相比AnimateDiff，AnimateZero 有哪些優(yōu)勢呢？

更高的一致性：在文本描述與生成視頻之間，以及T2I（文本到圖像）域與生成視頻之間，AnimateZero展示了更高的一致性。
多樣化應(yīng)用：相比于AnimateDiff，AnimateZero支持更廣泛的個(gè)性化圖像域，并且能夠在不同風(fēng)格（如真實(shí)風(fēng)格、動(dòng)漫風(fēng)格）中表現(xiàn)更好。
更強(qiáng)的動(dòng)畫效果：在動(dòng)畫質(zhì)量和風(fēng)格一致性方面，AnimateZero優(yōu)于AnimateDiff，尤其在處理復(fù)雜運(yùn)動(dòng)和不常見對象時(shí)表現(xiàn)出更好的性能。

再完美的模型也會(huì)有它的局限性，AnimateZero的性能受限于其基礎(chǔ)模型AnimateDiff的運(yùn)動(dòng)先驗(yàn)。對于一些復(fù)雜運(yùn)動(dòng)（如體育運(yùn)動(dòng)）或不常見對象的動(dòng)畫，AnimateZero的表現(xiàn)可能不盡如人意。另外由于AnimateZero是基于AnimateDiff的改進(jìn)，因此其性能和應(yīng)用范圍受到基礎(chǔ)模型的限制。

3、AI視頻生成模型大爆發(fā)

1年以前，ChatGPT 以迅雷不及掩耳之勢席卷全球，為文本創(chuàng)作領(lǐng)域帶來重大的變革；一年后，文生視頻賽道已成爆發(fā)態(tài)勢，國內(nèi)外的玩家都紛紛“開卷”。

先看國外的科技巨頭：

11 月 3 日，Runway 宣布其 AI 視頻生成工具 Gen-2 更新，一周后，Runway 又發(fā)布運(yùn)動(dòng)畫筆功能，強(qiáng)化視頻局部編輯能力；

11 月 16 日，科技巨頭 Meta 推出了文生視頻模型 Emu Video，首先生成以文本為條件的圖像，然后生成以文本和生成的圖像為條件的視頻。

Stability AI 當(dāng)然也毫不示弱。11 月 29 日，Stability AI 推出了名為 Stable Video Diffusion 的視頻生成模型，提供 SVD 和 SVD-XT 兩個(gè)模型。

更有最近火爆出圈的 AI 創(chuàng)企 Pika Labs 推出網(wǎng)頁版 Pika 1.0，直接甩出體驗(yàn)鏈接引爆市場。

國內(nèi)方面，11月12日，中國科學(xué)院等機(jī)構(gòu)的研究者11 月 21 日提出了一個(gè)無需訓(xùn)練的文本生成視頻框架 GPT4Motion；11 月 18 日，字節(jié)跳動(dòng)推出了文生視頻模型 PixelDance，提出了基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的視頻生成方法，使得視頻生成的動(dòng)態(tài)性更強(qiáng)；12月1日，阿里的研究團(tuán)隊(duì)提出新框架 Animate Anyone，支持從靜態(tài)圖像 AI 生成動(dòng)態(tài)視頻；12月5日，美圖公司發(fā)布的 AI 視覺大模型 MiracleVision 的 4.0 版本，主打設(shè)計(jì)和視頻能力。

4、紛紛加碼，“開卷”背后有何玄機(jī)？

那么，AI視頻生成的技術(shù)和產(chǎn)品加速爆發(fā)，背后說明了什么？

從技術(shù)層面來看，文生圖和文生視頻的人工智能模型有較高相似性，文生圖的技術(shù)和經(jīng)驗(yàn)可供文生視頻加以運(yùn)用和參考是一個(gè)重要原因。

從市場情緒來看，近日95后女生以4人團(tuán)隊(duì)打造Pika Labs，快速出圈刷屏，成立半年就獲得5500萬美元融資，估值2億美元。緊接著，也在A股上演了“父憑女貴”的戲碼，其父親所在的上市公司在這款工具爆火后連續(xù)收獲3個(gè)漲停。可見文生視頻領(lǐng)域的吸金能力空前巨大。

此外，國內(nèi)頭部企業(yè)的技術(shù)積累已經(jīng)具備條件。湖南大學(xué)信息科學(xué)與工程學(xué)院博士生導(dǎo)師、教授張大方分析稱，文生視頻的人工智能模型參數(shù)為10億級(jí)別至100億級(jí)別，國內(nèi)頭部企業(yè)已能熟練掌握上述技術(shù)。在加快改進(jìn)模型、清洗學(xué)習(xí)數(shù)據(jù)、調(diào)整操作界面、優(yōu)化內(nèi)部參數(shù)的共同推動(dòng)下，文生視頻技術(shù)已逐步克服諸多不足，并快速進(jìn)入商業(yè)化應(yīng)用。

同時(shí)，從應(yīng)用角度方面來看，AI生成視頻的前景毋庸置疑，影視、游戲以及廣告等領(lǐng)域都是其落地的重要場景。艾媒咨詢CEO兼首席分析師張毅表示：“個(gè)性化的視頻制作更麻煩、成本更高，甚至超出了雇用程序員編程。不少行業(yè)都渴望有一款簡單的視頻生成工具?！?/p>

根據(jù)月狐iAPP統(tǒng)計(jì)的數(shù)據(jù)，從2022年Q2到今年6月，在移動(dòng)互聯(lián)網(wǎng)的所有類別的APP中，短視頻的使用時(shí)長占比均高達(dá)30%以上，為所有類別中最高。這樣的需求，也一定程度表明在視頻制作領(lǐng)域蘊(yùn)含著一個(gè)巨大增量的“蓄水池”。

客觀來看，雖然各大廠商企業(yè)競相加碼，但相關(guān)應(yīng)用的優(yōu)化迭代速度和商業(yè)化進(jìn)程都較慢，大公司與初創(chuàng)團(tuán)隊(duì)勢均力敵，文生視頻應(yīng)用的潛力還沒有徹底被開發(fā)。如何找到視頻生成時(shí)長、效果、成本之間的平衡點(diǎn)，這依舊需要在各自不斷的實(shí)踐中尋求最優(yōu)解。

參考鏈接：

https://vvictoryuki.github.io/animatezero.github.io/

https://www.chinaz.com/2023/1212/1582268.shtml

https://baijiahao.baidu.com/s?id=1785065486791669561&wfr=spider&for=pc

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

騰訊 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="darau"></p>

<style id="darau"></style>

<strong id="darau"><track id="darau"></track></strong>

^{<thead id="darau"></thead>}