自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strong id="ctjru"><ruby id="ctjru"><span id="ctjru"></span></ruby></strong>

<bdo id="ctjru"></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

兵馬俑跳《科目三》，是我萬(wàn)萬(wàn)沒(méi)想到的

作者：量子位 2024-01-04 12:33:17

問(wèn)下一個(gè)ChatGPT會(huì)從哪個(gè)賽道來(lái)？AI視頻生成，就是自帶鼓風(fēng)機(jī)的那一個(gè)，而在這個(gè)賽道里，阿里已經(jīng)搶占了先機(jī)。

家人們，火爆全球的魔性舞蹈《科目三》，誰(shuí)能料到，就連兵馬俑也開(kāi)始跳上了！

圖片

熱度還居高不下，瞬間被轟上了熱搜，小伙伴們紛紛驚掉了下巴表示“聞所未聞，見(jiàn)所未見(jiàn)”。

圖片

這到底是怎么一回事？

原來(lái)，是有人借助了阿里之前走紅的AI技術(shù)——AnimateAnyone，生成出來(lái)了這個(gè)舞蹈片段。

技術(shù)圈的盆友對(duì)這個(gè)技術(shù)都不陌生，“出道”至今僅僅1個(gè)月時(shí)間，這個(gè)項(xiàng)目便已經(jīng)在GitHub上斬獲了超1.1萬(wàn)個(gè)star。

呼喚它能讓更多人輕松上手體驗(yàn)的聲音，也越來(lái)越多。

圖片

好消息是，現(xiàn)在AnimateAnyone已經(jīng)可以免費(fèi)體驗(yàn)了！

而且“入口”還直接被嵌進(jìn)了阿里通義千問(wèn)APP——名曰：通義舞王。

很快，各種效果、各種玩法、各種人物，都動(dòng)了起來(lái)……例如微博網(wǎng)友“Simon_阿文”，讓拿破侖表演了一把……

圖片

這標(biāo)致的舞姿，這反差的形象，著實(shí)算是把腦洞給打開(kāi)了。

也有不少網(wǎng)友換了個(gè)思路：

想用自己照片試試；以后投宅舞視頻可以直接生成了。

圖片

所以效果究竟行不行，我們也忍不住實(shí)測(cè)了一波~

讓貝佐斯舞一段《極樂(lè)凈土》

打開(kāi)通義千問(wèn)APP，我們只需要點(diǎn)擊對(duì)話框中的“一張照片來(lái)跳舞”：

圖片

或者在輸入框內(nèi)敲“通義舞王”或“全民舞王”等關(guān)鍵詞，就可以跳轉(zhuǎn)到相應(yīng)界面了：

圖片

接下來(lái)的操作，也正如我們剛才所說(shuō)：極、其、簡(jiǎn)、單。

首先，在眾多已經(jīng)提供的模板中，pick一個(gè)。

圖片

目前通義千問(wèn)APP提供了12個(gè)模板，這次我們就選擇二次元最?lèi)?ài)、宅舞《極樂(lè)凈土》測(cè)試一下~

然后，選一位測(cè)試對(duì)象。比如我們找了（前）全球首富貝佐斯：

圖片

需要說(shuō)明的是，在選擇照片的時(shí)候，還是需要一點(diǎn)“技巧”的，“通義舞王”也有相應(yīng)提示：

正面站立
全身照
全身無(wú)遮擋
無(wú)仰俯角

圖片

在此之后，直接點(diǎn)擊“立即生成”，靜候幾分鐘，貝佐斯大跳《極樂(lè)凈土》的視頻，就誕生了：

圖片

是不是效果還行？雖然還不能講“真假難辨”，但首富都能這樣為你跳一曲了，還要什么自行車(chē)。

不僅如此，“通義舞王”除了能夠生成真人風(fēng)格之外，還有其他風(fēng)格可玩。

例如動(dòng)漫風(fēng)格的小姐姐跳DJ慢搖：

圖片

還有卡通風(fēng)格的人物熱舞：

圖片

總而言之，現(xiàn)在你想讓任何人跳舞——一張全身照就夠了。

不過(guò)有一說(shuō)一，雖然“通義舞王”已經(jīng)成功吸引了眾多網(wǎng)友前來(lái)玩耍，反響火爆，但它也還沒(méi)到完美無(wú)瑕的境界。

例如等待時(shí)長(zhǎng)，現(xiàn)在平均時(shí)間大約在10分鐘左右（有點(diǎn)久，但畢竟是免費(fèi)的，還要啥自行車(chē)?。?。

還有就是從視頻效果來(lái)看，如果照片角度不好或者清晰度不夠也會(huì)影響AI對(duì)于人物手部的處理。

圖片

這些問(wèn)題，實(shí)際都與背后的技術(shù)原理和技術(shù)挑戰(zhàn)，密不可分。

怎么做到的？

在視覺(jué)生成任務(wù)中，目前較為主流的方法便是擴(kuò)散模型。

但在僅靠一張照片就生成視頻這件事上，它還面臨著諸多的挑戰(zhàn)，例如人物形象一致性（consistency）的問(wèn)題。

簡(jiǎn)單來(lái)說(shuō)，就是如何保證照片人物在動(dòng)起來(lái)的過(guò)程中，各種細(xì)節(jié)能夠和原照片保持一致。

為此，阿里團(tuán)隊(duì)在擴(kuò)散模型的基礎(chǔ)之上，提出了一個(gè)新的算法，也就是我們剛才提到的AnimateAnyone。

從一致性、可控性和穩(wěn)定性三個(gè)方面，保證了視頻輸出的效果和質(zhì)量。

圖片

例如在一致性方面，阿里團(tuán)隊(duì)引入的是ReferenceNet，用于捕捉和保留原圖像信息，可高度還原人物、表情及服裝細(xì)節(jié)。

具體而言，在參考圖特征提取上，ReferenceNet采用的是與去噪U(xiǎn)Net類(lèi)似的框架，但沒(méi)有包含時(shí)間層；它繼承了原始擴(kuò)散模型的權(quán)重，并獨(dú)立進(jìn)行權(quán)重更新。

在將ReferenceNet的特征融合到去噪U(xiǎn)Net時(shí)，首先將來(lái)自ReferenceNet的特征圖x2復(fù)制t次，并與去噪U(xiǎn)Net的特征圖x1沿w維度連接；然后進(jìn)行自注意力處理，并提取特征圖的前半部分作為輸出。

雖然ReferenceNet引入了與去噪U(xiǎn)Net相當(dāng)數(shù)量的參數(shù)，但在基于擴(kuò)散的視頻生成中，所有視頻幀都需要多次去噪，而ReferenceNet只需在整個(gè)過(guò)程中提取一次特征，因此在推理過(guò)程中不會(huì)導(dǎo)致顯著增加計(jì)算開(kāi)銷(xiāo)。

在可控性方面，阿里團(tuán)隊(duì)使用的是Pose Guider姿態(tài)引導(dǎo)器。

Pose Guider姿勢(shì)引導(dǎo)器采用的是一個(gè)輕量級(jí)設(shè)計(jì)，而不是引入一個(gè)額外的控制網(wǎng)絡(luò)。

具體來(lái)說(shuō)，使用了四個(gè)卷積層（卷積核大小為4×4，步幅為2×2，通道數(shù)分別為16、32、64、128），這些卷積層用于將姿勢(shì)圖像對(duì)齊到與噪聲潛變量相同的分辨率。

處理后的姿勢(shì)圖像會(huì)被加到噪聲潛變量上，然后一起輸入到去噪U(xiǎn)Net中，從而在不顯著增加計(jì)算復(fù)雜性的情況下，為去噪U(xiǎn)Net提供姿勢(shì)控制。

最后是在穩(wěn)定性方面，阿里團(tuán)隊(duì)引入的是一個(gè)時(shí)序生成模塊。

時(shí)序?qū)拥脑O(shè)計(jì)靈感來(lái)源于AnimateDiff，通過(guò)在特征圖上執(zhí)行時(shí)間維度的自注意力，以及通過(guò)殘差連接，其特征被整合到原始特征中。

同樣的，這個(gè)模塊的作用之下，滿(mǎn)足了在保持時(shí)間連續(xù)性和細(xì)節(jié)平滑性的同時(shí)，減少了對(duì)復(fù)雜運(yùn)動(dòng)建模的需求。

最終，在AnimateAnyone的加持之下，從效果上來(lái)看，保證了圖像與視頻中人物的一致性。

圖片

這也是AnimateAnyone背后的技術(shù)原理。

然而，阿里之所以不斷在AnimateAnyone上攻堅(jiān)優(yōu)化，并非完全出于技術(shù)很酷很有潛力，還藏著一顆引領(lǐng)視頻生成技術(shù)的野心。

因?yàn)榇蠹叶荚趩?wèn)“What is the Next？”的時(shí)候，LVM（Large Vision Model），已經(jīng)潮水聲轟鳴了。

What is the Next？

實(shí)際上，在AnimateAnyone火了之后，阿里還有另一項(xiàng)視頻生成技術(shù)在同時(shí)出圈。

它叫DreaMoving，只需一張臉部照片、一句話描述，就能讓你在任何地方跳舞！

例如下面這段《擦玻璃》的舞蹈視頻：

圖片

你所需要做的就是“投喂”一張人像，以及一段prompt：

一個(gè)女孩，微笑著，在秋天的金色樹(shù)葉中跳舞，穿著淺藍(lán)色的連衣裙。

而且隨著prompt的變化，人物背景和身上的衣服也會(huì)隨之發(fā)生改變。例如我們?cè)贀Q兩句：

一個(gè)女孩，微笑著，在木屋里跳舞，穿著毛衣和長(zhǎng)褲。
一個(gè)女孩，微笑著，在時(shí)代廣場(chǎng)跳舞，穿著連衣裙般的白襯衫，長(zhǎng)袖，長(zhǎng)褲。

圖片

和AnimateAnyone一樣的，它也是真人、卡通、動(dòng)漫人物統(tǒng)統(tǒng)都能hold住。

圖片

當(dāng)時(shí)也引來(lái)了不少網(wǎng)友們的熱玩和驚呼。

這些都是阿里在視頻生成上的“沿途下蛋”，都是“勇攀珠峰”——死磕AI視頻生成技術(shù)的證明和結(jié)果。

為什么？

因?yàn)榭v觀去年一整年的AIGC發(fā)展的脈絡(luò)，AI視頻生成的爆發(fā)趨勢(shì)似乎越來(lái)越明確了。

2022年底以來(lái)，從最初ChatGPT引爆大語(yǔ)言模型，全球科技巨頭乃至初創(chuàng)企業(yè)紛紛入局，到后來(lái)各家不僅限于自然語(yǔ)言技術(shù)，更是將文生圖、文生音頻、文生視頻、圖生視頻等多模態(tài)技術(shù)“玩”出了新高度。

產(chǎn)業(yè)是什么？LLM（大語(yǔ)言模型）正在逐步向LMM（多模態(tài)大模型）發(fā)展。

并且從這期間學(xué)術(shù)界、產(chǎn)業(yè)界所交出的一份份“作業(yè)”中，也能印證這一點(diǎn)：

Pika1.0發(fā)布，剛出道就成行業(yè)頂流，引來(lái)一眾大佬圍觀；
Runway家升級(jí)Gen2，分分鐘打造高質(zhì)量小電影；
李飛飛W.A.L.T緊隨其后，同樣也是發(fā)力于此；
谷歌Gemini發(fā)布現(xiàn)場(chǎng)，大秀多種模態(tài)的聯(lián)動(dòng)玩法。

因此，多模態(tài)大模型、AI視頻生成領(lǐng)域，正是現(xiàn)如今AIGC這波頂流中的頂流，阿里頻頻在此發(fā)力，也就不難理解了。

不僅如此，在歲末年初之際，更是有眾多AI大佬將2024年的預(yù)測(cè)押注于此。

例如Meta研究院Martin Signoux非常直接地表態(tài)“再見(jiàn)LLM，你好LMM”，這個(gè)預(yù)測(cè)也得到了LeCun的轉(zhuǎn)發(fā)和點(diǎn)贊。

圖片

因此，如果要問(wèn)誰(shuí)是下一個(gè)ChatGPT，可能沒(méi)有人可以給出準(zhǔn)確預(yù)判。

但如果問(wèn)下一個(gè)ChatGPT會(huì)從哪個(gè)賽道來(lái)？AI視頻生成，就是自帶鼓風(fēng)機(jī)的那一個(gè)，而在這個(gè)賽道里，阿里已經(jīng)搶占了先機(jī)。

參考鏈接：
[1]https://weibo.com/1757693565/NA6OhoCo2#comment[2]https://weibo.com/2099591797/NA8fX0eOE?refer_flag=1001030103_

責(zé)任編輯：武曉燕來(lái)源：量子位

ChatGPT AI 視頻

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)