自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這段視頻火爆外網(wǎng),谷歌把AI視頻造假搞得太真太簡(jiǎn)單了

人工智能 新聞
Phenaki相較于以往的生成視頻模型,它更注重時(shí)間長(zhǎng)度任意性和連貫性。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

家人們,AI做視頻這事今天又被推向了輿論的風(fēng)口浪尖。

起因是有人在網(wǎng)上發(fā)布了這么一只小企鵝的視頻:

而這個(gè)近50秒視頻的誕生,靠的僅僅是6句話!

圖片

陸陸續(xù)續(xù)的,網(wǎng)友們還在發(fā)布著這個(gè)AI的其它杰作:

圖片

這次給它投喂的提示詞也是極短,僅4行

圖片

如此“所寫(xiě)即所得”、絲滑連貫的視頻生成方式,也是令不少網(wǎng)友發(fā)出感慨:

未來(lái)已至。

圖片

甚至還有人開(kāi)始“拉仇恨”,說(shuō)AI正在用各種方式摧毀行業(yè)……

圖片

然后就有很多人發(fā)問(wèn)了:“這又是哪家新搞的AI哇?”

圖片

不過(guò)眼尖的網(wǎng)友發(fā)現(xiàn)它其實(shí)是一位“老朋友”了——

谷歌去年10月份便發(fā)布的一個(gè)文本轉(zhuǎn)視頻(Text-to-Video)模型:Phenaki。

只需一段提示詞,分分鐘可以生成長(zhǎng)達(dá)兩分鐘的視頻。

圖片

而相比Phenaki剛發(fā)布的時(shí)候,谷歌又來(lái)了一波上新操作

那么我們現(xiàn)在就來(lái)一同看看這些新視頻吧~

打字就能生成的視頻

與以往AI生成的視頻不同,Phenaki最大的特點(diǎn)便是有故事、有長(zhǎng)度。

例如,我們?cè)俳o這么一段場(chǎng)景描述:

在一座未來(lái)感十足的城市里,交通紛繁復(fù)雜,這時(shí),一艘外星飛船抵達(dá)了城市。

隨著鏡頭的拉近,畫(huà)面進(jìn)入到了飛船內(nèi)部;而后鏡頭沿著船內(nèi)長(zhǎng)廊繼續(xù)向前推進(jìn),直到看到一名宇航員在藍(lán)色的房間里敲鍵盤(pán)打字。

鏡頭逐漸移向宇航員的左側(cè),身后出現(xiàn)藍(lán)色海洋,魚(yú)兒們?cè)谒镝溽?;?huà)面快速放大聚焦到一條魚(yú)的身上。

隨后鏡頭快速?gòu)暮@锔〕?,直到看到摩天大樓高聳林立的未?lái)城市;鏡頭再快速拉近到一撞大樓的辦公室。

這時(shí),一只獅子突然跳到辦公桌上并開(kāi)始奔跑;鏡頭先聚焦到獅子的臉上,等再次拉遠(yuǎn)時(shí),這只獅子已經(jīng)幻化成西裝革履的“獸人”。

最后,鏡頭從辦公室拉出,落日余暉下鳥(niǎo)瞰這座城市。

想必不少友友們?cè)谧x這段文字過(guò)程中,腦中已經(jīng)浮現(xiàn)相應(yīng)的畫(huà)面了。

是不是和你腦補(bǔ)出來(lái)的畫(huà)面一致呢?

總體來(lái)說(shuō),這個(gè)AI即便面對(duì)這種腦洞大開(kāi)的場(chǎng)景提示詞,也是做到了無(wú)縫銜接的轉(zhuǎn)場(chǎng)。

也難怪網(wǎng)友們看完這段視頻后驚呼“(科技)發(fā)展得真快啊”。

圖片

而對(duì)于篇幅稍短的提示詞,Phenaki就更不在話下了。

例如,給Phenaki投喂這樣一段文字:

一只逼真的泰迪熊正在潛水;隨后它慢慢浮出水面;走上沙灘;這時(shí)鏡頭拉遠(yuǎn),泰迪熊行走在海灘邊篝火旁。

圖片

沒(méi)看夠?那再來(lái)一段,這次換個(gè)主角:

在火星上,宇航員走過(guò)一個(gè)水坑,水里倒映著他的側(cè)影;他在水旁起舞;然后宇航員開(kāi)始遛狗;最后他和小狗一起看火星上看煙花。

圖片

而在谷歌更早發(fā)布Phenaki之際,還展示了向Phenaki輸入一個(gè)初始幀以及一個(gè)提示詞,便可以生成一段視頻的能力。

例如給定這樣一張靜態(tài)圖:

圖片

然后再給它Phenaki簡(jiǎn)單“投喂”一句:白貓用貓爪觸摸攝像機(jī)。效果就出來(lái)了:

圖片

還是基于這張圖,把提示詞改成“一只白貓打哈欠”,效果就成這樣了:

圖片

當(dāng)然,任意切換視頻整體風(fēng)格也是可以hold得住的:

圖片

網(wǎng)友:視頻行業(yè)要被AI沖擊了嗎?

但除了Phenaki之外,谷歌當(dāng)時(shí)還一道發(fā)布過(guò)Imagen Video,能夠生成1280*768分辨率、每秒24幀的高清視頻片段。

圖片

它基于圖像生成SOTA模型Imagen,展示出了三種特別的能力:

  • 能理解并生成不同藝術(shù)風(fēng)格的作品,水彩、像素甚至梵高風(fēng)格
  • 能理解物體的3D結(jié)構(gòu)
  • 繼承了Imagen準(zhǔn)確描繪文字的能力

更早的,Meta也發(fā)布了Make-A-Video,不僅能夠通過(guò)文字轉(zhuǎn)換視頻,還能根據(jù)圖像生成視頻,比如:

  • 將靜態(tài)圖像轉(zhuǎn)成視頻
  • 插幀:根據(jù)前后兩張圖片生成一段視頻
  • 根據(jù)原視頻生成新視頻
    ……

圖片

對(duì)于這如“雨后春筍”突然冒出的生成視頻模型,不免會(huì)讓有些人擔(dān)心:

圖片

當(dāng)然也有人認(rèn)為現(xiàn)在時(shí)機(jī)還未到:

0-1總會(huì)很快,1-100還是會(huì)很漫長(zhǎng)。

圖片

不過(guò)已經(jīng)有網(wǎng)友在期待靠AI拿奧斯卡獎(jiǎng)了:

AI要多久才能成為新的視頻編輯器,或者拿下奧斯卡?

圖片

原理介紹

再說(shuō)回Phenaki,有不少網(wǎng)友都比較好奇它是如何通過(guò)文字生成這么絲滑的視頻的?

簡(jiǎn)單來(lái)說(shuō),Phenaki相較于以往的生成視頻模型,它更注重時(shí)間長(zhǎng)度任意性連貫性

Phenaki之所以能夠生成任意時(shí)間長(zhǎng)度的視頻,很大程度上要?dú)w功于新的編碼器-解碼器架構(gòu):C-ViViT。

它是ViViT的一個(gè)因果變體,能夠?qū)⒁曨l壓縮為離散嵌入。

要知道,以往獲取視頻壓縮,要么就是編碼器不能及時(shí)壓縮視頻,導(dǎo)致最終生成的視頻過(guò)短,例如VQ-GAN,要么就是編碼器只支持固定視頻長(zhǎng)度,最終生成視頻的長(zhǎng)度不能任意調(diào)節(jié),例如VideoVQVAE。

但C-ViViT就不一樣了,它可謂是兼顧了上面兩種架構(gòu)的優(yōu)點(diǎn),能夠在時(shí)間和空間維度上壓縮視頻,并且在時(shí)間上保持自回歸的同時(shí),還可以自回歸生成任意長(zhǎng)度的視頻。

圖片

C-ViViT可以使模型生成任意長(zhǎng)度的視頻,那最終視頻的邏輯性又是怎么保證的呢?

這就得靠Phenaki另外一個(gè)比較重要的部分:雙向Transformer。

在這其中,為節(jié)省時(shí)間,采樣步驟是固定的,并且在處理文本提示的過(guò)程中,能同時(shí)預(yù)測(cè)不同的視頻token。

這樣一來(lái),結(jié)合前面提到的,C-ViViT能夠在時(shí)間和空間維度上壓縮視頻,壓縮出來(lái)的token是具有時(shí)間邏輯性的。

也就是說(shuō),在這些token上經(jīng)過(guò)掩碼訓(xùn)練的Transformer也具備時(shí)間邏輯性,最終生成的視頻在連貫性自然也就有了保證。

圖片

如果還想了解更多關(guān)于Phenaki的東西,可以??戳這里??查看。

Phenaki:??https://phenaki.github.io??


責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-01-19 05:27:44

HTTPSECDHE算法

2024-03-07 12:45:27

PyTorch

2023-02-06 10:48:48

谷歌

2022-04-11 08:56:27

AIAI算法

2021-03-09 17:27:40

AI 數(shù)據(jù)人工智能

2023-02-02 17:26:29

AI人工智能版本

2023-10-17 14:51:51

2023-04-10 21:20:38

2023-11-07 10:36:37

2025-04-25 08:11:29

2024-11-18 08:33:56

2022-07-28 19:35:11

Carbon編程語(yǔ)言C++

2020-06-29 11:05:26

GitHub代碼開(kāi)發(fā)者

2023-10-09 09:35:34

自動(dòng)駕駛模型

2023-10-25 11:05:54

深度偽造AI

2017-02-20 07:47:04

緩存HASH高并發(fā)

2021-08-02 19:18:32

Redis緩存高并發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)