你寫(xiě)腳本,AI自動(dòng)剪視頻:13分鐘完成剪輯師7小時(shí)創(chuàng)作
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
鏡頭切換自然,節(jié)奏有急有緩,創(chuàng)作這樣高質(zhì)量的視頻,需要怎樣的專(zhuān)業(yè)剪輯技巧?
答案是,不用剪,會(huì)寫(xiě)就行。
比如要剪輯一個(gè)有關(guān)長(zhǎng)頸鹿的片段,你只需要告訴AI:
The giraffe is the world’s tallest animal, and well known for its long legs and neck.
長(zhǎng)頸鹿是世界上最高的動(dòng)物,以其長(zhǎng)腿和長(zhǎng)脖子聞名于世。
It has a brown mane on the neck, and its head has two hairy horns.
它的脖子上有棕色的鬃毛,頭上長(zhǎng)了兩只毛茸茸的角。
AI就能自動(dòng)剪輯完成這樣的畫(huà)面:
先展示一下長(zhǎng)頸鹿群的全貌。接著鏡頭切給一只奔跑中的長(zhǎng)頸鹿,展示一下它的長(zhǎng)腿長(zhǎng)脖子。按照指示,再給鬃毛和犄角來(lái)個(gè)特寫(xiě),齊活!
是的,不再需要費(fèi)勁挑選素材,一幀一幀地來(lái)回倒騰:
只需要把你腦海中的創(chuàng)意轉(zhuǎn)化成簡(jiǎn)短的文字,這個(gè)名叫Write-A-Video的AI就能讀懂你的心,從選材到剪輯,一站式完成創(chuàng)作。
這就是北航、清華、哈佛和以色列赫茲利亞跨學(xué)科研究中心的科學(xué)家聯(lián)手打造的最新AI神器,只需主題腳本,就能生成視頻。
用文字創(chuàng)作視頻
現(xiàn)在,準(zhǔn)備好素材,我們一起來(lái)看看,Write-A-Video到底是怎樣“寫(xiě)”出一個(gè)視頻來(lái)的。
整個(gè)過(guò)程分為三步。
第一步,用戶(hù)以文本的形式提供輸入。Write-A-Video會(huì)挑選出句子中的關(guān)鍵詞。
第二步,Write-A-Video會(huì)利用關(guān)鍵詞,把素材庫(kù)里與之相匹配的候選片段挑出來(lái)。
文本和鏡頭之間的視覺(jué)語(yǔ)義匹配主要包括兩個(gè)步驟:關(guān)鍵字匹配和視覺(jué)語(yǔ)義嵌入。
首先,AI會(huì)根據(jù)腳本從素材庫(kù)中檢索所有帶有關(guān)鍵字標(biāo)簽的視頻鏡頭。
素材庫(kù)中的所有視頻均被分割為快照,便于語(yǔ)義匹配,還能在下一步正式剪輯視頻時(shí),讓用戶(hù)用電影術(shù)語(yǔ)來(lái)指導(dǎo)AI創(chuàng)作。
Write-A-Video的作者,北京航空航天大學(xué)的汪淼老師介紹說(shuō),Write-A-Video允許用戶(hù)在輸入文本中使用電影術(shù)語(yǔ),以探索每個(gè)場(chǎng)景不同的視覺(jué)風(fēng)格,比如調(diào)整電影的節(jié)奏,畫(huà)面的調(diào)動(dòng)等。
此外,采用基于直方圖的分割算法,如果幀與幀之間在HSV色域中的直方圖相差超過(guò)80%,并且追蹤的SURF關(guān)鍵點(diǎn)80%以上不匹配,那么算法就會(huì)以這兩幀為界,切分鏡頭。
太長(zhǎng)(>30s)或太短(<2s)的鏡頭也會(huì)被舍棄,因?yàn)槎嚏R頭觀感不好,而長(zhǎng)鏡頭會(huì)降低效率和可變性
而后,視覺(jué)語(yǔ)義嵌入技術(shù)會(huì)為每個(gè)檢索到的鏡頭計(jì)算匹配分?jǐn)?shù),排名最高的鏡頭就會(huì)被選為候選鏡頭。
這里采用的方法是 VSE++ (論文地址見(jiàn)文末)。該方法能將跨模型內(nèi)容編碼到聯(lián)合特征空間中,比如把文本和鏡頭聯(lián)系起來(lái)。
在嵌入空間中,從鏡頭中每十幀抽取一幀,計(jì)算其與文本之間的余弦相似度,最后取平均值,即為判斷鏡頭能否入選的最終得分。
第三步,就是將這些鏡頭組合在一起,完成視頻的剪輯。
這一步,其實(shí)是Write-A-Video對(duì)鏡頭的混合優(yōu)化。而它也有自己的審美標(biāo)準(zhǔn)。
首先,畫(huà)面應(yīng)該是明亮而生動(dòng)的。
其次,鏡頭不能晃動(dòng)得太厲害。
最后,要避免不連貫的跳接(jump cut)和相反的相機(jī)運(yùn)動(dòng)。
值得一提的是,Write-A-Video對(duì)用戶(hù)非常友好。
查找對(duì)應(yīng)鏡頭,剪切,重新排列,都可以用添加、刪除文本及移動(dòng)句子等文本編輯的形式進(jìn)行。不用掌握剪輯技巧,更不用會(huì)敲代碼。
不僅如此,在下面這個(gè)視頻中,你會(huì)發(fā)現(xiàn),敲進(jìn)去的文字可以轉(zhuǎn)成配音旁白,渲染影片氣氛。
并且,旁白和視頻完全同步,對(duì)應(yīng)得十分自然。提到白金漢宮時(shí),鏡頭就自然地轉(zhuǎn)到了白金漢宮門(mén)前。而提到皇家護(hù)衛(wèi)隊(duì)時(shí),畫(huà)面便給到了表演中的皇家護(hù)衛(wèi)隊(duì)。
研究團(tuán)隊(duì)表示,跟商用的逐幀處理視頻編輯器比起來(lái),用上Write-A-Video,創(chuàng)作起來(lái)快多了。
有了Write-A-Video,甚至新手,都能以快得多的速度(13分鐘:7小時(shí)),完成質(zhì)量與職業(yè)剪輯師差距不大的視頻剪輯任務(wù)。
在剛剛結(jié)束的SIGGRAPH Asia 2019會(huì)議上,研究團(tuán)隊(duì)報(bào)告并展示了Write-A-Video這一成果,得到了國(guó)際同行的廣泛認(rèn)可。
北航清華團(tuán)隊(duì)出品
Write-A-Video的第一作者汪淼博士,現(xiàn)為北京航空航天大學(xué)虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室助理研究員,碩士生導(dǎo)師。
他本科畢業(yè)于西安電子科技大學(xué),后于2016年獲得清華大學(xué)博士學(xué)位,師從論文通訊作者,清華大學(xué)計(jì)算機(jī)系胡事民教授。
論文作者中的楊國(guó)煒參加該項(xiàng)目時(shí),只是一位本科生,現(xiàn)已在清華大學(xué)計(jì)算機(jī)系攻讀博士學(xué)位。
另外兩位作者,分別是菲爾茲獎(jiǎng)得主、哈佛大學(xué)教授、美籍華人數(shù)學(xué)家丘成桐,以及以色列赫茲利亞跨學(xué)科研究中心院長(zhǎng)艾里爾·沙米爾(Ariel Shamir)。