玩轉(zhuǎn)視頻社交,一鍵剪輯視頻,試試谷歌開源框架AutoFlip
我們正常情況是在看高比(16:9或4:3)下觀看視頻,但是隨著越來越多的用戶在移動設(shè)備上創(chuàng)建和觀看視頻內(nèi)容,視頻比例也逐漸多樣化,如果用傳統(tǒng)的方法裁剪視頻長寬比,往往很容易出錯,并且非常耗時。
前不久,谷歌開源了一個智能視頻裁剪框架——AutoFlip,該框架基于MediaPipe框架構(gòu)建,你只要輸入你想要的視頻長寬比,AutoFlip 會分析視頻內(nèi)容并提出一個優(yōu)化路徑和裁剪策略,最后輸出你要的那段視頻,如下圖所示:
AutoFlip概述
AutoFlip通過使用最新支持ML的目標檢測和跟蹤技術(shù)智能處理視頻內(nèi)容,AutoFlip會檢測表示場景變化的構(gòu)圖變化,以便分離場景進行處理。在每個鏡頭中,視頻分析被用來識別突出的內(nèi)容之前,場景被重新構(gòu)造通過選擇一個相機模式和路徑優(yōu)化的內(nèi)容。
AutoFlip為智能視頻重組提供了一個全自動的解決方案,利用最先進的支持ML的對象檢測和跟蹤技術(shù)來智能地理解視頻內(nèi)容。AutoFlip檢測合成中表示場景變化的變化,以便隔離場景進行處理。在每個鏡頭中,視頻分析用于通過選擇針對內(nèi)容優(yōu)化的相機模式和路徑,在重新構(gòu)圖場景之前識別重要內(nèi)容。
鏡頭檢測
場景或鏡頭是連續(xù)視頻序列,沒有剪切(或跳躍)。為了檢測鏡頭的變化,AutoFlip計算每個幀的色彩值,并將其與先前的幀進行比較。如果每幀色值分布變化,則會發(fā)出鏡頭改變的警告,AutoFlip會緩沖視頻,直到場景完成后再做重新構(gòu)圖,從而對整個場景進行優(yōu)化。
視頻內(nèi)容分析
AutoFlip利用基于深度學習的對象檢測模型來發(fā)現(xiàn)視頻中有趣、突出的內(nèi)容。這些內(nèi)容通常包括人和動物,AutoFlip也可以識別其他元素,包括廣告的文本覆蓋和標識,或體育運動中的球檢測。
人臉和物體檢測模型被集成到AutoFlip through MediaPipe中,它在CPU上使用了TensorFlow Lite。這種結(jié)構(gòu)使得AutoFlip可擴展,因此開發(fā)人員可以方便地為不同的示例和視頻內(nèi)容添加新的檢測算法。每種對象類型都與一個權(quán)重值相關(guān)聯(lián),該值定義了其相對重要性——權(quán)重越高,該特性的影響就越大。
通過AutoFlip,無論你是想要長寬比為16:9還是2.35:1還是1:1,更或者是5:4,都可以很快完成。
目前,AutoFlip已經(jīng)在Github上已經(jīng)標星5K,fork共882個(Github地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md)