作者 | 馬彬
針對(duì)視頻數(shù)據(jù),如何通過計(jì)算機(jī)視覺技術(shù)用相關(guān)數(shù)據(jù),為用戶和商家提供更好的服務(wù),是一項(xiàng)重要的研發(fā)課題。本文將為大家分享短視頻內(nèi)容理解與生成技術(shù)在美團(tuán)業(yè)務(wù)場(chǎng)景的落地實(shí)踐。
1. 背景
美團(tuán)圍繞豐富的本地生活服務(wù)電商場(chǎng)景,積累了豐富的視頻數(shù)據(jù)。
上面展示了美團(tuán)業(yè)務(wù)場(chǎng)景下的一個(gè)菜品評(píng)論示例??梢钥吹?,視頻相較于文本和圖像可以提供更加豐富的信息,創(chuàng)意菜“冰與火之歌”中火焰與巧克力和冰淇淋的動(dòng)態(tài)交互,通過短視頻形式進(jìn)行了生動(dòng)的呈現(xiàn),進(jìn)而給商家和用戶提供多元化的內(nèi)容展示和消費(fèi)指引。
視頻行業(yè)發(fā)展
我們能夠快速進(jìn)入了視頻爆炸的時(shí)代,是因?yàn)槎鄠€(gè)技術(shù)領(lǐng)域都取得了顯著的進(jìn)步,包括拍攝采集設(shè)備小型化、視頻編解碼技術(shù)的進(jìn)步、網(wǎng)絡(luò)通信技術(shù)的提升等。近年來,由于視覺AI算法不斷成熟,在視頻場(chǎng)景中被廣泛應(yīng)用。本文將主要圍繞如何通過視覺AI技術(shù)的加持,來提高視頻內(nèi)容創(chuàng)作生產(chǎn)和分發(fā)的效率。美團(tuán)AI——場(chǎng)景驅(qū)動(dòng)技術(shù)
說到美團(tuán),大家首先會(huì)想到點(diǎn)外賣的場(chǎng)景,不過,除了外賣之外,美團(tuán)還有其他200多項(xiàng)業(yè)務(wù),涵蓋了“吃”、“住”、“行”、“玩”等生活服務(wù)場(chǎng)景,以及“美團(tuán)優(yōu)選”“團(tuán)好貨”等零售電商。豐富的業(yè)務(wù)場(chǎng)景帶來了多樣化的數(shù)據(jù)以及多元化的落地應(yīng)用,進(jìn)而驅(qū)動(dòng)底層技術(shù)的創(chuàng)新迭代。同時(shí),底層技術(shù)的沉淀,又可以賦能各業(yè)務(wù)的數(shù)字化、智能化升級(jí),形成互相促進(jìn)的正向循環(huán)。美團(tuán)業(yè)務(wù)場(chǎng)景短視頻
豐富的內(nèi)容和展示形式(C端)本文分享的一些技術(shù)實(shí)踐案例,主要圍繞著“吃”來展開。美團(tuán)在每個(gè)場(chǎng)景站位都有內(nèi)容布局和展示形式,短視頻技術(shù)在美團(tuán)C端也有豐富的應(yīng)用,例如:大家打開大眾點(diǎn)評(píng)App看到的首頁Feed流視頻卡片、沉浸態(tài)視頻、視頻筆記、用戶評(píng)論、搜索結(jié)果頁等。這些視頻內(nèi)容在呈現(xiàn)給用戶之前,都要先經(jīng)過了很多算法模型的理解和處理。
豐富的內(nèi)容和展示形式(B端)而在商家端(B端)的視頻內(nèi)容展示形式包括,景區(qū)介紹——讓消費(fèi)者在線上感受更立體的游玩體驗(yàn);酒店相冊(cè)速覽——將相冊(cè)中的靜態(tài)圖像合成視頻,全面地展示酒店信息,幫助用戶快速了解酒店全貌(其中自動(dòng)生成的技術(shù)會(huì)在下文2.2.2章節(jié)進(jìn)行介紹);
商家品牌廣告——算法可以通過智能剪輯等功能,降低商家編輯創(chuàng)作視頻的門檻;商家視頻相冊(cè)——商家可以自行上傳各類視頻內(nèi)容,算法為視頻打上標(biāo)簽,幫助商家管理視頻;商品視頻/動(dòng)圖——上文提到美團(tuán)的業(yè)務(wù)范圍也包括零售電商,這部分對(duì)于商品信息展示就非常有優(yōu)勢(shì)。舉個(gè)例子,生鮮類商品,如螃蟹、蝦的運(yùn)動(dòng)信息很難通過靜態(tài)圖像呈現(xiàn),而通過動(dòng)圖可為用戶提供更多商品參考信息。短視頻技術(shù)應(yīng)用場(chǎng)景
從應(yīng)用場(chǎng)景來看,短視頻在線上的應(yīng)用主要包括:內(nèi)容運(yùn)營管理、內(nèi)容搜索推薦、廣告營銷、創(chuàng)意生產(chǎn)。底層的支撐技術(shù),主要可以分為兩類:內(nèi)容理解和內(nèi)容生產(chǎn)。內(nèi)容理解主要回答視頻中什么時(shí)間點(diǎn),出現(xiàn)什么樣的內(nèi)容的問題。內(nèi)容生產(chǎn)通常建立在內(nèi)容理解基礎(chǔ)上,對(duì)視頻素材進(jìn)行加工處理。典型的技術(shù)包括,視頻智能封面、智能剪輯。下面我將分別介紹這兩類技術(shù)在美團(tuán)場(chǎng)景下的實(shí)踐。
2. 短視頻內(nèi)容理解和生成技術(shù)實(shí)踐
2.1 短視頻內(nèi)容理解
2.1.1 視頻標(biāo)簽
視頻內(nèi)容理解的主要目標(biāo)是,概括視頻中出現(xiàn)的重要概念,打開視頻內(nèi)容的“黑盒”,讓機(jī)器知道盒子里有什么,為下游應(yīng)用提供語義信息,以便更好地對(duì)視頻做管理和分發(fā)。根據(jù)結(jié)果的形式,內(nèi)容理解可以分為顯式和隱式兩種。
其中,顯式是指通過視頻分類相關(guān)技術(shù),給視頻打上人可以理解的文本標(biāo)簽。隱式主要指以向量形式表示的嵌入特征,在推薦、搜索等場(chǎng)景下與模型結(jié)合直接面向最終任務(wù)建模。可以粗略地理解為,前者主要面向人,后者主要面向機(jī)器學(xué)習(xí)算法。顯式的視頻內(nèi)容標(biāo)簽在很多場(chǎng)景下是必要的,例如:內(nèi)容運(yùn)營場(chǎng)景,運(yùn)營人員需要根據(jù)標(biāo)簽,開展供需分析,高價(jià)值內(nèi)容圈選等工作。
上圖中展示的是內(nèi)容理解為視頻打標(biāo)簽的概要流程,這里的每個(gè)標(biāo)簽都是可供人理解的一個(gè)關(guān)鍵詞。通常情況下,為了更好地維護(hù)和使用,大量標(biāo)簽會(huì)根據(jù)彼此之間的邏輯關(guān)系,組織成標(biāo)簽體系。
2.1.2 視頻標(biāo)簽的不同維度與粒度
那么視頻標(biāo)簽的應(yīng)用場(chǎng)景有哪些?它背后的技術(shù)難點(diǎn)是什么?在美團(tuán)場(chǎng)景下比較有代表性的例子——美食探店視頻,內(nèi)容非常豐富。標(biāo)簽體系的設(shè)定尤為關(guān)鍵,打什么樣的標(biāo)簽來描述視頻內(nèi)容比較合適?首先,標(biāo)簽的定義需要產(chǎn)品、運(yùn)營、算法多方面的視角共同敲定。在該案例中,共有三層標(biāo)簽,越上層越抽象。
其中,主題標(biāo)簽對(duì)整體視頻內(nèi)容的概括能力較強(qiáng),如美食探店主題;中間層會(huì)進(jìn)一步拆分,描述拍攝場(chǎng)景相關(guān)內(nèi)容,如店內(nèi)、店外環(huán)境;最底層拆分成細(xì)粒度實(shí)體,理解到宮保雞丁還是番茄炒雞蛋的粒度。不同層的標(biāo)簽有不同的應(yīng)用,最上層視頻主題標(biāo)簽可應(yīng)用于高價(jià)值內(nèi)容的篩選及運(yùn)營手段。
它的主要難點(diǎn)是抽象程度高,“美食探店”這個(gè)詞概括程度很高,人在看過視頻后可以理解,但從視覺特征建模的角度,需要具備什么特點(diǎn)才能算美食探店,對(duì)模型的學(xué)習(xí)能力提出了較大的挑戰(zhàn)。
2.1.3 基礎(chǔ)表征學(xué)習(xí)
解決方案主要關(guān)注兩方面:一方面是與標(biāo)簽無關(guān)的通用基礎(chǔ)表征提升,另一方面是面向特定標(biāo)簽的分類性能提升。初始模型需要有比較好基礎(chǔ)表征能力,這部分不涉及下游最終任務(wù)(例如:識(shí)別是否是美食探店視頻),而是模型權(quán)重的預(yù)訓(xùn)練。好的基礎(chǔ)表征,對(duì)于下游任務(wù)的性能提升事半功倍。由于視頻標(biāo)簽的標(biāo)注代價(jià)非常昂貴,技術(shù)方案層面需要考慮的是:如何在盡量少用業(yè)務(wù)全監(jiān)督標(biāo)注數(shù)據(jù)的情況下學(xué)習(xí)更好的基礎(chǔ)特征。
首先,在任務(wù)無關(guān)的基礎(chǔ)模型表征層面,我們采用了在美團(tuán)視頻數(shù)據(jù)上的自監(jiān)督預(yù)訓(xùn)練特征,相比在公開數(shù)據(jù)集上的預(yù)訓(xùn)練模型,更加契合業(yè)務(wù)數(shù)據(jù)分布。其次,在語義信息嵌入層面(如上圖所示),存在多源含標(biāo)簽數(shù)據(jù)可以利用。值得一提的是,美團(tuán)業(yè)務(wù)場(chǎng)景下比較有特色的弱標(biāo)注數(shù)據(jù),例如:用戶在餐廳中做點(diǎn)評(píng),圖片和視頻上層抽象標(biāo)簽是美食,評(píng)論文本中大概率會(huì)提到具體在店里吃的菜品名稱,這是可挖掘的優(yōu)質(zhì)監(jiān)督信息,可以通過視覺文本相關(guān)性度量等技術(shù)手段進(jìn)行清洗。這里展示了自動(dòng)挖掘出的標(biāo)簽為“烤肉”的視頻樣本。
視頻樣本
通過使用這部分?jǐn)?shù)據(jù)做預(yù)訓(xùn)練,可以得到一個(gè)初始的Teacher Model,給業(yè)務(wù)場(chǎng)景無標(biāo)注數(shù)據(jù)打上偽標(biāo)簽。這里比較關(guān)鍵的是由于預(yù)測(cè)結(jié)果不完全準(zhǔn)確,需要基于分類置信度等信息做偽標(biāo)簽清洗,隨后拿到增量數(shù)據(jù)與Teacher Model一起做業(yè)務(wù)場(chǎng)景下更好的特征表達(dá),迭代清洗得到Student Model,作為下游任務(wù)的基礎(chǔ)表征模型。在實(shí)踐中,我們發(fā)現(xiàn)數(shù)據(jù)迭代相較于模型結(jié)構(gòu)的改進(jìn)收益更大。
2.1.4 模型迭代
面向具體標(biāo)簽的性能提升主要應(yīng)對(duì)的問題是,如何在基礎(chǔ)表征模型的基礎(chǔ)上,高效迭代目標(biāo)類別的樣本數(shù)據(jù),提升標(biāo)簽分類模型的性能。樣本的迭代分為離線和在線兩部分,以美食探店標(biāo)簽為例,首先需要離線標(biāo)注少量正樣本,微調(diào)基礎(chǔ)表征模型得到初始分類模型。這時(shí)模型的識(shí)別準(zhǔn)確率通常較低,但即便如此,對(duì)樣本的清洗、迭代也很有幫助。設(shè)想如果標(biāo)注員從存量樣本池里漫無目的地篩選,可能看了成百上千個(gè)視頻都很難發(fā)現(xiàn)一個(gè)目標(biāo)類別的樣本,而通過初始模型做預(yù)篩選,可以每看幾個(gè)視頻就能篩出一個(gè)目標(biāo)樣本,對(duì)標(biāo)注效率有顯著的提升。第二步如何持續(xù)迭代更多線上樣本,提升標(biāo)簽分類模型準(zhǔn)確率至關(guān)重要。我們對(duì)于模型線上預(yù)測(cè)的結(jié)果分兩條回流路徑。線上模型預(yù)測(cè)結(jié)果非常置信,或是若干個(gè)模型認(rèn)知一致,可以自動(dòng)回流模型預(yù)測(cè)標(biāo)簽加入模型訓(xùn)練,對(duì)于高置信但錯(cuò)誤的噪聲標(biāo)簽,可以通過模型訓(xùn)練過程中的一些抵抗噪聲的技術(shù),如:置信學(xué)習(xí)進(jìn)行自動(dòng)剔除。更有價(jià)值的是,我們?cè)趯?shí)踐中發(fā)現(xiàn)對(duì)于模型性能提升ROI更高的是人工修正模型非置信數(shù)據(jù),例如三個(gè)模型預(yù)測(cè)結(jié)果差異較大的樣本,篩出后交給人工確認(rèn)。這種主動(dòng)學(xué)習(xí)的方式,可以避免在大量簡單樣本上浪費(fèi)標(biāo)注人力,針對(duì)性地?cái)U(kuò)充對(duì)模型性能提升更有價(jià)值的標(biāo)注數(shù)據(jù)。
2.1.5 視頻主題標(biāo)簽應(yīng)用——高價(jià)值內(nèi)容篩選聚合
上圖展示了點(diǎn)評(píng)推薦業(yè)務(wù)視覺主題標(biāo)簽的應(yīng)用案例,最具代表性的即為高價(jià)值內(nèi)容的圈選:在點(diǎn)評(píng)App首頁信息流的達(dá)人探店Tab中,運(yùn)營同學(xué)通過標(biāo)簽篩選出有「美食探店」標(biāo)簽的視頻進(jìn)行展示。可以讓用戶以沉浸式地體驗(yàn)方式更全面地了解到店內(nèi)的信息,同時(shí)也為商家提供了一個(gè)很好的窗口,起到宣傳引流的作用。
2.1.6 視頻標(biāo)簽的不同維度與粒度
上圖展示了,不同維度標(biāo)簽對(duì)于技術(shù)有不同要求,其中細(xì)粒度實(shí)體理解,需要識(shí)別具體是哪道菜,與上層粗粒度標(biāo)簽的問題不同,需要考慮如何應(yīng)對(duì)技術(shù)挑戰(zhàn)。首先是細(xì)粒度識(shí)別任務(wù),需要對(duì)視覺特征進(jìn)行更精細(xì)的建模;其次,視頻中的菜品理解相較于單張圖像中的菜品識(shí)別更有挑戰(zhàn),需要應(yīng)對(duì)數(shù)據(jù)的跨域問題。
2.1.7 菜品圖像識(shí)別能力向視頻領(lǐng)域的遷移
抽象出關(guān)鍵問題后,我們來分別應(yīng)對(duì)。首先在細(xì)粒度識(shí)別問題上,菜品的視覺相似性度量挑戰(zhàn)在于不同食材的特征及位置關(guān)系沒有標(biāo)準(zhǔn)化的定義,同一道菜不同的師傅很可能做出兩種完全不同的樣子。這就需要模型既能夠聚焦局部細(xì)粒度特征,又能夠融合全局信息進(jìn)行判別。為了解決這個(gè)問題,我們提出了一種堆疊式全局-局部注意力網(wǎng)絡(luò),同時(shí)捕捉形狀紋理線索和局部的食材差異,對(duì)菜品識(shí)別效果有顯著提升,相關(guān)成果發(fā)表在ACM MM國際會(huì)議上(ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network)。
上圖(右)中展示的是第二部分的挑戰(zhàn)。圖像和視頻幀中的相同物體常常有著不同的外觀表現(xiàn),例如:圖片中的螃蟹常常是煮熟了擺在盤中,而視頻幀中經(jīng)常出現(xiàn)烹飪過程中鮮活的螃蟹,它們?cè)谝曈X層面差別很大。我們主要從數(shù)據(jù)分布的角度去應(yīng)對(duì)這部分跨域差異。
業(yè)務(wù)場(chǎng)景積累了大量有標(biāo)注的美食圖像,這些樣本預(yù)測(cè)結(jié)果的判別性通常較好,但由于數(shù)據(jù)分布差異,視頻幀中的螃蟹則不能被很確信地預(yù)測(cè)。對(duì)此我們希望提升視頻幀場(chǎng)景中預(yù)測(cè)結(jié)果的判別性。一方面,利用核范數(shù)最大化的方法,獲取更好的預(yù)測(cè)分布。另一方面,利用知識(shí)蒸餾的方式,不斷通過強(qiáng)大的模型來指導(dǎo)輕量化網(wǎng)絡(luò)的預(yù)測(cè)。再結(jié)合視頻幀數(shù)據(jù)的半自動(dòng)標(biāo)注,即可在視頻場(chǎng)景下獲得較好的性能。
2.1.8 細(xì)粒度菜品圖像識(shí)別能力
基于以上在美食場(chǎng)景內(nèi)容理解的積累,我們?cè)贗CCV2021上舉辦了Large-Scale Fine-Grained Food Analysis比賽。菜品圖像來自美團(tuán)的實(shí)際業(yè)務(wù)場(chǎng)景,包含1500類中餐菜品,競賽數(shù)據(jù)集持續(xù)開放:https://foodai-workshop.meituan.com/foodai2021.html#index,歡迎大家下載使用,共同提升挑戰(zhàn)性場(chǎng)景下的識(shí)別性能。
2.1.9 菜品細(xì)粒度標(biāo)簽應(yīng)用——按搜出封面
在視頻中識(shí)別出細(xì)粒度的菜品名稱有什么應(yīng)用呢?這里再跟大家分享一個(gè)點(diǎn)評(píng)搜索業(yè)務(wù)場(chǎng)景的應(yīng)用——按搜出封面。實(shí)現(xiàn)的效果是根據(jù)用戶輸入的搜索關(guān)鍵詞,為同一套視頻內(nèi)容展示不同的封面。圖中的離線部分展示了視頻片段的切分和優(yōu)選過程,首先通過關(guān)鍵幀提取,基礎(chǔ)質(zhì)量過濾篩選出適合展示的畫面;再通過菜品細(xì)粒度標(biāo)簽識(shí)別理解到在什么時(shí)間點(diǎn)出現(xiàn)什么菜品,作為候選封面素材,存儲(chǔ)在數(shù)據(jù)庫中。線上用戶對(duì)感興趣內(nèi)容進(jìn)行搜索時(shí),根據(jù)視頻的多個(gè)封面候選與用戶查詢?cè)~的相關(guān)性,為用戶展現(xiàn)最契合的封面,提升搜索的體驗(yàn)。
比如,同樣是搜索“火鍋”,左圖是默認(rèn)封面,右圖是“按搜出封面”的結(jié)果??梢钥吹?,左邊的結(jié)果有一些以人物為主體的封面,與用戶搜索火鍋視頻預(yù)期看到的內(nèi)容不符,直觀感覺像是不相關(guān)的Bad Case。而按搜出封面的展示結(jié)果,搜索到的內(nèi)容都是火鍋畫面,體驗(yàn)較好。這也是對(duì)視頻片段理解到細(xì)粒度標(biāo)簽,在美團(tuán)場(chǎng)景下的創(chuàng)新應(yīng)用。
2.1.10 挖掘更為豐富的視頻片段標(biāo)簽
以上都是圍繞美食視頻展開,但美團(tuán)還有很多其他的業(yè)務(wù)場(chǎng)景。如何自動(dòng)挖掘更為豐富的視頻標(biāo)簽,讓標(biāo)簽體系本身能夠自動(dòng)擴(kuò)展,而不是全部依賴人工整理定義,是一個(gè)重要的課題。我們基于點(diǎn)評(píng)豐富的用戶評(píng)論數(shù)據(jù)開展相關(guān)工作。上圖中的例子是用戶的筆記,可以看到內(nèi)容中既包含視頻又包含若干張圖片,還有一大段描述,這幾個(gè)模態(tài)具有關(guān)聯(lián)性,存在共性的概念。通過一些統(tǒng)計(jì)學(xué)習(xí)的方式,在視覺和文本兩個(gè)模態(tài)之間做交叉驗(yàn)證,可以挖掘出視頻片段和標(biāo)簽的對(duì)應(yīng)關(guān)系。
2.1.11 視頻片段語義標(biāo)簽挖掘結(jié)果示例
例如,通過算法自動(dòng)挖掘出視頻片段和標(biāo)簽,左圖展示了標(biāo)簽出現(xiàn)的頻率,呈現(xiàn)出明顯的長尾分布。但值得注意的是,通過這種方式,算法能夠發(fā)掘到粒度較細(xì)的有意義標(biāo)簽,比如“絲巾畫”。通過這種方式可以在盡量減少人工參與的前提下,發(fā)現(xiàn)美團(tuán)場(chǎng)景更多重要的標(biāo)簽。
2.2 短視頻內(nèi)容生成
下面,我們來講講如何在內(nèi)容理解的基礎(chǔ)上做內(nèi)容生產(chǎn)。內(nèi)容生產(chǎn)是在短視頻AI應(yīng)用場(chǎng)景非常重要的部分,以下分享更多涉及到的是視頻素材的解構(gòu)與理解。
視頻內(nèi)容生產(chǎn)的流程鏈路(如上圖所示),其中內(nèi)容生成環(huán)節(jié)主要是原始視頻上傳到云端后,作為素材,通過算法進(jìn)行剪輯加工,更好地發(fā)揮出內(nèi)容的潛在價(jià)值。比如在廣告場(chǎng)景,通過算法識(shí)別并剪輯出原始視頻中展示商家環(huán)境,菜品效果的精華片段,提升信息的密度與質(zhì)量。另外,視頻內(nèi)容生產(chǎn)根據(jù)應(yīng)用形式可分為三類:
- 圖片生成視頻,常見的形式有相冊(cè)速覽視頻自動(dòng)生成;
- 視頻生成視頻片段,典型案例是長視頻精彩片段剪輯,變成更精簡的短視頻做二次分發(fā);
- 視頻像素級(jí)編輯,主要涉及精細(xì)化的畫面特效編輯。
下面,我們就三類應(yīng)用形式展開說明。
2.2.1 圖像生成視頻——餐飲場(chǎng)景 美食動(dòng)圖生成
第一類,圖像生成視頻。該部分要做的更多是針對(duì)圖像素材的理解和加工,使用戶對(duì)技術(shù)細(xì)節(jié)無感的前提下,一鍵端到端生成理想素材。如上圖所示,商家只需要輸入生產(chǎn)素材的圖像相冊(cè),一切交給AI算法:首先算法會(huì)自動(dòng)去除拍攝質(zhì)量較差的,不適合展示的圖片;然后做內(nèi)容識(shí)別,質(zhì)量分析。內(nèi)容識(shí)別包括內(nèi)容標(biāo)簽,質(zhì)量分析包括清晰度、美學(xué)分;由于原始圖像素材的尺寸難以直接適配目標(biāo)展位,需要根據(jù)美學(xué)評(píng)價(jià)模型,對(duì)圖像進(jìn)行智能裁切;最終,疊加Ken-Burns、轉(zhuǎn)場(chǎng)等特效,得到渲染結(jié)果。商家即可獲得一個(gè)編排精美的美食視頻。
2.2.2 圖像生成視頻——酒店場(chǎng)景 相冊(cè)速覽視頻生成
還有酒店場(chǎng)景下相冊(cè)速覽視頻生成的例子,相比動(dòng)圖,需要結(jié)合音頻與轉(zhuǎn)場(chǎng)特效的配合。同時(shí),視頻對(duì)優(yōu)先展示什么樣的內(nèi)容有更高要求,需要結(jié)合業(yè)務(wù)場(chǎng)景的特點(diǎn),根據(jù)設(shè)計(jì)師制定的腳本模板,通過算法自動(dòng)篩選特定類型的圖像填充到模板相應(yīng)位置。
2.2.3 視頻生成視頻片段
第二類,視頻生成視頻片段。主要是將長視頻切分并優(yōu)選出若干個(gè)更精彩、符合用戶預(yù)期的內(nèi)容作展示。從算法階段劃分為片段生成和片段篩選排序。片段生成部分,通過時(shí)序切分算法,獲取鏡頭片段及關(guān)鍵幀。片段排序部分,比較關(guān)鍵,它決定了視頻優(yōu)先順序。這也是比較困難的部分,它有兩個(gè)維度:
- 通用質(zhì)量維度,包含清晰度,美學(xué)分等;
- 語義維度,例如:在美食視頻中,菜品成品展示,制作過程等通常是比較精彩的片段。語義維度的理解主要是采用前面介紹的內(nèi)容理解模型來支持。
2.2.3.1 智能封面與精彩片段
原始封面
算法剪輯視頻(10s)
我們通過視頻生成視頻片段,實(shí)現(xiàn)了兩種應(yīng)用場(chǎng)景。一是智能動(dòng)態(tài)封面,主要基于通用基礎(chǔ)質(zhì)量優(yōu)選出清晰度更高、有動(dòng)態(tài)信息量、無閃爍卡頓的視頻片段作為視頻的封面,相比于默認(rèn)片段的效果更好。
2.2.4 視頻像素級(jí)編輯處理——菜品視頻特效
第三類,視頻像素級(jí)編輯。比如這里展示了一個(gè)基于視頻物體分割(VOS,Video Object Segmentation)技術(shù)的菜品創(chuàng)意特效,背后的關(guān)鍵技術(shù),是美團(tuán)自研的高效語義分割方法,該方法已在CVPR 2021發(fā)表了論文(Rethinking BiSeNet For Real-time Semantic Segmentation),感興趣的同學(xué),可以了解一下。
像素級(jí)編輯處理最重要的技術(shù)之一是語義分割,在應(yīng)用場(chǎng)景中面臨的主要技術(shù)挑戰(zhàn)是既要保證分割模型時(shí)效性,也要保證分辨率,保持高頻細(xì)節(jié)信息。我們對(duì)于經(jīng)典的BiSeNet方法做出了進(jìn)一步改進(jìn),提出了基于細(xì)節(jié)引導(dǎo)的高效語義分割方法。
具體的做法如網(wǎng)絡(luò)結(jié)構(gòu)所示,左邊淺藍(lán)色部分是網(wǎng)絡(luò)的推理框架,沿用了BiSeNet Context分支的設(shè)計(jì),Context分支的主干選用了我們自研的主干STDCNet。與BiSeNet不同的是,我們對(duì)Stage3進(jìn)行一個(gè)細(xì)節(jié)引導(dǎo)的訓(xùn)練,如右邊的淺綠色部分所示,引導(dǎo)Stage3學(xué)習(xí)細(xì)節(jié)特征;淺綠色部分只參與訓(xùn)練,不參與模型推理,因此不會(huì)造成額外的時(shí)間消耗。
首先對(duì)于分割的Ground Truth,我們通過不同步長的Laplacian卷積,獲取一個(gè)富集圖像邊緣和角點(diǎn)信息的細(xì)節(jié)真值;之后通過細(xì)節(jié)真值和設(shè)計(jì)的細(xì)節(jié)Loss來引導(dǎo)Stage3的淺層特征學(xué)習(xí)細(xì)節(jié)特征。由于圖像的細(xì)節(jié)真值前后背景分布嚴(yán)重不均衡,因此我們采用的是DICE loss和BCE loss聯(lián)合訓(xùn)練的方式;為了驗(yàn)證細(xì)節(jié)引導(dǎo)的有效性,我們做了這個(gè)實(shí)驗(yàn),從特征可視化的結(jié)果中可以看出多尺度獲取的細(xì)節(jié)真值對(duì)網(wǎng)絡(luò)進(jìn)行細(xì)節(jié)引導(dǎo)能獲得最好的結(jié)果,細(xì)節(jié)信息引導(dǎo)對(duì)模型的性能也有所提升。
效果方面,通過對(duì)比可以看出我們的方法對(duì)于分割細(xì)節(jié)的高頻信息保持具有較大的優(yōu)勢(shì)。
3. 總結(jié)展望
以上分享了美團(tuán)在視頻標(biāo)簽、視頻封面與剪輯、視頻細(xì)粒度像素級(jí)編輯技術(shù)領(lǐng)域,通過與業(yè)務(wù)場(chǎng)景的結(jié)合期望為商家和用戶提供更加智能的信息展示和獲取方式。未來,短視頻技術(shù)應(yīng)用方面,在美團(tuán)豐富的業(yè)務(wù)場(chǎng)景包括本地生活服務(wù)、零售電商,都會(huì)發(fā)揮更大的潛在價(jià)值。視頻理解技術(shù)方面,多模態(tài)自監(jiān)督訓(xùn)練,對(duì)于緩解標(biāo)注數(shù)據(jù)依賴,提升模型在復(fù)雜業(yè)務(wù)場(chǎng)景的泛化性能方面非常有價(jià)值,我們也在做一些嘗試和探索。
4. 本文作者
馬彬,美團(tuán)視覺智能部工程師。