#AIGC創(chuàng)新先鋒者征文大賽#去哪兒國(guó)際酒店AI生成視頻實(shí)踐 原創(chuàng)
1.視頻生成挑戰(zhàn)與機(jī)遇
我們首先來(lái)看看,國(guó)際酒店視頻生成所遇到的挑戰(zhàn)。
隨著AIGC技術(shù)的發(fā)展,我們關(guān)注其在實(shí)際業(yè)務(wù)中的應(yīng)用。我們認(rèn)識(shí)到AIGC已具備生成視頻的能力,且我們的業(yè)務(wù)對(duì)此有相應(yīng)的需求。
因此,我們首先確定了使用AIGC生成視頻的場(chǎng)景。
接下來(lái),我們考慮如何將視頻制作工程化,并確保視頻質(zhì)量?;氐揭曨l本身,目前其核心元素有兩點(diǎn):文案和圖片。我們需要審視現(xiàn)有的文案和圖片資源,通過(guò)組織這些內(nèi)容生成視頻,并以賦能現(xiàn)有業(yè)務(wù)作為終點(diǎn)。
在制作視頻時(shí),我們面臨的第一個(gè)問(wèn)題是素材選擇。我們手頭的素材已經(jīng)明確,包括基礎(chǔ)的文案、圖片信息和用戶點(diǎn)評(píng),這些素材需要精心挑選并有效利用以生成視頻。
素材選擇的難點(diǎn)在于信息的篩選和利用。例如,酒店圖片質(zhì)量參差不齊,高星酒店的圖片通常更清晰,成為視頻的亮點(diǎn),但并非所有酒店的圖片都具備這一特性。此外,用戶點(diǎn)評(píng)中包含多種語(yǔ)言,翻譯后的信息可能無(wú)法直接使用。
面對(duì)這些挑戰(zhàn),我們需要找到解決方案,以確保視頻內(nèi)容的質(zhì)量和準(zhǔn)確性。
接下來(lái)談?wù)勌魬?zhàn)背后我們看到一些機(jī)遇。
圍繞著國(guó)際酒店業(yè)務(wù)的異國(guó)風(fēng)情特征,我們沉淀了高度多樣化的信息。
對(duì)于觀眾觀看體驗(yàn)來(lái)說(shuō),視頻不僅僅是展示酒店,更重要的是通過(guò)視頻傳達(dá)酒店所在區(qū)域的多樣性,以及與本地酒店不同的特色和定位。
我們面臨的問(wèn)題是國(guó)際酒店視頻的制作是否能夠成功,以下是我列出一些可行性的數(shù)據(jù)支撐:
-
國(guó)際酒店視頻覆蓋率低。在開(kāi)始之前,我們發(fā)現(xiàn)國(guó)際酒店視頻的覆蓋率大約為19.6%,顯示了巨大的提升空間。
-
視頻對(duì)轉(zhuǎn)化有明顯提升。去年,我們對(duì)高星酒店視頻進(jìn)行了測(cè)試,結(jié)果顯示視頻顯著提高了用戶的轉(zhuǎn)化率。
-
國(guó)內(nèi)酒店有視頻生成經(jīng)驗(yàn)。國(guó)內(nèi)酒店已經(jīng)針對(duì)低星酒店生成了視頻,這驗(yàn)證了我們已經(jīng)具備基礎(chǔ)的視頻制作能力。
基于這些基礎(chǔ),我們確定了國(guó)際酒店視頻制作需要具備的三個(gè)基本特征:風(fēng)格多樣性、內(nèi)容多樣性和元素多樣性。
2.專業(yè)影視生成流程AI化
我們將專業(yè)影視生產(chǎn)流程簡(jiǎn)化為四個(gè)關(guān)鍵步驟:
第一,策劃創(chuàng)意。
第二,分鏡創(chuàng)作。
第三,現(xiàn)場(chǎng)拍攝。
第四,后期剪輯。
圍繞這四個(gè)過(guò)程,我們用上圖簡(jiǎn)單介紹一下。
以上圖的片段為例,每個(gè)分鏡會(huì)有文案描述她的動(dòng)作,并配有女生說(shuō)的話或者內(nèi)心獨(dú)白來(lái)展現(xiàn)劇情。
通過(guò)這些元素的組合,我們能夠制作出一個(gè)連貫的影視片段。每個(gè)分鏡都由圖片或視頻、文案和語(yǔ)音組成,經(jīng)過(guò)后期剪輯,形成一個(gè)完整的小視頻。這是影視制作中的基本流程。
基于上述內(nèi)容,我們來(lái)看看,視頻制作流程的AI化。
視頻本質(zhì)上由多個(gè)分鏡構(gòu)成的,每個(gè)分鏡都包含圖片、文案、配樂(lè)等核心元素。在AI的幫助下對(duì)素材進(jìn)行加工,從而生成每個(gè)分鏡的內(nèi)容。
隨后,通過(guò)轉(zhuǎn)場(chǎng)動(dòng)畫和特效,將各個(gè)分鏡流暢地拼接成一個(gè)完整的視頻。
3.AI生成視頻實(shí)踐
具體到AI生成視頻的實(shí)踐中,我們還會(huì)面臨一個(gè)問(wèn)題,就是判斷視頻質(zhì)量高低的標(biāo)準(zhǔn)——如何生成一個(gè)用戶愿意觀看的內(nèi)容?
我們總結(jié)優(yōu)質(zhì)視頻有以下關(guān)鍵因素:
首先,我們強(qiáng)調(diào)價(jià)值趣味,這涉及到劇情設(shè)計(jì)和分鏡的構(gòu)思。我們需要考慮如何設(shè)計(jì)分鏡,以及是否有合適的模板來(lái)更好地連接每個(gè)分鏡。
緊接著是清晰畫質(zhì),我們追求1080p甚至4K的高清標(biāo)準(zhǔn),確保用戶在觀看時(shí)不會(huì)因?yàn)楫嬞|(zhì)問(wèn)題而感到不適。
最重要的,視頻的主題應(yīng)該是優(yōu)質(zhì)的。我們的目標(biāo)不僅是畫質(zhì)和設(shè)計(jì)方面的精良,更要傳達(dá)出酒店的亮點(diǎn)和特色,讓用戶通過(guò)視頻就能直觀感受到酒店的魅力。
最終,我們希望用戶在觀看視頻后,愿意分享視頻。
基于優(yōu)質(zhì)視頻的基礎(chǔ)元素,我們規(guī)劃了視頻生成的業(yè)務(wù)流程。
第一步,素材選取。我們首先提取圖片和文字素材,并進(jìn)行去重和高清處理,確保基礎(chǔ)素材的質(zhì)量。對(duì)于文字,特別是小語(yǔ)種,我們會(huì)進(jìn)行翻譯和亮點(diǎn)抽取,以適應(yīng)不同語(yǔ)言環(huán)境的需求,達(dá)到實(shí)際可用的水平。
第二步,預(yù)處理階段。這個(gè)階段的目標(biāo)是讓圖片和文字滿足用戶的基本要求。我們還會(huì)根據(jù)需要,將文字輸入到大語(yǔ)言模型中,圖片則輸入到多模態(tài)大模型中,進(jìn)行再加工。
第三步,分鏡制作。我們會(huì)大量運(yùn)用運(yùn)鏡和特效技術(shù),模擬用戶實(shí)際觀察酒店的視角和動(dòng)態(tài)效果。例如,對(duì)于酒店外景,我們會(huì)模擬用戶走近酒店的動(dòng)作,使用拉近效果;對(duì)于房型圖片,則模擬用戶在房間內(nèi)的視線移動(dòng),通過(guò)左右遷移來(lái)增強(qiáng)現(xiàn)場(chǎng)感,讓用戶感覺(jué)身臨其境。此外,我們還會(huì)根據(jù)場(chǎng)景添加特效,如海島場(chǎng)景的疊化和模糊效果,夜晚場(chǎng)景的星星特效,營(yíng)造更豐富的意境。
最后一步,模板剪輯合成。在這個(gè)階段,我們將每個(gè)分鏡與旁白結(jié)合,將完成的每個(gè)分鏡,利用多套模板進(jìn)行合成,通過(guò)特效和音樂(lè)確保視頻的絲滑過(guò)渡,避免生硬感,最終生成一個(gè)完整的視頻。
接下來(lái)我們看一下從業(yè)務(wù)層面,來(lái)看整個(gè)視頻的生成。通常來(lái)講我們還是以每個(gè)分鏡作為我們的基礎(chǔ)單元,構(gòu)建以業(yè)務(wù)為核心的生產(chǎn)流程。
在構(gòu)建業(yè)務(wù)模型時(shí),底層的是AI技術(shù)的能力。這些能力包括文本預(yù)處理、圖片預(yù)處理、大語(yǔ)言模型、多模態(tài)模型以及分鏡制作和模板合成等,它們各自獨(dú)立,為自研提供通用能力。
這種設(shè)計(jì)的優(yōu)勢(shì)在于,一旦上層思路確定,我們可以自由決定使用適合的AI能力,個(gè)性化的適配不同酒店需求。
業(yè)務(wù)模型的上層,是業(yè)務(wù)規(guī)則。前面也提到過(guò),國(guó)際酒店的地域文化差異顯著,我們采用定制化策略,使得視頻與酒店的定位相匹配,避免視頻的千篇一律。
接下來(lái)重點(diǎn)講下模板,模版讓我們以不同的方式組裝分鏡,業(yè)務(wù)的多樣性決定了我們模版的多樣性。
目前核心模版分這幾類,商業(yè)簡(jiǎn)約風(fēng)格、豪華&奢華風(fēng)格、海島風(fēng)情、日式風(fēng)格等等。
我們與公司的UI團(tuán)隊(duì)展開(kāi)合作,由他們?cè)O(shè)計(jì)相應(yīng)的模板,確保視頻展示方式與酒店的特色相匹配,從而提升視頻的整體效果。
通過(guò)這種方式,我們的平臺(tái)AI能力在多方面得到了有效沉淀。
去哪兒網(wǎng)的業(yè)務(wù)線、算法和AI技術(shù)架構(gòu)是分開(kāi)的,通常采用合作的方式來(lái)完成工作,因此我們會(huì)實(shí)現(xiàn)各AI能力的單獨(dú)擴(kuò)展,由業(yè)務(wù)方自主選擇并以插件形式復(fù)用所需能力。
這里包含文案處理、圖片處理等多種AI能力的插件。
接下來(lái)簡(jiǎn)單講下,AI對(duì)于多語(yǔ)種翻譯的增強(qiáng)。
我們的翻譯實(shí)踐表明,在處理27種語(yǔ)言時(shí),傳統(tǒng)神經(jīng)網(wǎng)絡(luò)+深度學(xué)習(xí)雖然能實(shí)現(xiàn)基本的"信"(準(zhǔn)確傳達(dá)原意),但往往缺乏"達(dá)"(通順)和"雅"(情感和風(fēng)格)。
通過(guò)使用GPT-3.5,我們能夠提升翻譯質(zhì)量至7到8分,效果與使用谷歌翻譯差不多,如果使用GPT-4,效果還會(huì)更好。
小語(yǔ)種翻譯尤其受益于大型語(yǔ)言模型,但也要注意在成本上獲得平衡。
接下來(lái)說(shuō)一下AI對(duì)多模態(tài)生成的加強(qiáng)。
在生成視頻方面,我們主要嘗試過(guò)Pika和Runway平臺(tái)?;赗unway的Gen-2模型,通過(guò)精細(xì)調(diào)整參數(shù)并確保內(nèi)容符合物理邏輯,我們能夠創(chuàng)造出逼真的圖像,例如模擬真實(shí)的海浪動(dòng)態(tài)。我們注意到,如果不進(jìn)行特殊控制,生成的海浪可能不符合自然現(xiàn)象(上圖)。因此,我們?cè)诙嗄B(tài)生成中特別強(qiáng)調(diào)物理邏輯的準(zhǔn)確性。
目前,Runway在生成效果方面表現(xiàn)最強(qiáng),盡管它的API接口尚未完全開(kāi)放。一旦開(kāi)放,預(yù)計(jì)將極大促進(jìn)我們的多模態(tài)生成工作。
不過(guò),即使有了強(qiáng)大的工具,參數(shù)的調(diào)整仍然非常關(guān)鍵。
4.視頻生成成果展示與思考
我們來(lái)看一下視頻生成的成果展示。
下面這個(gè)視頻是典型的簡(jiǎn)約商務(wù)酒店風(fēng)格,通過(guò)左右移動(dòng),模擬用戶進(jìn)入房間的觀看效果。(為方便展示,視頻經(jīng)過(guò)壓縮,原視頻清晰度為1080p)。
接下來(lái)同樣是一個(gè)簡(jiǎn)約商務(wù)酒店,這個(gè)酒店的特點(diǎn)是周圍的地標(biāo)建筑。
在做簡(jiǎn)約商務(wù)酒店的視頻時(shí),還會(huì)進(jìn)行元素定制,突出酒店的亮點(diǎn)、對(duì)用戶度假時(shí)特別關(guān)注的問(wèn)題進(jìn)行強(qiáng)調(diào),例如位于普吉島的酒店是否有免費(fèi)的無(wú)邊泳池等。
接下來(lái)是一個(gè)日式和風(fēng)酒店。
接下來(lái),是在AI能力基礎(chǔ)上,進(jìn)行過(guò)簡(jiǎn)單的人工加工的海島視頻。
這里邊有了很多特效以及動(dòng)態(tài),讓觀看者能感受到輕松、浪漫的氣氛。
最后講一下視頻的數(shù)據(jù)結(jié)果,這是我們APP里的展現(xiàn)形式,默認(rèn)是在目前打開(kāi)詳情頁(yè)的位置進(jìn)行播放,上線后效果相對(duì)提升6%。
5.總結(jié)
在AI生成視頻的過(guò)程中,我們也踩過(guò)坑、積累了不少經(jīng)驗(yàn)。比如,最開(kāi)始我們會(huì)強(qiáng)調(diào)支持4K以提供高清體驗(yàn),但考慮到實(shí)際手機(jī)端的加載情況,最終選擇了1080p作為標(biāo)準(zhǔn)。
再比如,剛開(kāi)始實(shí)踐時(shí),我們執(zhí)著于使用旁白朗讀文案。但在實(shí)際測(cè)試中發(fā)現(xiàn),優(yōu)美的背景音樂(lè)配合高清圖片更適合高端酒店。
在動(dòng)畫和動(dòng)態(tài)圖片的運(yùn)用上,圖片的動(dòng)態(tài)化會(huì)為吸引力加成,但是物理規(guī)律的準(zhǔn)確性特別重要。
展望未來(lái),我們計(jì)劃在提供視頻生成能力的同時(shí),實(shí)現(xiàn)對(duì)高端酒店的定制化覆蓋。我們將根據(jù)不同酒店的風(fēng)格定制視頻內(nèi)容,包括風(fēng)格、場(chǎng)景和亮點(diǎn),并針對(duì)不同客群展示相應(yīng)酒店視頻,同時(shí)為運(yùn)營(yíng)團(tuán)隊(duì)提供快速響應(yīng)市場(chǎng)的能力,為他們順利與酒店達(dá)成合作助力。
目前,生成一個(gè)視頻的成本大約是1.25元,時(shí)間大約在半分鐘到一分鐘左右,這是一個(gè)高效具備高成本效益的解決方案。
【本文正在參與 AI.x社區(qū)AIGC創(chuàng)新先鋒者征文大賽】http://www.scjtxx.cn/aigc/2223.html
