百度內(nèi)容生態(tài)視頻AIGC新探索 原創(chuàng)
嘉賓 | 張寶玉
編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
本文整理自百度內(nèi)容生態(tài)內(nèi)容架構(gòu)技術(shù)負(fù)責(zé)人張寶玉WOT2024大會(huì)上的主題分享,更多精彩內(nèi)容及現(xiàn)場(chǎng)PPT,請(qǐng)關(guān)注51CTO技術(shù)棧公眾號(hào),發(fā)送【W(wǎng)OT】即可直接領(lǐng)取。
日前,在51CTO主辦的WOT全球技術(shù)創(chuàng)新大會(huì)上,百度內(nèi)容生態(tài)內(nèi)容架構(gòu)技術(shù)負(fù)責(zé)人張寶玉帶來(lái)了主題演講《百度內(nèi)容生態(tài)視頻AIGC新探索》,圍繞著大眾化的視頻創(chuàng)作的場(chǎng)景,詳細(xì)介紹了百度內(nèi)容生態(tài)加團(tuán)隊(duì)在打造一站式AI視頻創(chuàng)作平臺(tái)的實(shí)踐經(jīng)驗(yàn)與深入思考。
本文將摘選其中精彩內(nèi)容,統(tǒng)一整理,希望為諸君帶來(lái)啟發(fā)。
如今我們身處內(nèi)容生產(chǎn)的3.0時(shí)代,有了AI技術(shù)的加持,內(nèi)容生產(chǎn)的形式或者門檻進(jìn)一步拉低,將有望重塑整個(gè)內(nèi)容生產(chǎn)的態(tài)勢(shì)。因此,當(dāng)視頻和AI相結(jié)合的時(shí)候,會(huì)有一個(gè)什么樣的發(fā)展動(dòng)向,這是我們需要思考的一個(gè)問(wèn)題。
傳統(tǒng)的視頻內(nèi)容生產(chǎn)的形式,主要分為這四個(gè)環(huán)節(jié):視頻創(chuàng)意、視頻腳本、視頻素材、視頻剪輯。
圖片
那么,在整個(gè)視頻的生產(chǎn)鏈路中,AI能在哪個(gè)環(huán)節(jié)去做助力或改造呢?
兩年前我們開(kāi)始研發(fā)“度加”產(chǎn)品,它的定位是做一個(gè)一站式、全流程的AI視頻創(chuàng)作工具,覆蓋了剛才提到的完整的視頻生產(chǎn)的流程,比如,提供幫你創(chuàng)意文案生成的能力,迅速組裝或者成片的能力,海量素材推薦的能力等等。最后,針對(duì)一些實(shí)際視頻生產(chǎn)當(dāng)中的痛點(diǎn),比如視頻的增益價(jià)值的加強(qiáng)方面,我們還輔助做了AI數(shù)字人的能力。
1.視頻文案生成的典型問(wèn)題
首先,創(chuàng)意文案生成方面,這是一條視頻內(nèi)容的起點(diǎn)。
在文案生成上,百度文心一言作為基礎(chǔ)模型,有著強(qiáng)大的文案生成能力,基于大模型的接入,我們?cè)诂F(xiàn)有的產(chǎn)品上做了一些充分、勇敢的應(yīng)用。
比如,一位作者想要?jiǎng)?chuàng)作視頻創(chuàng)作腳本,從零開(kāi)始寫(xiě)創(chuàng)作難免費(fèi)時(shí)費(fèi)力,因?yàn)椴皇撬袆?chuàng)作者都有很強(qiáng)的文案能力。
這時(shí)候,我們首先要解決的就是,為創(chuàng)作者提供根據(jù)創(chuàng)意生成一個(gè)可實(shí)用的文案腳本的能力,這里我們就引入了大模型的改寫(xiě)、潤(rùn)色和擴(kuò)寫(xiě)的能力。這里面我們發(fā)現(xiàn)有兩個(gè)技術(shù)細(xì)節(jié)的問(wèn)題:指令跟隨和真實(shí)性。
圖片
對(duì)于指令跟隨的問(wèn)題,主要的解決方法就是去基于基座模型去做微調(diào),這里分享幾個(gè)SFT的原則,沿著這個(gè)原則,可以幫助縮短微調(diào)的周期,同時(shí)效果也能夠有較大的提升。
圖片
第一,微調(diào)的物料要追求質(zhì)量,而不數(shù)量。第二,微調(diào)一些指令時(shí),要清晰明確;第三,避免一些模糊的回答。第四,因?yàn)槲覀兤脚_(tái)是全垂類的創(chuàng)作平臺(tái),不是為某一個(gè)垂類覆蓋,所以在微調(diào)時(shí)候的數(shù)據(jù)要盡量做到多樣化和高覆蓋。
接下來(lái)真實(shí)性的問(wèn)題如何解決?我們現(xiàn)在解決的方法還是用RAG增強(qiáng)。這里值得一提的是,我們自建了兩個(gè)較豐富的事件源:事件檢索庫(kù)、熱議接口。
圖片
前者依賴的是原來(lái)百度的知識(shí)圖譜所積累出來(lái)的事件檢索,這個(gè)庫(kù)的豐富性和時(shí)效性是能夠得到基礎(chǔ)保障的。后者則依托于百度熱榜和熱議搜索的能力,以及搜索事件的首發(fā)的特性,根據(jù)熱議接口我們會(huì)去糾正一些事實(shí)性的錯(cuò)誤。基于這兩個(gè)增強(qiáng),我們能夠把文案生成的一些事實(shí)性錯(cuò)誤的概率降到很低的水平。
經(jīng)過(guò)這些優(yōu)化,根據(jù)內(nèi)部自評(píng),文案生成的可用率能提升30%左右?,F(xiàn)在這一版的截圖的效果是我們線上截下來(lái)的一個(gè)實(shí)際案例,大家也可以在產(chǎn)品上自己進(jìn)行體驗(yàn)。
圖片
2.AI成片的技術(shù)路線及實(shí)踐優(yōu)化
生成了可用的視頻腳本方案之后,接下來(lái)就是視頻生成的步驟。目前大家更為熟悉的技術(shù)路線是類似Sora的文生視頻的生成式方式,但它也面臨著很多現(xiàn)實(shí)性的問(wèn)題,我這里邊列舉了三個(gè)。第一,生成視頻有虛構(gòu)場(chǎng)景。第二,雖然是端到端生成的,但目前生成的可用的視頻的長(zhǎng)度較短;第三,用來(lái)生成視頻的耗時(shí)又很長(zhǎng)。因此,在做真正的產(chǎn)品化時(shí),這些問(wèn)題都需要解決。
于是我們從產(chǎn)品的角度去思考實(shí)際能夠?yàn)橛脩籼峁﹥r(jià)值的技術(shù)路線?我們選擇了采編式的技術(shù)生成路線。
圖片
需要注意的是,采編式跟生成式兩種路線是協(xié)同,而非沖突的。在采編式的技術(shù)路線中,很多素材、片段的生成都采用了一些生成式的成果。采編式路線會(huì)先組織生成核心的要素素材,然后通過(guò)編排技術(shù)去把這些素材按照預(yù)設(shè)的腳本生成一個(gè)可應(yīng)用的視頻結(jié)果。
采編式的路線優(yōu)勢(shì)在于更契合于生產(chǎn)場(chǎng)景,為創(chuàng)作者提供更可用的視頻,同時(shí)生產(chǎn)出的視頻能夠給C端的瀏覽用戶提供價(jià)值,而不僅僅是一個(gè)demo。
整體上的技術(shù)架構(gòu),分為三個(gè)部分:
- 話題與文檔質(zhì)量,解決可用文案的問(wèn)題;
- 多模態(tài)素材,這里不僅包括這個(gè)視頻片段本身描述的是人物或風(fēng)景等等,還包括諸如BGM音樂(lè)、特效、片花、動(dòng)效等等,這些多模態(tài)素材,也都會(huì)做一個(gè)統(tǒng)一的做編排候選。
- 最后則是序列生成。
圖片
此外,就整個(gè)系統(tǒng)構(gòu)建來(lái)說(shuō),還要充分考慮它的產(chǎn)品化落地。因?yàn)閮?nèi)部要應(yīng)用于多個(gè)產(chǎn)品線,就要考慮它的通用性、靈活性和接入便利性。
在工程化的角度來(lái)看,也要考慮系統(tǒng)的耗時(shí)和成本問(wèn)題。這些都是我們?cè)诩軜?gòu)這套系統(tǒng)的時(shí)候要考慮的因素。
圖片
編排過(guò)程中,早期采用的傳統(tǒng)的基于貪心策略的素材編排算法,貪心策略只能做到局部的最優(yōu),保證你句子跟素材之間的相關(guān)性,但是從全局看,就會(huì)存在諸多問(wèn)題,比如一致性不夠,整個(gè)視頻的風(fēng)格會(huì)混亂,素材之間有跳躍等等,而這些問(wèn)題恰恰導(dǎo)致生成的視頻變成了一個(gè)Demo,而不是一個(gè)可產(chǎn)品化落地的結(jié)果。
經(jīng)過(guò)迭代,目前線上采用的是跨模態(tài)序列生成的方法,迭代的地方在于,除了考慮錨點(diǎn)關(guān)鍵句和素材之間的匹配性以外,我們還要考慮目前已經(jīng)采編的素材序列的一致性、全文的相關(guān)性。這樣,整個(gè)編排的效果在素材一致性、風(fēng)格一致性、內(nèi)容一致性上都得到了顯著提升。
圖片
這里還有第二個(gè)問(wèn)題,即生成式的內(nèi)容存在一些片段“無(wú)中生有”的情況,這時(shí)候就需要一些事件類的素材來(lái)補(bǔ)充這個(gè)視頻的內(nèi)容。
為了解決這個(gè)問(wèn)題,我們?cè)谒夭膩?lái)源方面做了很多工作,將素材分了很多分類,并進(jìn)行了大規(guī)模擴(kuò)充。
目前素材庫(kù)大概有幾億條素材,它的更新數(shù)量每個(gè)月能達(dá)到數(shù)千萬(wàn)。新熱素材的收錄和生成式效益能做到五分鐘以內(nèi),可用性能做到96%。
圖片
素材庫(kù)構(gòu)建方面,有兩種方法原生生成和視頻抽取。前者只能解決一些創(chuàng)意素材的補(bǔ)充,而對(duì)于事實(shí)類素材的補(bǔ)充,視頻抽取技術(shù)會(huì)相對(duì)成熟一些。
但在實(shí)際落地工程化中,會(huì)遇到比如在抽幀和跳幀時(shí)候一些幻影的問(wèn)題,可以通過(guò)3D卷積的方法做優(yōu)化,目前抽幀的可用率和單位母視頻抽幀的結(jié)果的比率都是較高的狀態(tài)。
圖片
此外,對(duì)于素材質(zhì)量良莠不齊的問(wèn)題,可以采用質(zhì)量過(guò)濾和質(zhì)量增強(qiáng)的方法進(jìn)行質(zhì)量提升。
值得注意的是素材理解。因?yàn)槲覀冃枰牟粌H僅是素材庫(kù),不僅是一個(gè)原始的視頻片段庫(kù),更需要相應(yīng)的描述信息。
大家都知道,短視頻是有自己的描述的,但是抽象成素材之后,相關(guān)片段的可描述數(shù)據(jù),跟原始視頻的描述性數(shù)據(jù)不是一個(gè)簡(jiǎn)單的繼承關(guān)系,因此在繼承的時(shí)候,需要做一個(gè)質(zhì)量增強(qiáng)。這里我們應(yīng)用現(xiàn)在的模型技術(shù)把目前的很多的質(zhì)量控制和增強(qiáng)的小模型做了一個(gè)抽象,形成了一個(gè)內(nèi)容理解的大模型。目前線上20多種問(wèn)題都可以統(tǒng)一由該問(wèn)題進(jìn)行解決。
圖片
3.AI成片的工程挑戰(zhàn)及優(yōu)化
除了質(zhì)量效果上的問(wèn)題以外,還有一些工程的問(wèn)題。構(gòu)建過(guò)程中,會(huì)面臨四種挑戰(zhàn):安全、穩(wěn)定、成本、時(shí)延。
圖片
這里重點(diǎn)分享成本和時(shí)延這兩塊內(nèi)容。
首先是時(shí)延方面。從生產(chǎn)鏈路上看,主要耗時(shí)的地方在于素材收集和場(chǎng)景編排。比如其中場(chǎng)景編排耗時(shí)的原因是要覆蓋全場(chǎng)景、全垂類所導(dǎo)致的。
針對(duì)這些耗時(shí)的點(diǎn),可以采用兩種優(yōu)化方法:調(diào)度優(yōu)化和算子優(yōu)化。改進(jìn)策略是采用分層異步的調(diào)度框架去解決整個(gè)吞吐延時(shí)的問(wèn)題,主要目的是減少目前生成任務(wù)的阻塞。另外,在整個(gè)系統(tǒng)當(dāng)中,也做了分層緩存處理。
算法優(yōu)化方面,主要針對(duì)生產(chǎn)鏈路中有一些比較重型的算子,針對(duì)這些算子可能要拆開(kāi)來(lái)看,具體做優(yōu)化,比如,首先,分析算子的瓶頸實(shí)在I/O還是CPU/GPU計(jì)算,進(jìn)而對(duì)算子進(jìn)行服務(wù)化和拆分;其次,圖調(diào)度方面的優(yōu)化:整個(gè)幀圖的復(fù)用、緩存的復(fù)用、預(yù)處理結(jié)果、模型理解結(jié)果的復(fù)用等;第三,模型層面聯(lián)合策略同學(xué)去做了多目標(biāo)的視頻推理或視頻理解模型;第四,模型加速方面,目前有計(jì)算優(yōu)化和顯存優(yōu)化以及模型壓縮的方法。
圖片
作為一個(gè)線上產(chǎn)品化的視頻生產(chǎn)系統(tǒng),不可避免地要考慮成本的問(wèn)題。目前系統(tǒng)成本的開(kāi)銷主要包含三部分:計(jì)算成本、大模型成本,存儲(chǔ)成本。
圖片
針對(duì)計(jì)算成本,除了剛才講到模型的優(yōu)化,我們還對(duì)模型構(gòu)建的服務(wù)框架也做了迭代升級(jí)。此外,還在部署級(jí)別,內(nèi)部推動(dòng)整個(gè)算子的混部,時(shí)間級(jí)調(diào)度方面,通過(guò)潮汐調(diào)度的方法,可以將使整體資源利用更充分; 在硬件層面,我們?cè)谝恍┬碌腦PU的硬件上采用百度自研的昆侖芯片,在整體利用率上,目前能做到的千卡的推理卡的利用率可以做到月均35%,較之前得到了大幅提升。
圖片
大模型成本方面,我們根據(jù)目前的付費(fèi)模式做了一些優(yōu)化,比如說(shuō)大模型應(yīng)用以類似手機(jī)流量的方式去售賣,可以購(gòu)買月包或者小時(shí)包。
應(yīng)用在全產(chǎn)品線就需要錄制自己的流量,這樣可以預(yù)測(cè)流量的波形。預(yù)估流量和實(shí)際采用的流量是非常接近的,這樣就能減少我們不必要的大模型的成本的購(gòu)買。
圖片
4.數(shù)字人視頻制作案例分享
在數(shù)字人視頻方向,需要解決以下問(wèn)題。第一,形象復(fù)刻的能力,這方面我們自研和加強(qiáng)了一些綠幕摳像的算法,能夠提升整個(gè)人物的質(zhì)感;在成本方面,面向普通的創(chuàng)作者也做到了低成本創(chuàng)作;此外,還需要解決諸如時(shí)延、形象逼真等問(wèn)題。
圖片
值得一提的是,在整個(gè)數(shù)字人錄制的過(guò)程中,我們?cè)黾右恍┯脩艨蛇x的關(guān)鍵素材的匹配功能,主播在播放的時(shí)候,右側(cè)會(huì)彈出一個(gè)小窗,來(lái)顯示出當(dāng)前的一些關(guān)鍵事件的影像錄制,這個(gè)能力恰好能解決一些實(shí)時(shí)播報(bào)過(guò)程中口播作者的痛點(diǎn)。
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭
