#AIGC創(chuàng)新先鋒者征文大賽#百度內容生態(tài)視頻AIGC新探索 原創(chuàng)
如今我們身處內容生產(chǎn)的3.0時代,有了AI技術的加持,內容生產(chǎn)的形式或者門檻進一步拉低,將有望重塑整個內容生產(chǎn)的態(tài)勢。因此,當視頻和AI相結合的時候,會有一個什么樣的發(fā)展動向,這是我們需要思考的一個問題。
傳統(tǒng)的視頻內容生產(chǎn)的形式,主要分為這四個環(huán)節(jié):視頻創(chuàng)意、視頻腳本、視頻素材、視頻剪輯。
那么,在整個視頻的生產(chǎn)鏈路中,AI能在哪個環(huán)節(jié)去做助力或改造呢?
兩年前我們開始研發(fā)“度加”產(chǎn)品,它的定位是做一個一站式、全流程的AI視頻創(chuàng)作工具,覆蓋了剛才提到的完整的視頻生產(chǎn)的流程,比如,提供幫你創(chuàng)意文案生成的能力,迅速組裝或者成片的能力,海量素材推薦的能力等等。最后,針對一些實際視頻生產(chǎn)當中的痛點,比如視頻的增益價值的加強方面,我們還輔助做了AI數(shù)字人的能力。
1.視頻文案生成的典型問題
首先,創(chuàng)意文案生成方面,這是一條視頻內容的起點。
在文案生成上,百度文心一言作為基礎模型,有著強大的文案生成能力,基于大模型的接入,我們在現(xiàn)有的產(chǎn)品上做了一些充分、勇敢的應用。
比如,一位作者想要創(chuàng)作視頻創(chuàng)作腳本,從零開始寫創(chuàng)作難免費時費力,因為不是所有創(chuàng)作者都有很強的文案能力。
這時候,我們首先要解決的就是,為創(chuàng)作者提供根據(jù)創(chuàng)意生成一個可實用的文案腳本的能力,這里我們就引入了大模型的改寫、潤色和擴寫的能力。這里面我們發(fā)現(xiàn)有兩個技術細節(jié)的問題:指令跟隨和真實性。
對于指令跟隨的問題,主要的解決方法就是去基于基座模型去做微調,這里分享幾個SFT的原則,沿著這個原則,可以幫助縮短微調的周期,同時效果也能夠有較大的提升。
- 第一,微調的物料要追求質量,而不數(shù)量;
- 第二,微調一些指令時,要清晰明確;
- 第三,避免一些模糊的回答;
- 第四,因為我們平臺是全垂類的創(chuàng)作平臺,不是為某一個垂類覆蓋,所以在微調時候的數(shù)據(jù)要盡量做到多樣化和高覆蓋。
接下來真實性的問題如何解決?我們現(xiàn)在解決的方法還是用RAG增強。這里值得一提的是,我們自建了兩個較豐富的事件源:事件檢索庫、熱議接口。
前者依賴的是原來百度的知識圖譜所積累出來的事件檢索,這個庫的豐富性和時效性是能夠得到基礎保障的。后者則依托于百度熱榜和熱議搜索的能力,以及搜索事件的首發(fā)的特性,根據(jù)熱議接口我們會去糾正一些事實性的錯誤?;谶@兩個增強,我們能夠把文案生成的一些事實性錯誤的概率降到很低的水平。
經(jīng)過這些優(yōu)化,根據(jù)內部自評,文案生成的可用率能提升30%左右?,F(xiàn)在這一版的截圖的效果是我們線上截下來的一個實際案例,大家也可以在產(chǎn)品上自己進行體驗。
2.AI成片的技術路線及實踐優(yōu)化
生成了可用的視頻腳本方案之后,接下來就是視頻生成的步驟。目前大家更為熟悉的技術路線是類似Sora的文生視頻的生成式方式,但它也面臨著很多現(xiàn)實性的問題,我這里邊列舉了三個。
- 第一,生成視頻有虛構場景;
- 第二,雖然是端到端生成的,但目前生成的可用的視頻的長度較短;
- 第三,用來生成視頻的耗時又很長。因此,在做真正的產(chǎn)品化時,這些問題都需要解決。
于是我們從產(chǎn)品的角度去思考實際能夠為用戶提供價值的技術路線?我們選擇了采編式的技術生成路線。
需要注意的是,采編式跟生成式兩種路線是協(xié)同,而非沖突的。在采編式的技術路線中,很多素材、片段的生成都采用了一些生成式的成果。采編式路線會先組織生成核心的要素素材,然后通過編排技術去把這些素材按照預設的腳本生成一個可應用的視頻結果。
采編式的路線優(yōu)勢在于更契合于生產(chǎn)場景,為創(chuàng)作者提供更可用的視頻,同時生產(chǎn)出的視頻能夠給C端的瀏覽用戶提供價值,而不僅僅是一個demo。
整體上的技術架構,分為三個部分:
- 話題與文檔質量,解決可用文案的問題;
- 多模態(tài)素材,這里不僅包括這個視頻片段本身描述的是人物或風景等等,還包括諸如BGM音樂、特效、片花、動效等等,這些多模態(tài)素材,也都會做一個統(tǒng)一的做編排候選。
- 最后則是序列生成。
此外,就整個系統(tǒng)構建來說,還要充分考慮它的產(chǎn)品化落地。因為內部要應用于多個產(chǎn)品線,就要考慮它的通用性、靈活性和接入便利性。
在工程化的角度來看,也要考慮系統(tǒng)的耗時和成本問題。這些都是我們在架構這套系統(tǒng)的時候要考慮的因素。
編排過程中,早期采用的傳統(tǒng)的基于貪心策略的素材編排算法,貪心策略只能做到局部的最優(yōu),保證你句子跟素材之間的相關性,但是從全局看,就會存在諸多問題,比如一致性不夠,整個視頻的風格會混亂,素材之間有跳躍等等,而這些問題恰恰導致生成的視頻變成了一個Demo,而不是一個可產(chǎn)品化落地的結果。
經(jīng)過迭代,目前線上采用的是跨模態(tài)序列生成的方法,迭代的地方在于,除了考慮錨點關鍵句和素材之間的匹配性以外,我們還要考慮目前已經(jīng)采編的素材序列的一致性、全文的相關性。這樣,整個編排的效果在素材一致性、風格一致性、內容一致性上都得到了顯著提升。
這里還有第二個問題,即生成式的內容存在一些片段“無中生有”的情況,這時候就需要一些事件類的素材來補充這個視頻的內容。
為了解決這個問題,我們在素材來源方面做了很多工作,將素材分了很多分類,并進行了大規(guī)模擴充。
目前素材庫大概有幾億條素材,它的更新數(shù)量每個月能達到數(shù)千萬。新熱素材的收錄和生成式效益能做到五分鐘以內,可用性能做到96%。
素材庫構建方面,有兩種方法原生生成和視頻抽取。前者只能解決一些創(chuàng)意素材的補充,而對于事實類素材的補充,視頻抽取技術會相對成熟一些。
但在實際落地工程化中,會遇到比如在抽幀和跳幀時候一些幻影的問題,可以通過3D卷積的方法做優(yōu)化,目前抽幀的可用率和單位母視頻抽幀的結果的比率都是較高的狀態(tài)。
此外,對于素材質量良莠不齊的問題,可以采用質量過濾和質量增強的方法進行質量提升。
值得注意的是素材理解。因為我們需要的不僅僅是素材庫,不僅是一個原始的視頻片段庫,更需要相應的描述信息。
大家都知道,短視頻是有自己的描述的,但是抽象成素材之后,相關片段的可描述數(shù)據(jù),跟原始視頻的描述性數(shù)據(jù)不是一個簡單的繼承關系,因此在繼承的時候,需要做一個質量增強。這里我們應用現(xiàn)在的模型技術把目前的很多的質量控制和增強的小模型做了一個抽象,形成了一個內容理解的大模型。目前線上20多種問題都可以統(tǒng)一由該問題進行解決。
3.AI成片的工程挑戰(zhàn)及優(yōu)化
除了質量效果上的問題以外,還有一些工程的問題。構建過程中,會面臨四種挑戰(zhàn):安全、穩(wěn)定、成本、時延。
這里重點分享成本和時延這兩塊內容。
首先是時延方面。從生產(chǎn)鏈路上看,主要耗時的地方在于素材收集和場景編排。比如其中場景編排耗時的原因是要覆蓋全場景、全垂類所導致的。
針對這些耗時的點,可以采用兩種優(yōu)化方法:調度優(yōu)化和算子優(yōu)化。改進策略是采用分層異步的調度框架去解決整個吞吐延時的問題,主要目的是減少目前生成任務的阻塞。另外,在整個系統(tǒng)當中,也做了分層緩存處理。
算法優(yōu)化方面,主要針對生產(chǎn)鏈路中有一些比較重型的算子,針對這些算子可能要拆開來看,具體做優(yōu)化,比如:
- 首先,分析算子的瓶頸實在I/O還是CPU/GPU計算,進而對算子進行服務化和拆分;
- 其次,圖調度方面的優(yōu)化:整個幀圖的復用、緩存的復用、預處理結果、模型理解結果的復用等;
- 第三,模型層面聯(lián)合策略同學去做了多目標的視頻推理或視頻理解模型;
- 第四,模型加速方面,目前有計算優(yōu)化和顯存優(yōu)化以及模型壓縮的方法。
作為一個線上產(chǎn)品化的視頻生產(chǎn)系統(tǒng),不可避免地要考慮成本的問題。目前系統(tǒng)成本的開銷主要包含三部分:計算成本、大模型成本,存儲成本。
針對計算成本,除了剛才講到模型的優(yōu)化,我們還對模型構建的服務框架也做了迭代升級。此外,還在部署級別,內部推動整個算子的混部,時間級調度方面,通過潮汐調度的方法,可以將使整體資源利用更充分; 在硬件層面,我們在一些新的XPU的硬件上采用百度自研的昆侖芯片,在整體利用率上,目前能做到的千卡的推理卡的利用率可以做到月均35%,較之前得到了大幅提升。
大模型成本方面,我們根據(jù)目前的付費模式做了一些優(yōu)化,比如說大模型應用以類似手機流量的方式去售賣,可以購買月包或者小時包。
應用在全產(chǎn)品線就需要錄制自己的流量,這樣可以預測流量的波形。預估流量和實際采用的流量是非常接近的,這樣就能減少我們不必要的大模型的成本的購買。
4.數(shù)字人視頻制作案例分享
在數(shù)字人視頻方向,需要解決以下問題。
- 第一,形象復刻的能力,這方面我們自研和加強了一些綠幕摳像的算法,能夠提升整個人物的質感;
- 在成本方面,面向普通的創(chuàng)作者也做到了低成本創(chuàng)作;
- 此外,還需要解決諸如時延、形象逼真等問題。
值得一提的是,在整個數(shù)字人錄制的過程中,我們增加一些用戶可選的關鍵素材的匹配功能,主播在播放的時候,右側會彈出一個小窗,來顯示出當前的一些關鍵事件的影像錄制,這個能力恰好能解決一些實時播報過程中口播作者的痛點。
【本文正在參與 AI.x社區(qū)AIGC創(chuàng)新先鋒者征文大賽】http://www.scjtxx.cn/aigc/2223.html
