T·Club技術(shù)開放日杭州站精彩回顧:音視頻技術(shù)創(chuàng)新探索與應(yīng)用實(shí)踐 T·Club
近日,51CTO面向區(qū)域城市,重磅推出的技術(shù)沙龍T·Club技術(shù)開放日杭州站成功舉辦!
8月26日,杭州站技術(shù)沙龍以“音視頻技術(shù)創(chuàng)新探索與應(yīng)用實(shí)踐”為主題,邀請到來自快手、火山語音、網(wǎng)易云音樂和Rokid四位大型互聯(lián)網(wǎng)企業(yè)技術(shù)專家,從音視頻質(zhì)量、語音識(shí)別模型、用戶視聽體驗(yàn)以及音視頻技術(shù)在AR場景落地等維度出發(fā),結(jié)合自身企業(yè)業(yè)務(wù)和應(yīng)用,分享了音視頻技術(shù)在不同應(yīng)用場景的落地實(shí)踐,使在場的開發(fā)者們受益匪淺。
1、KVQ:基于AI的快手視頻質(zhì)量評價(jià)
快手圖像視頻處理分析負(fù)責(zé)人孫明首先為大家分享了主題為“KVQ:基于AI的快手視頻質(zhì)量評價(jià)”的演講。
快手平臺(tái)視頻內(nèi)容豐富多樣,這些視頻記錄了世界,分享了不同的生活方式,與此同時(shí)也面臨著視頻質(zhì)量參差不齊的問題。業(yè)界常見的工具并不能滿足UGC場景的需求,如何全面有效評估畫質(zhì)是一個(gè)亟待解決的問題。而快手視頻質(zhì)量模型KVQ,可以針對復(fù)雜的視頻內(nèi)容和低質(zhì)成因提供一致性的客觀質(zhì)量打分,從而能有效監(jiān)控UGC視頻全生命周期的清晰度狀況。
孫明團(tuán)隊(duì)基于先驗(yàn)的弱標(biāo)注方法 (PC、PG) ,以較低的成本構(gòu)建了一個(gè)千萬級的異構(gòu)數(shù)據(jù)集,其中異構(gòu)包括單刺激標(biāo)注(SS)、樣本對標(biāo)注(PC)、先驗(yàn)樣本對標(biāo)注(PG)這三種數(shù)據(jù),并針對海量數(shù)據(jù)提出QPT訓(xùn)練方式。
首先,團(tuán)隊(duì)引入模擬線上生產(chǎn)消費(fèi)鏈路的退化方式(Degradation Type)進(jìn)行質(zhì)量數(shù)據(jù)的生成,覆蓋各種場景,且利用退化空間包含的2x107 種組合形式,對應(yīng)生成千萬級別的無標(biāo)簽畫質(zhì)數(shù)據(jù),進(jìn)而利用PG生成的數(shù)據(jù)做對比學(xué)習(xí),來構(gòu)建無監(jiān)督訓(xùn)練模型;其次,團(tuán)隊(duì)進(jìn)一步引入無監(jiān)督學(xué)習(xí)(Self-supervised Learning),提出QPT預(yù)訓(xùn)練方式,通過質(zhì)量維度的相關(guān)性來獲取畫質(zhì)特征,提升跨場景感知能力,奠定了異構(gòu)數(shù)據(jù)建模的基礎(chǔ)。
同時(shí),無監(jiān)督學(xué)習(xí)在公開數(shù)據(jù)集上將SOTA提升5%,快手場景下平均提升10%;最后,團(tuán)隊(duì)引入多任務(wù)學(xué)習(xí)(Multi-task Learning),將上述基于PG數(shù)據(jù)預(yù)訓(xùn)練的模型作為初始化權(quán)重,針對SS標(biāo)注數(shù)據(jù)采用回歸損失函數(shù),針對PC數(shù)據(jù)采用排序損失函數(shù)進(jìn)行優(yōu)化,從而用SS+PC數(shù)據(jù)聯(lián)合訓(xùn)練的方式對質(zhì)量數(shù)據(jù)進(jìn)行利用,發(fā)揮大模型的真正效用,使得模型在不同分?jǐn)?shù)段的預(yù)測保序性得到顯著提升,快手場景下平均SRCC提升5%。
此外,快手音視頻技術(shù)團(tuán)隊(duì)對快手視頻失真分布情況也進(jìn)行了分析與思考,并發(fā)現(xiàn)一個(gè)比較重要的現(xiàn)象,將其稱之為多峰效應(yīng),即畫質(zhì)在時(shí)序上呈現(xiàn)多峰分布。團(tuán)隊(duì)提出多分支時(shí)序網(wǎng)絡(luò),并行KL注意力機(jī)制模塊,高效建模時(shí)空分布存在差異的不同失真類型,有效應(yīng)對針對視頻分類任務(wù)設(shè)計(jì)的通用Transformer結(jié)構(gòu)采樣較為均勻,不能有效建模少數(shù)包含失真幀的技術(shù)難點(diǎn),使公開數(shù)據(jù)集上提升3%,快手場景下提升5%,并且針對720P/30s/30FPS的視頻,處理僅需0.5s,在快手點(diǎn)播或直播能每日執(zhí)行約7500萬次視頻質(zhì)量評價(jià)。
快手質(zhì)量分析大模型KVQ也成為業(yè)界首次構(gòu)建千萬級別的異構(gòu)標(biāo)注VQA數(shù)據(jù)集、業(yè)界首個(gè)QPT預(yù)訓(xùn)練模型,提升跨場景感知能力及業(yè)界首次在UGC場景勝過商用軟件,并大規(guī)模落地的視頻質(zhì)量分析大模型。
(完整分享視頻請點(diǎn)擊閱讀原文查看)
2、端到端語音識(shí)別中的語言模型融合技術(shù)創(chuàng)新與落地實(shí)踐
語言模型融合是端到端語音識(shí)別模型實(shí)現(xiàn)領(lǐng)域自適應(yīng)的核心技術(shù)。近年來,“內(nèi)部語言模型估計(jì)”(Internal Language Model Estimation, ILME)方法顯著提升了語言模型融合的性能?;鹕秸Z音針對ILME技術(shù)提出了一系列算法改進(jìn),語音識(shí)別算法研究員陳智鵬就基于此話題為技術(shù)沙龍的開發(fā)者們帶來了主題為“端到端語音識(shí)別中的語言模型融合技術(shù)創(chuàng)新與落地實(shí)踐”的演講。
傳統(tǒng)的語言模型是基于深度神經(jīng)網(wǎng)絡(luò)的Hybrid語音識(shí)別模型,是將聲學(xué)模型和語言模型獨(dú)立建模,在解碼時(shí),再把兩部分的分?jǐn)?shù)相加,形成聯(lián)合解碼。在通用的語音識(shí)別場景中,語音識(shí)別發(fā)揮了重要作用,但對于一些垂直領(lǐng)域或者專業(yè)術(shù)語,它的準(zhǔn)確率并不理想,且單獨(dú)訓(xùn)練ASR模型的算力成本很高。為了進(jìn)一步改善智能字幕的用戶體驗(yàn),并節(jié)省ASR模型訓(xùn)練的算力成本和數(shù)據(jù)成本,在語音識(shí)別里做語言模型的融合成為一項(xiàng)技術(shù)改進(jìn)重點(diǎn)。
火山語音團(tuán)隊(duì)逐個(gè)擊破當(dāng)前技術(shù)方案中存在的問題,面對經(jīng)典ILME方法直接將context vector置0,在一些模型上效果不佳的問題,提出標(biāo)簽同步的上下文向量學(xué)習(xí)方法,把解碼過程中每一步中間的隱狀態(tài)H送到一個(gè)非常小、非常輕量FFN網(wǎng)絡(luò)里,并讓這個(gè)網(wǎng)絡(luò)學(xué)會(huì)預(yù)測一個(gè)合理的C,再將合理的C送回,達(dá)到優(yōu)化內(nèi)部語言模型估計(jì)的目的。因?yàn)镕FN網(wǎng)絡(luò)可以做到非常小,所以對于整體的計(jì)算量也沒有太明顯的影響。
此外,面對融合垂直領(lǐng)域語言模型之后,對通用場景識(shí)別效果有負(fù)面影響的問題,火山語音團(tuán)隊(duì)提出自適應(yīng)語言模型融合技術(shù);面對引入外部和內(nèi)部語言模型之后,推理計(jì)算量大幅增加,成本上漲的問題,火山語音團(tuán)隊(duì)提出內(nèi)部&外部語言模型壓縮方案??偨Y(jié)起來,端到端語音識(shí)別的語言模型融合技術(shù)方面,主要有三個(gè)維度的工作,分別是效果更好、更加實(shí)用和成本更低。
3、用戶視聽體驗(yàn)的優(yōu)化實(shí)踐
隨著視聽終端設(shè)備(IoT)和AI技術(shù)的發(fā)展,用戶能體驗(yàn)到極致的視聽體驗(yàn)可能性得到拓展,網(wǎng)易云音樂音視頻實(shí)驗(yàn)室負(fù)責(zé)人劉華平帶來了以“用戶視聽體驗(yàn)的優(yōu)化實(shí)踐”為主題的演講,分享了通過解構(gòu)音樂流媒體平臺(tái)視聽場景中端到端的視聽體驗(yàn)鏈路環(huán)節(jié),分析影響視聽的各個(gè)要素并介紹保障高質(zhì)量視聽的相關(guān)實(shí)施技術(shù)細(xì)節(jié)。
在話題分享之前,劉華平為大家介紹了一些有關(guān)音質(zhì)的概念,包括量化位數(shù)、聲道、音質(zhì)評估等。隨后劉華平從數(shù)字音樂典型應(yīng)用場景鏈路:流式點(diǎn)播場景切入,就內(nèi)容源、播放引擎、后處理、觀眾側(cè)這四個(gè)流式點(diǎn)播鏈路展開,為大家分享了其團(tuán)隊(duì)為提升音質(zhì)在各環(huán)節(jié)所做的努力。其中,對內(nèi)容源進(jìn)行分析處理,包括真假無損檢測、噪聲檢測、內(nèi)容補(bǔ)全等,以確保源內(nèi)容的質(zhì)量;播放引擎最關(guān)鍵的目的是保證解碼沒有損失,同時(shí)支持一些HiFi的特性。在進(jìn)行解碼方案調(diào)整時(shí),還會(huì)考慮到不同播放設(shè)備、不同聽覺曲線對音質(zhì)的影響。
此外,除了點(diǎn)播場景,劉華平還向大家介紹了云音樂里面的直播場景,主要包括主播側(cè)、網(wǎng)絡(luò)和觀眾側(cè)等三個(gè)環(huán)節(jié)。
在主播側(cè),劉華平團(tuán)隊(duì)就聲音采集、處理、編碼等環(huán)節(jié)進(jìn)行了優(yōu)化。例如,針對高質(zhì)量手機(jī)聲音采集問題,劉華平提出四點(diǎn)優(yōu)化方向:
(1)錄制采集率選擇:
手機(jī)硬件有默認(rèn)采樣率,這個(gè)采樣率下工作是最優(yōu)的,設(shè)置其他采樣率的音頻會(huì)從默認(rèn)的采樣率重采樣到目標(biāo)采樣率,所以按實(shí)際需求,一般直接選擇默認(rèn)采樣率。一般老機(jī)器可能是44100,但是新機(jī)器大部分是48000。
(2)錄制接口選擇:
通常需要選擇最常用的錄制接口,也是測試最多的接口,這樣穩(wěn)定性最好,兼容性也最好。且能保證錄制的音頻沒有兼容性問題而導(dǎo)致的噪音或者左右聲道聲音完全不對的問題。Android 一般選擇 Java的audiorecord, iOS一般選擇audiounit。這兩個(gè)目前兼容性最好的錄制接口。
(3)錄制線程優(yōu)化:
主要有兩點(diǎn),主要的目的就是保證錄制不受性能影響,不丟數(shù)據(jù),保證數(shù)據(jù)完整性。
(4)錄制參數(shù)選擇:
OS錄制設(shè)置的模式可以選擇AVAudioSessionModeDefault,默認(rèn)模式兼容所有category;
AVAudioSessionModeVoiceChat適用于語音聊天VoIP;
AVAudioSessionModeGameChat適用于游戲模式,不需要主動(dòng)設(shè)置(若不想用GKVoiceChat但希望達(dá)到類似功能,可以使用AVAudioSessionModeVoiceChat);
AVAudioSessionModeVideoRecording 適用于使用攝像頭采集視頻的應(yīng)用。(完整分享視頻請點(diǎn)擊閱讀原文查看)
4、透明視頻在AR場景中的應(yīng)用實(shí)踐
在AR應(yīng)用里,透明視頻屏蔽了無關(guān)的背景,使用戶更專注于核心內(nèi)容,也能夠更自然地和場景融合,提升沉浸感。Rokid 應(yīng)用平臺(tái)音視頻負(fù)責(zé)人黨予博便為大家?guī)砹艘浴巴该饕曨l在AR場景中的應(yīng)用實(shí)踐”為主題的演講,從AR應(yīng)用需要什么樣的視頻體驗(yàn)、透明視頻如何編碼、透明視頻的應(yīng)用場景角度切入話題,分享了Rokid 應(yīng)用平臺(tái)應(yīng)用透明視頻的實(shí)踐落地與相關(guān)成果。
在演講中,黨予博首先介紹了AR在工業(yè)上的應(yīng)用,包括通過AR合影功能來進(jìn)行空間建圖等,從而總結(jié)出AR應(yīng)用的三個(gè)特征:
(1)虛實(shí)融合:將虛擬的物體投入到真實(shí)的場景,增強(qiáng)對現(xiàn)實(shí)世界的理解;
(2)實(shí)時(shí)互動(dòng):增強(qiáng)的內(nèi)容必須滿足實(shí)時(shí)的交互;
(3)空間對齊:幾何一致性、時(shí)間一致性、光照一致性。
以及AR應(yīng)用視頻的進(jìn)化方向:
(1)如何和現(xiàn)實(shí)場景融合;
(2)如何實(shí)時(shí)響應(yīng)用戶操作;
(3)展示哪些內(nèi)容,直播、云渲染、三維重建。
談到透明視頻的編碼,黨予博認(rèn)為這涉及到alpha通道的編碼、傳輸和儲(chǔ)存問題。流行的編碼器中,谷歌的Libvpx和蘋果2009年推出的HEVC with alpha都支持透明視頻的編碼,兩個(gè)編碼器的性能特點(diǎn)存在差異,但黨予博表示透明視頻本身并不重要,重要的是需要探索那些適合用這個(gè)方式展現(xiàn)出來的內(nèi)容或場景,例如:AR 三方錄制、云端渲染推流、透明視頻直播等應(yīng)用場景。
總之,AR應(yīng)用對視頻的要求和其他的視頻并不一樣,AR應(yīng)用需要融合需求,打造沉浸感,實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。AR應(yīng)用的發(fā)展需要我們創(chuàng)建更多內(nèi)容,不斷突破,以此來豐富AR視頻體驗(yàn),賦能產(chǎn)業(yè)升級,商業(yè)落地。
以上是51CTO T·Club技術(shù)沙龍杭州站的大致分享內(nèi)容,完整沙龍視頻請點(diǎn)擊閱讀原文查看。