淺析VR視頻傳輸方案
Labs 導讀
VR視頻屬于一種弱交互、輕交互業(yè)務,這類視頻一般經(jīng)過預先編排、規(guī)劃后,用戶在VR終端以任意自由度視點觀看。用戶與視頻的交互主要發(fā)生在用戶轉(zhuǎn)頭改變當前視點上。VR視頻在分辨率、幀率、色深等多維度指標上相較于傳統(tǒng)視頻要求更高。
Part 01、 VR視頻業(yè)務流程
VR視頻從引入、發(fā)布到在VR終端設備播放經(jīng)歷了哪些流程呢?如下圖所示,流程中一般涉及內(nèi)容提供方(Content Provider,CP)、運營管理方、運營商業(yè)務平臺、承載網(wǎng)絡和終端廠商等多家機構(gòu)。
Part 02、 VR視頻指標
VR視頻傳輸除了和上述業(yè)務流程相關(guān)外,也和用戶體驗質(zhì)量(Quality of Experience,QoE)密切相關(guān)。一般地,用戶主要關(guān)注視頻畫面質(zhì)量、初緩時長、卡頓情況等,具體指標參數(shù)如下表所示。
Part 03、VR視頻傳輸方案
終端每個角度可見的像素數(shù)量(Pixels Per Degree,PPD)用來表示VR視頻像素的密度。視場內(nèi)像素密度越高,清晰度越高、觀看體驗越好。人的單眼水平視場角約為160°,垂直視場角約為150°,以PPD為20進行換算,要求視頻內(nèi)容的全視角分辨率達到8K(7680×4320)。若考慮幀率、色深和立體感等其他維度的指標,視頻流數(shù)據(jù)量更大,碼率要求更高。因此,VR視頻傳輸技術(shù)重點解決上述問題。
3.1 高質(zhì)量全視角傳輸方案
高質(zhì)量全視角傳輸方案對全視角的VR視頻源內(nèi)容進行投影、切片、編碼后,平面媒體格式的內(nèi)容由運營商網(wǎng)絡以同等質(zhì)量傳輸至終端,終端對全視角的內(nèi)容進行全部或部分切片解碼、渲染,如下圖所示。
圖片
方案優(yōu)勢:用戶在進行視角(File of View,fov)切換時,終端完成包括碼流解析、視頻解碼和畫面渲染等處理,用戶能即時 (Just-in-time) 看到同等質(zhì)量的內(nèi)容。
方案不足:1)受限于人眼水平、垂直視場角和現(xiàn)有終端支持視角(可支持的視角為90°~110°),一般能看到的360°球面信號約為整個全景的19%,以同等質(zhì)量傳輸全視角內(nèi)容造成網(wǎng)絡資源浪費。2)全視角內(nèi)容要求終端側(cè)具備與內(nèi)容同等分辨率的解碼能力。3)等距柱狀投影借鑒地圖經(jīng)緯線投影的思想,將球面展開為平面矩形,依靠增大面積變形保持角度不變(空間球體畫面在赤道部分投影展開后失真小,而越向兩極,畫面失真越大),改方式投影引入過多無效冗余像素,文件壓縮效率較低。
3.2 基于投影優(yōu)化的全視角傳輸方案
基于投影優(yōu)化的全視角傳輸方案使用多面體投影(Platonic Solid Projection,PSP),選擇部分經(jīng)緯線作為邊界將空間球體面分割成多個部分,再將各部分的局部球面投影到某個多面體(包括四面體、六面體、金字塔、立方體等)的不同面上。多面體投影將球面的不同區(qū)域投影到多面體不同面積大小的面,由于每個區(qū)域單獨投影,相較于等距柱狀投影極大程度降低了畫面失真?;谕队皟?yōu)化的全視角傳輸技術(shù),雖然減少網(wǎng)絡傳輸?shù)臄?shù)據(jù)量,但仍會傳輸大量未呈現(xiàn)給用戶的內(nèi)容。
3.3 分片傳輸方案
分片傳輸方案對用戶fov區(qū)域使用高質(zhì)量畫面保障視場內(nèi)畫質(zhì),對非FoV區(qū)域使用低質(zhì)量畫面,使得用戶在切換視角時能看到畫面,保障用戶切換體驗。如下圖所示,分片傳輸方案將高質(zhì)量的全視角畫面劃分成多個分片,分別對每個高質(zhì)量分片進行編碼。通過降質(zhì)處理高質(zhì)量分片獲取對應的低質(zhì)量分片。終端根據(jù)用戶當前視角姿態(tài)向內(nèi)容側(cè)請求對應FoV內(nèi)高質(zhì)量分片和非FoV區(qū)域的低質(zhì)量分片,再對獲取的分片進行解碼、拼接成完整畫面。為減少傳輸數(shù)據(jù)量,非FoV區(qū)域的低質(zhì)量分片也可選擇不全部傳輸,僅傳輸部分角度(比FoV大)區(qū)域內(nèi)的低質(zhì)量分片。
圖片
方案優(yōu)勢:1)只分片傳輸fov和部分非fov的方式降低網(wǎng)絡傳輸需求,在終端側(cè)復用部分重疊區(qū)域視頻分片,能進一步減少內(nèi)容側(cè)向終端側(cè)推送數(shù)據(jù)量。2)非fov區(qū)域低質(zhì)量分片和fov區(qū)域高質(zhì)量分片組合傳輸極大提升了視角切換體驗。
方案不足:1)分片傳輸方案需要在終端對分片進行實時拼接,終端側(cè)引入更多計算,對終端計算能力要求更高。2)拼接算法效率或有效性不足,會帶來畫面拼接錯位、高低質(zhì)量分片拼接明顯等問題。
3.4 基于全視角的分片傳輸方案
基于全視角的分片傳輸方案在內(nèi)容側(cè)提供了低質(zhì)量的全視角視頻流和高質(zhì)量的分片視頻流。終端側(cè)根據(jù)當前的視角信息,向內(nèi)容側(cè)獲取低質(zhì)量的全視角視頻流以及視角區(qū)域范圍內(nèi)的高質(zhì)量分片視頻流并進行融合呈現(xiàn)?;谝曨l分片的自適應視頻傳輸(Tile Wise Streaming,TWS)方案典型代表,TWS傳輸方案被動態(tài)圖像專家組織(Moving Picture Experts Group,MPEG)的全景視頻格式(Omnidirectional Media Format,OMAF)工作組所采納,并被寫入了最新的標準ISO/IEC 23090-2。如下圖所示,TWS方案在內(nèi)容側(cè)準備了具備基本質(zhì)量要求的全視角視頻流和高質(zhì)量的Tile(分塊,即按照矩形劃分的分片)視頻流,內(nèi)容側(cè)依據(jù)終端視角信息推送全視角視頻流和視角范圍內(nèi)的多份Tile視頻流,再由終端進行解碼、拼接和呈現(xiàn)等。
圖片
方案優(yōu)勢:1)全視角低質(zhì)量畫面不受網(wǎng)絡傳輸和終端解碼能力制約,全視角低質(zhì)量畫面是確定的,無需終端按需獲取再進行實時拼接,降低了終端的拼接計算壓力。2)在網(wǎng)絡較差場景下,視頻能以基本質(zhì)量播放,保障了播放流暢度。3)更適用于大屏電視等性能相對較低的終端。
Part 04、 總結(jié)
分片傳輸技術(shù)方案在fov切換時體驗更佳,目前在該方案上出現(xiàn)大量fov預測相關(guān)研究?;诙嘧杂啥鹊囊曈X慣性測距、眼部追蹤等技術(shù),借助AI模型預測用戶視角規(guī)律,并將預測內(nèi)容文件緩存至移動邊緣網(wǎng)絡,借助邊緣緩存和計算能力,提前完成流行內(nèi)容緩存、近場渲染、GPU云渲染,讓用戶獲得更流暢VR體驗。