騰訊多媒體實驗室劉杉:5G時代來臨,多媒體快速演進
12月19至20日,由騰訊主辦的2020 TECHO PARK開發(fā)者大會在北京時尚設計廣場舉辦。在大會主論壇上,騰訊杰出科學家、多媒體實驗室總經(jīng)理劉杉帶來了主題為《從視頻編解碼到互動沉浸式媒體》的演講,重點分析了視頻編解碼技術的演進迭代以及騰訊在新媒體及互動沉浸式媒體方向所進行的探索和嘗試。
劉杉表示,世界性的疫情讓很多領域的活動從線下轉(zhuǎn)為線上,而如何在保持高質(zhì)量服務的同時降低網(wǎng)絡數(shù)據(jù)帶寬的壓力,向多媒體技術提出更高要求。騰訊作為一家互聯(lián)網(wǎng)科技公司,旗下的很多業(yè)務和多媒體技術密切相關,因此視頻編解碼技術是騰訊所必備的重要核心能力。
在多媒體技術革新方面,騰訊在不斷尋求突破。自2018年參與H.266/VVC標準制定以來,騰訊多媒體實驗室約有100項技術被標準采納,數(shù)量位居全球領先;為積極推動AV1商業(yè)化,騰訊云于2019年11月率先成為中國第一家支持AV1轉(zhuǎn)碼的云服務商;今年10月,騰訊在國內(nèi)率先發(fā)布了H.266高清/超高清實時播放器。
在新媒體和沉浸式互動媒體方面,劉杉認為,隨著5G時代的來臨,深度沉浸式媒體廣闊的應用場景和商業(yè)空間將被全面激活,而沉浸式媒體技術與實時媒體傳輸技術結(jié)合,可以生成更多沉浸式應用。目前騰訊已上線多個沉浸式媒體解決方案,以滿足不同業(yè)務的開發(fā)需求。
在演講最后,劉杉表示,未來騰訊將繼續(xù)積極投入多媒體技術的研發(fā),擁抱開源生態(tài)建設,為開發(fā)者和合作伙伴提供有效的服務和支持。
以下為劉杉演講實錄:
各位領導,各位同事,各位嘉賓,大家好。我是劉杉,來自騰訊多媒體實驗室。非常遺憾今天不能夠到現(xiàn)場,那么我就通過視頻這個形式和大家做一個分享。今天分享的題目是“從視頻編解碼到互動沉浸媒體”。
去年的techo我做了一個“視頻編解碼技術與應用”的分享。那么今天分享的第一個主要內(nèi)容,我會和大家簡單介紹一下在這一年當中視頻編解碼技術的一些演進和迭代。在這之后,我會介紹騰訊多媒體實驗室和騰訊云,在新媒體及互動沉浸式媒體方向的一些探索和嘗試。
今年是特殊和具有挑戰(zhàn)性的一年。世界性的疫情為我們的生活帶來了巨大的改變,教育、辦公、娛樂、銷售等領域的很多活動都因為疫情的關系從線下變?yōu)榫€上,多媒體技術則為這些云服務提供了必不可少的支持。自三月以來全球視頻流量激增,網(wǎng)絡帶寬面臨巨大壓力,世界各地屢次出現(xiàn)因網(wǎng)絡壓力過大而導致的區(qū)域性斷網(wǎng)。歐盟委員會不得不約談netflix 等網(wǎng)絡影音服務商,要求在高峰期降低畫質(zhì),將寶貴的數(shù)據(jù)帶寬留給居家辦公和學習。有調(diào)查結(jié)果顯示,流媒體軟件市場加速增長19%,如何在保持高質(zhì)量服務的同時降低網(wǎng)絡數(shù)據(jù)帶寬的壓力也為各項多媒體技術提出更高要求。
而與此同時,人們對視頻觀感質(zhì)量的要求也在持續(xù)攀升。更高的分辨率,更高的亮度和色度動態(tài)范圍,和更高的幀率等技術指標,配合VR360, Freeview等新媒體方式,在提升視頻觀感質(zhì)量的同時,也對數(shù)據(jù)帶寬提出更高的要求。互聯(lián)網(wǎng)流量數(shù)據(jù)顯示,在2017年標清和高清視頻內(nèi)容大約各占一半,到了2019年標清內(nèi)容占比下降到大約1/3, 高清內(nèi)容成為主流,超高清內(nèi)容占比開始攀升;預計到2022年超高清內(nèi)容占比會進一步提升到約總流量的1/4。同時,根據(jù)中國產(chǎn)業(yè)信息網(wǎng),中國VR內(nèi)容市場自2016年以來持續(xù)以每年2-3倍的速度增長。這些都使得視頻編解碼(即視頻壓縮)這一個已經(jīng)存在了很多年的技術領域,即使在今天也依然具有其重要性和必要性。
而騰訊作為一家互聯(lián)網(wǎng)科技公司,旗下的很多業(yè)務都和視頻這一媒體形式密切相關,例如:騰訊視頻,微視,微信,QQ,教育,泛娛樂等等,還有在這次疫情中為在線教育和遠程辦公作出巨大貢獻的騰訊會議和騰訊課堂等產(chǎn)品。因此領先高效的視頻編解碼技術也是騰訊公司所需要和必備的一項重要核心能力。
簡單回顧一下,在過去三十多年里,全球很多企業(yè)和研究機構投入巨大資源,研發(fā)了許多視頻編解碼技術,并形成了幾代視頻編解碼標準。其中主流的標準有: ISO/IEC和ITU 制定的國際標準,像我們熟知的 MPEG-2, H.263, H.264/AVC, H.265/HEVC 和今年七月結(jié)稿的H.266/VVC. 騰訊于2018年初開始參與H.266/VVC標準制定,在歷時兩年多時間里,向標準組織提交幾百個技術提案,其中約有100項技術被標準采納,數(shù)量位居全球領先。
與此同時,自去年正式加入AOMdia,成為進入AOMedia 董事會的第一家中國公司以來,騰訊和其他AOMedia成員公司一起積極拓展開源生態(tài),推動AV1商業(yè)化,騰訊云已于去年十一月率先成為中國第一家支持AV1轉(zhuǎn)碼的云服務商。在下一代開源視頻編解碼標準AV2制定方面,騰訊貢獻了大量重要提案,包括通用測試條件,AV2需求文檔等,并貢獻了大量技術,涵蓋了塊劃分,幀內(nèi)預測,變換,量化,環(huán)路濾波等多項核心技術領域,累計貢獻壓縮比提升居世界前列。騰訊專家在AOMedia組織中和Google專家一起共同擔任技術孵化組主席,并和Facebook專家一起共同擔任軟件實現(xiàn)工作組主席。
我們也大力投入國標AVS的建設,推廣,和應用落地。目前騰訊云支持AVS2和AVS3高清/超高清實時轉(zhuǎn)碼,我們也為電視臺等單位做了AVS私有化部署。
今年十月,在H.266/VVC標準第一版截稿僅三個月后,騰訊在國內(nèi)率先發(fā)布了H.266高清/超高清實時播放器。這個播放器內(nèi)置騰訊自研H.266軟件解碼器,可以支持高清、超高清以及屏幕內(nèi)容分享等場景的實時解碼,各項性能指標國際領先。
大家現(xiàn)在看到的就是用我們發(fā)布的H.266播放器在播放標準測試序列。
每套視頻編解碼標準制定,都需要有一套標準測試序列,用來檢驗各項提案技術的性能,來幫助決定該項技術是否應當被采納進入標準。
騰訊的標志性序列,同時也是對我們業(yè)務具有代表性的內(nèi)容,王者榮耀,也被VVC標準納入測試序列集。
這個播放器目前已面向開發(fā)者開源。
騰訊云積極投入開源社區(qū)的建設,同時也將騰訊先進的技術能力通過騰訊云為各個行業(yè)開發(fā)者提供服務。在產(chǎn)品設計上,不僅針對國內(nèi)市場,騰訊對海外業(yè)務也有充分的布局與考量,針對海外OTT市場,騰訊云打造了媒體服務系列產(chǎn)品,為國內(nèi)產(chǎn)品國際化以及海外開發(fā)者和服務商提供充分的技術產(chǎn)品支持,媒體服務系列產(chǎn)品可提供RTP/HLS/DASH等8種海外常見流媒體協(xié)議,7天24小時全天候穩(wěn)定直播服務,支持60多個國家和地區(qū)的本地化部署。
在科學技術迅速發(fā)展的今天,人們已經(jīng)不滿足于只是觀看傳統(tǒng)二維視頻,而是渴望更真實更具沉浸感的體驗。而沉浸式媒體,通過實現(xiàn)物理世界和虛擬世界的融合共生,被認為是改變未來生活和工作方式的顛覆性趨勢之一。以VR為代表的沉浸式媒體內(nèi)容市場在近幾年顯著增長,應用產(chǎn)業(yè)鏈迅速擴展,應用領域也越來越廣泛,滲透到例如文旅,教育,娛樂,醫(yī)療和制造等行業(yè)。預計到2025年沉浸式媒體市場規(guī)模發(fā)展可達到161B usd(1611億美元)因此更多的公司和廠家也正在加大沉浸式媒體技術研發(fā)和生產(chǎn)的投入。
更深度的沉浸式體驗,主要體現(xiàn)在真實場景的6DOF、更清晰和流暢的內(nèi)容顯示、多通道交互等方面,依賴VR、AR、點云、Freeview等核心技術,配合圖片、視頻、文字、聲音等傳統(tǒng)媒體格式,結(jié)合壓縮、傳輸、顯示、交互等環(huán)節(jié),通過手機、電腦、頭戴式、大屏等不同設備進行最終呈現(xiàn)。從沉浸式應用場景來看,正在從面向個人娛樂的消費類市場深化發(fā)展到企業(yè)級市場的垂直行業(yè)應用場景。未來隨著5G的大規(guī)模普及,沉浸式媒體硬件及技術的進一步突破、制作成本的下降以及更多優(yōu)質(zhì)內(nèi)容的開發(fā),將推動沉浸式媒體產(chǎn)品和服務被主流群體采納,深度沉浸式媒體廣闊的應用場景和商業(yè)空間將被全面激活。
一個高質(zhì)量高效率的互動沉浸式系統(tǒng)包含了從采集,處理,壓縮,傳輸,到解壓縮,后處理,渲染和交互等多個技術模塊。里面包含的技術有例如投影,采集拼接,F(xiàn)OV,自適應傳輸?shù)燃夹g,涉及的傳輸協(xié)議有HLS, DASH, RTC等。因為沉浸式媒體內(nèi)容的數(shù)據(jù)量比傳統(tǒng)高清/超高清視頻更龐大,比如這里展示的VR360演唱會,和freeview 籃球比賽,那么如何將所有這些技術模塊有效結(jié)合,綜合優(yōu)化,對提供優(yōu)質(zhì)的端到端體驗就更為重要和關鍵。
將沉浸式媒體技術與實時媒體傳輸技術結(jié)合,可以生成更多沉浸式應用。比如,傳統(tǒng)的視頻會議只能采用單一固定鏡頭,視野和互動性都具有一定局限性。通過融入沉浸式技術,可以創(chuàng)造出三自由度和六自由度的視聽效果,結(jié)合虛擬會議室設置,為與會者提供更加全面的會議信息和更加豐富的會議體驗。
點云是沉浸式媒體領域又一項具有代表性的技術,近兩年也正在得到更多的關注。點云端到端系統(tǒng)包括點云數(shù)據(jù)的處理、壓縮、模型重建和渲染、互動等技術模塊。騰訊自研點云系統(tǒng)可以通過視頻、圖片、深度等信息進行三維物體和空間重建,可用于如會展和房地產(chǎn)等業(yè)務場景。由于點云采用三維空間點陣的方式來表達真實物體和場景,可想而知構建一個高精度點云模型所需要的數(shù)據(jù)量是非常巨大的。因而點云數(shù)據(jù)壓縮也是點云系統(tǒng)中不可缺少的一個環(huán)節(jié)。騰訊多媒體專家積極參與點云壓縮國際標準制定并有技術提案被國際標準采納,同時擔任AVS點云專題組聯(lián)合組長。
騰訊云現(xiàn)已上線多個沉浸式媒體解決方案,包括VR視頻解決方案,騰訊臨境沉浸式解決方案等,以滿足不同業(yè)務的開發(fā)需求。騰訊臨境沉浸式解決方案可以提供完整空間建模能力,并支持H5頁面、安卓、IOS手機端、小程序端全平臺展示和分享。
我們已經(jīng)逐步進入5G時代。5G網(wǎng)絡提供給我們超強的帶寬,超低的延遲,使得更多的應用觸手可及,也使得萬物互聯(lián)成為可能。在5G的影響下,媒體內(nèi)容的生產(chǎn),獲取和傳播方式都在發(fā)生變化。無論是4K/8K,還是VR/AR/MR/點云,這些在過去因為受限于網(wǎng)絡帶寬的應用,在5G的推動下可能會迎來突破。騰訊將繼續(xù)積極投入多媒體技術的研發(fā),擁抱開源生態(tài)建設,為開發(fā)者和合作伙伴提供有效的服務和支持。
謝謝大家。