騰訊云音視頻技術開發(fā)實戰(zhàn)沙龍:干貨滿滿,收獲頗多
原創(chuàng)【51CTO.com原創(chuàng)稿件】近年來,得益于移動互聯(lián)網(wǎng)的普及和智能終端設備的廣泛應用,短視頻、直播、在線教學等各類形式的音視頻通信模式風靡大眾,成為人們?nèi)粘贤ǖ男履J?。音視頻功能為用戶帶來了溝通的便捷性,也啟發(fā)了應用平臺基于音視頻功能開拓業(yè)務模式的創(chuàng)新思路。不可否認的是,使用起來很“普遍”的音視頻通話功能或者是使用起來很“酷”的短視頻功能,在底層技術開發(fā)上卻有“千山萬水”需要踏遍。
騰訊憑借在QQ、騰訊視頻等海量業(yè)務發(fā)展過程中,在音視頻領域多年積累的核心技術與優(yōu)勢能力,集成了一體化的云視頻解決方案,為包括在線教育、視頻社交、視頻網(wǎng)站新媒體、廣電網(wǎng)絡電視等應用領域,提供囊括基礎網(wǎng)站及數(shù)據(jù),內(nèi)容生產(chǎn)及分發(fā),用戶及內(nèi)容運營的一攬子服務,可以說是音視頻行業(yè)的領軍人物。
對于音視頻技術研發(fā)中的高門檻、重投入的痛點,騰訊云+社區(qū)推出了“音”你而來,“視”而可見--音視頻技術開發(fā)實戰(zhàn)沙龍活動。在活動中, 騰訊視頻云資深產(chǎn)品經(jīng)理王奇,騰訊音視頻實驗室高級工程師張軻, OnVideo視頻創(chuàng)作平臺CTO劉歧,騰訊高級產(chǎn)品經(jīng)理董燚,騰訊視頻云終端技術總監(jiān)常青,進行了精彩演講。
騰訊視頻云產(chǎn)品全景
王奇 騰訊視頻云高級產(chǎn)品經(jīng)理
王奇:2011年畢業(yè)后,先后在華為、網(wǎng)宿及騰訊從事產(chǎn)品經(jīng)理工作,先后負責無線網(wǎng)通信、直播、互動直播與實時音視頻等產(chǎn)品的需求規(guī)劃、市場分析、宣傳推廣工作,近距離的了解并提煉客戶需求,以較合理的方式實現(xiàn),對音視頻行業(yè)的發(fā)展趨勢有較深理解。
從視頻行業(yè)的發(fā)展來看,從黑白到彩色電視,從線上點播視頻到直播千播大戰(zhàn),從連麥互動到實時音視頻溝通,視頻一直在解決用戶信息獲取的痛點。在未來娛樂的同時是否能結合社交,或者滿足用戶認同感和自我尊重的獲得,將會是用戶粘性能否提高的一個關鍵點; 信息獲取方面,內(nèi)容是最為重要的,短視頻繼直播之后崛起,不無道理;最后如何結合新的行業(yè)技術,從內(nèi)容的產(chǎn)生到內(nèi)容的消費,進行閉環(huán),是騰訊云規(guī)劃的一個重點。
十余年來,騰訊云為QQ、微信、QQ空間等業(yè)務提供互聯(lián)網(wǎng)服務能力,為企業(yè)提供公有云、混合云、專有云、金融專區(qū)等云服務,包含IaaS、PaaS、SaaS,并提供萬象優(yōu)圖、人臉識別、大數(shù)據(jù)分析、機器學習、音視頻技術、安全防護等全球領先的互聯(lián)網(wǎng)技術;同時向不同垂直行業(yè)的客戶(涵蓋政務、電子商務、O2O服務、游戲、視頻直播以及互聯(lián)網(wǎng)金融等)提供優(yōu)質(zhì)的行業(yè)解決方案。
作為騰訊連接互聯(lián)網(wǎng)生態(tài)的重要橋梁和開放戰(zhàn)略的重要組成部分,騰訊云堅信以高速(speed)、穩(wěn)定(stability)、安全(security)為競爭核心的3S品牌理念, 繼續(xù)加強云基礎設施投入,全力支持各行各業(yè)的合作伙伴在“互聯(lián)網(wǎng)+”領域的實踐,共建云端生態(tài)。
接下來,王奇主要對點播、直播、實時音視頻、短視頻,以及視頻+AI五個產(chǎn)品進行了詳細介紹。
2018騰訊云視頻及通信產(chǎn)品矩陣圖
1. 點播
根據(jù)制作成本、播放方式,大致可以分為四類:PC端的視頻,如優(yōu)酷、土豆、騰訊視頻等;傳統(tǒng)廣電,如芒果TV和CNTV;最近火爆的短視頻;在2015、2016年特別火的直播應用,可以把直播的內(nèi)容錄制下來,轉成點播。
騰訊云的點播支持UGC內(nèi)容、版權視頻、自媒體內(nèi)容、直播錄制。可以通過短視頻的SDK、WebSDK、本地上傳、API上傳,傳到云端,進行冷熱存儲和視頻的媒資管理??梢詫c播的內(nèi)容進行區(qū)分,如果不需要進行在線播放,就把它作為冷資源進行存儲,不支持隨時調(diào)用。
2. 直播
直播平臺的一個非常明顯的趨勢就是“直播+”。直播和點播的形式,本質(zhì)是承載信息,隨著基礎網(wǎng)絡設施的完善,視頻必將承載更多的信息。
此外,“互動”、“廣告”也是直播平臺的兩個趨勢。
直播跟點播一樣,是非常難的一個技術。它需要基礎服務、音視頻計算、直播加速網(wǎng)絡、終端能力、社交互動系統(tǒng)。需要耗費大量的人力和時間。騰訊云把這塊基礎的能力提取出來,為大家提供平臺服務,只要手里有靠譜的主播,幾周就可以快速上線。目前,超過80%的Top100的直播平臺用的是騰訊云的服務,這來源于騰訊云積累了十幾年的音視頻技術。
3. 實時音視頻
目前,騰訊云在APP基礎上提供了微信公眾號和微信小程序,以及手機QQ、谷歌瀏覽器等多端的通信能力,相當于在各個終端都可以進行通信。這就是騰訊云融合的視頻通信能力。
騰訊云的實時音視頻支持騰訊內(nèi)部80%的音視頻的需求。外部客戶已經(jīng)超過400家。
4. 短視頻
“抖音有的我們的SDK都有”。短視頻是點播的一種。區(qū)別在于短視頻提供了很多采集拍攝、剪輯拼接、特效制作、混音字幕、動態(tài)貼紙功能。SDK跟點播后臺是無縫對接的,點播的所有功能:上傳、轉碼、存儲、分發(fā)等功能都是互通的。
5. 視頻+AI
視頻+AI涉及了非常多的與AI相關的功能,比如極速高清、智能字幕、語音識別等。
騰訊云H5雙向音視頻語音質(zhì)量優(yōu)化
張軻 騰訊音視頻實驗室 高級工程師
張軻,2004年參加工作,2011年加入騰訊?,F(xiàn)任職騰訊音視頻實驗室高級工程師,曾負責QQ自研音視頻引擎SPEAR的設計,開發(fā),運營等工作,近年來專注于QQ語音通話,騰訊云實時SDK,騰訊云H5雙向音視頻,游戲多媒體引擎GME等的QOE提升上。
CallStatus.io公司中途中斷;10% -15%的用戶反饋顯示通話質(zhì)量不好;有7%左右的大丟包;有95%左右的用戶往返流失在240毫秒以下。
H5 雙向音視頻(T-H5)是騰訊云基于 QQ 十多年來在音視頻通話技術上積累,結合騰訊瀏覽服務 TBS WebRTC 能力與騰訊實時音視頻 SDK ,為客戶提供多平臺互通高品質(zhì)視頻通話能力的一款產(chǎn)品,終端用戶只需要在手機 QQ/微信/QQ 瀏覽器和其它所有接入了 TBS 的 APP 中,通過 H5 頁面發(fā)起視頻請求,即可輕松接入企業(yè)的實時視頻服務。
H5雙向/多向音視頻解決方案提供了三種差異化服務質(zhì)量:
1:TBS和 Chrom等瀏覽器對通,支持WeBRTC規(guī)范的互通。
2:TBS 之間互通仍然是WeBRTC的互通,但可以做一些WeBRTC內(nèi)核級別的Bug FIX,以及一些高級擴展。
3:TBS 與NativeSDK互通,提供了差異化的通信質(zhì)量。
服務器端實現(xiàn)SFU/MCU---質(zhì)量控制示意圖
上圖是后臺音頻質(zhì)量控制系統(tǒng)示意圖,在拓撲層面,提供SFU 和 MCU兩種模式。并且通過三級決策機制來保障轉發(fā)環(huán)節(jié)的質(zhì)量。
張軻總結了FEC應用要點:設計一套好的FEC算法。
1:抗丟包算法要納入擁塞控制算法,必須是網(wǎng)絡自適應的,這是非常重要的前提。
2:如何在保證抗丟包能力的前提下減少冗余流量。
3:如何最大化發(fā)揮各種FEC機制的優(yōu)點:場景反饋。
4:FEC算法,分組大小的選擇,對流量、延時、抗丟包性能的影響均要考慮到,這是通用思考方法。
5:動態(tài)冗余率機制,收斂速度。
6:FEC效果評價。
7:一對多場景,需要針對每路接收定制化FEC保護方案。
張軻表示,優(yōu)化是永無止境的課題。WebRTC從M56到前兩天發(fā)布的M66版本,WebRTC解決了1000多個Bug。
在線音視頻素材創(chuàng)作合法化實際應用
劉歧 OnVideo視頻創(chuàng)作平臺 CTO
劉歧, 2007 年畢業(yè)參加工作,一直從事圖形圖像及音視頻流媒體相關工作,F(xiàn)Fmpeg 官方代碼開發(fā)者及顧問,曾供職于藍汛,高升,金山云任職為架構師/技術總監(jiān)/資深技術專家,現(xiàn)創(chuàng)業(yè)開發(fā)在線多媒體創(chuàng)作平臺,主要包括素材匯聚,音視頻在線處理等等,《FFmpeg從入門到精通》作者。
OnVideo致力于打造一個專業(yè)級的云端視頻創(chuàng)作平臺,人人都能上手并快速地創(chuàng)作專業(yè)級影片。
OnVideo主要有以下幾個功能:云端素材匯聚、素材裁剪與精編輯、多平臺發(fā)布與運營、超高清視頻生成、全球節(jié)點部署。
其中,云端素材匯聚包括:國內(nèi)視頻素材對接與處理、國外視頻素材對接與處理、非常規(guī)類網(wǎng)站素材處理。素材裁剪與精編可以對音視頻進行:裁剪與拼接、轉場特效、文字處理、模板定制、濾鏡處理、調(diào)色處理等操作。多平臺發(fā)布與運營不僅可以與國內(nèi)視頻平臺發(fā)布接口對接,還可以和國外視頻平臺發(fā)布接口對接。超高清視頻生成主要用到的是Super-Resolution Using a Generative Adversarial Network(SRGAN)、Super-Resolution Convolutional Neural Network (SRCNN)和騰訊云的明眸解決方案。OnVideo已經(jīng)在大陸、東南亞、歐美部署了節(jié)點。
音視頻處理素材庫各種各樣,包含種類繁多,由于是UGC業(yè)務,PGC 與 UGC 技術方面存在著素材上傳效率低下、格式兼容千奇百怪、Metadata 內(nèi)容支持、拼接處理異常支持的等問題。在業(yè)務反面又存在著用戶視頻素材涉黃涉恐、用戶視頻內(nèi)容踩紅線等問題。為了解決合法化和安全化問題,OnVideo采用騰訊云平臺進行相關的處理,解決了根本問題。
未來,OnVideo將在自動編排視頻、自動去 logo、AR 支持等方面繼續(xù)努力。
小程序音視頻典型應用場景剖析
董燚 騰訊視頻云高級產(chǎn)品經(jīng)理
董燚,先后供職于樂視云、騰訊云?,F(xiàn)為騰訊云小程序解決方案產(chǎn)品負責人。善于深入的探索行業(yè),反復地嘗試創(chuàng)新,實現(xiàn)行業(yè)落地。
小程序中運用實時音視頻,是微信發(fā)展的大趨勢。小程序為效率而生,音視頻的融入將提供更快捷、更便利的服務模式。首先,相較于H5,小程序的體驗更優(yōu)。其次,由于有量的優(yōu)勢,小視頻的價格更優(yōu)。第三,小程序帶來了更好的分享體驗。
噪聲消除、回聲抑制、Qos流控、丟包恢復等是自行實現(xiàn)音視頻功能面臨的困境。微信也對音視頻提出了更加苛刻的要求。
微信將音視頻所需的端能力進行封裝,以小程序標簽的形式提供給開發(fā)者
騰訊云提供底層音視頻組件,助力微信生態(tài)。有了騰訊云的小程序解決方案,客戶不用考慮整個音視頻的處理技術,只需集中精力完成業(yè)務部分。
接下來,董燚分享了小程序音視頻在教育、醫(yī)療等場景下的落地。
構建一個小程序音視頻應用
簡單極致,是騰訊云音視頻小程序解決方案的產(chǎn)品理念。
董燚詳細介紹了在線車險理賠的業(yè)務場景模式。保險理賠流程長,而且體驗很差,而開發(fā)APP性價比很低。
其中,有三個核心的流程:報案、查勘、賠付。報案首先要考慮的就是效率。在查勘過程中,圖片容易偽造。保證實時通話交流更順暢,可信度高,是重中之重。
微信小程序:車險理賠
一鍵報案、智能定損、坐席拍照、從根本上解決了內(nèi)網(wǎng)穿透問題、硬件落地問題、引流轉化問題。
在司法場景中也有著諸多痛點。首先對于法院來說,如果當事人在其他城市,需要往返奔波,時間、精力耗費巨大,而民商事簡易程序、小額訴訟,當事人雙方對判決結果不會有太大爭議。第二,對于檢察院來說,律師辦理閱卷、聽取意見、律師會見等業(yè)務均需要律師到檢察院現(xiàn)場提交預約申請,檢察院將申請反饋給對應的經(jīng)辦人安排接待時間,而后通過電話或短信等的方式通知律師到現(xiàn)場辦理業(yè)務。流程復雜,律師需要在路途上花費大量的時間。第三,對于司法局來說,法律咨詢有較強私密性,群眾不愿輕易到現(xiàn)場尋求服務或者一個城市幾十到幾百名律師在呼叫中心每天接待群眾電話咨詢,成本消耗大。人民調(diào)解形式單一,以線下調(diào)解居多,不能夠很好擺脫地域限制進行調(diào)解。
智慧司法:讓信息多跑路,讓群眾少跑腿
上圖是法院小程序的Demo,當事人可以通過小程序完成注冊、咨詢引導、糾紛申請、提交審核、遠程調(diào)解協(xié)議簽收整個過程。并通過智能語音識別自動記錄所有筆錄。糾紛類案件可快速、有效的處理完畢,讓群眾少跑腿。
當事人通過小程序可以完成訴前引導、立案、訴訟、庭審、文書送達全流程閉環(huán),不必反復前往法院,極大節(jié)省了精力、時間。全鏈路加密,每次均使用不同的非對稱密鑰,保障安全性。并通過智能筆錄轉寫還原庭審全部內(nèi)容,大幅減輕書記員工作量。
群眾可以一鍵了解司法知識,發(fā)起法律咨詢,全鏈路加密,確保隱私,使用便捷、易于推廣,咨詢律師不受地點限制,可以更廣泛的調(diào)動律師資源、降低成本。群眾還可以通過小程序視頻遠程進行預約、申請在線視頻調(diào)解,擺脫地域限制;有針對性地處理行業(yè)性、專業(yè)性的調(diào)解。
小程序可以通過真人身份核驗確認律師身份,律師可不用到檢察院,在線預約,在線與案件經(jīng)辦人“面對面”聽取意見,不受惡劣天氣影響,避免來回奔波。
整個核身過程包含身份證OCR、唇語活體鑒別和人臉識別技術。人臉識別過程中,騰訊優(yōu)圖技術比對手機端自拍照和儲存于公安部證件查詢中心的身份證,以此保證用戶身份的真實性與安全性。
董燚表示,出于政策合規(guī)性考慮,微信只對以下幾個類目開放了小程序音視頻能力:社交、教育、醫(yī)療、政務民生、金融,并且每一個類目,都要有很多相關資質(zhì)要求。
小程序音視頻技術實現(xiàn)以及在相關行業(yè)的實際應用
常青 騰訊視頻云終端 技術總監(jiān)
常青,2008 年畢業(yè)加入騰訊,一直從事客戶端研發(fā)相關工作,先后參與過 PC QQ、手機QQ、QQ物聯(lián) 等產(chǎn)品項目,目前在騰訊視頻云團隊負責音視頻終端解決方案的優(yōu)化和落地工作,幫助客戶在可控的研發(fā)成本投入之下,獲得業(yè)內(nèi)一流的音視頻解決方案,目前產(chǎn)品線包括:互動直播、點播、短視頻、實時視頻通話,圖像處理,AI 等等。
常青的演講從市場前景、原理剖析、技術演化、WebRTC、快速上手五方面進行展開。
音視頻能力一直以來都是小程序上的一個短板,微信產(chǎn)品的市場定位是對用戶的。這就有了比較高的要求。第一要開源;第二接口必須簡單,一兩個標簽就能完成;第三是定制性強;第四,出了問題要方便檢查。2017年 Q4, 騰訊視頻云終端團隊與微信團隊一起合作,將騰訊視頻云的技術積累以SDK的形式落地到了微信版本上,從而為小程序增加了直播和實時音視頻能力。
標簽 + 內(nèi)核
在音視頻解決方案里,把所有的問題都拆解成上行和下行,困難就迎刃而解了。
上行,就是把音視頻的畫面和聲音送到云上去,要經(jīng)過幾個基本過程。第一個采集,比如圖片或者聲音的模擬信號,之后轉成數(shù)字信號。采集之后做基礎處理和降噪處理。第二是編碼。生成網(wǎng)絡之后,把它傳到服務器上去。
下行則相反。網(wǎng)絡并不是永遠都平穩(wěn),所以要在播放器上準備一個“應急倉庫”,用以解決緩沖較大的問題。
技術演化路線圖
如上圖所示,從在線直播到遠程遙控,到雙向視頻,再到多人視頻,分別加入了UDP加速、延時控制、噪聲消除、回聲抑制、Qos、丟包恢復、房間管理、IM系統(tǒng)等技術。
小程序 vs WebRTC
小程序和WebRTC各有千秋,但是如果把二者融在一起,就會有事半功倍的效果。
小程序 + WebRTC
最后,常青總結了使用騰訊云音視頻解決方案快速上手的步驟:
1.授權登錄騰訊云。
2.開通標簽使用權限。
3.開通騰訊云服務。
4.安裝小程序開發(fā)工具。
5.下載Demo。
此次沙龍活動現(xiàn)場火爆,有200余名音視頻愛好者參加,體驗區(qū)也吸引了眾多的開發(fā)者,參會者紛紛表示干貨頗多,收獲滿滿!
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】