中關(guān)村科金音視頻中臺:多元化技術(shù)融合驅(qū)動銀行數(shù)字化轉(zhuǎn)型
隨著人工智能技術(shù)的快速成熟,實時音視頻技術(shù)與應用也在不斷完善。近年來,由于消費者的行為模式悄然轉(zhuǎn)變,遠程業(yè)務辦理、線上服務、線上營銷等需求愈發(fā)旺盛,音視頻技術(shù)發(fā)展進程被不斷推進。?
李超表示,對于大中型銀行而言,隨著銀行整體數(shù)字化轉(zhuǎn)型的迫在眉睫,音視頻業(yè)務的必要性越來越高。為了更好的賦能業(yè)務部門,部分銀行的科技部門會主動探索音視頻技術(shù),建立一個可控、可重用、可持續(xù)化、靈活的音視頻中臺,深入各業(yè)務線優(yōu)化其工作模式、服務方式等,以技術(shù)來驅(qū)動金融數(shù)字化。?
中關(guān)村科金智慧視頻團隊推出了音視頻中臺系統(tǒng)解決方案,深度融入對話式AI技術(shù),以多人音視頻通話和低延時直播等應用系統(tǒng)為主導,構(gòu)建了更靈活、更可靠、更全面的音視頻中臺,實現(xiàn)對企業(yè)內(nèi)外部溝通全鏈路的全覆蓋,解決內(nèi)部各部門及員工的視頻應用需求,從而大幅提升企業(yè)內(nèi)部及上下游合作伙伴間的業(yè)務處理效率。?
一、技術(shù)推動業(yè)務,助力銀行業(yè)價值體系重構(gòu)
對于商業(yè)銀行來說,建設專屬音視頻中臺而不是借助第三方音視頻工具,能夠有效確保系統(tǒng)和數(shù)據(jù)的安全,并可依托音視頻工具作為載體開展業(yè)務,深入到企業(yè)價值創(chuàng)造的各個業(yè)務環(huán)節(jié)中,包括招聘、研發(fā)、銷售、客服等。而高品質(zhì)的融合通訊能力,有助于將現(xiàn)有業(yè)務、服務能力遷移至線上,實現(xiàn)業(yè)務線上化、智能化。具體而言:?
合理規(guī)劃音視頻框架,實現(xiàn)多場景海量業(yè)務高并發(fā)。相比于單一的傳統(tǒng)音視頻互動平臺,專屬音視頻框架在通過合理規(guī)劃后,可采用前沿的技術(shù)框架,拓展性較強,方便多部門共用,實現(xiàn)多業(yè)務場景延展,并能承受海量業(yè)務的高并發(fā),有效保障業(yè)務的穩(wěn)定性。?
融合多元化技術(shù),實現(xiàn)服務智能化升級。基于商業(yè)銀行需求打造的專屬音視頻中臺,由于其自身的可拓展性,更加便于融合人工智能等前沿技術(shù),在多元化的場景中加入虛擬數(shù)字人、智能客服、遠程投顧等應用,實現(xiàn)實時互動、遠程協(xié)作、智能化展業(yè)等要求,提升客戶服務體驗,增強業(yè)務辦理效率。
前期統(tǒng)籌規(guī)劃,實現(xiàn)整體運維降本增效。此外,在音視頻框架建設初期開展科學的統(tǒng)籌規(guī)劃,將運維監(jiān)控等因素充分納入考量范圍,可有效降低運維成本,提升運維效率,保障銀行業(yè)務的連續(xù)性。
當前,建設音視頻中臺的路徑包括自主建設、采用傳統(tǒng)的通用解決方案等。然而,由于銀行的技術(shù)儲備、可投入資源和運維能力的參差,從0開始自主建設一個音視頻中臺并不現(xiàn)實。同時,采用傳統(tǒng)的通用解決方案亦存在著諸多挑戰(zhàn):音視頻中臺不僅需要滿足業(yè)務部門之間、客戶與銀行之間、業(yè)務部門與技術(shù)部門之間多個層級的需求,對于背后的技術(shù)框架、高并發(fā)能力、靈活程度、可拓展性都提出了相當高的標準。?
中關(guān)村科金音視頻團隊通過深度的行業(yè)理解與反復打磨,推出了一套更全面、融合性更高的銀行專屬音視頻中臺技術(shù)方案。如中關(guān)村科金在為某大型國有銀行建設音視頻中臺時,通過全面提升音視頻中臺技術(shù)實力,深化與外部系統(tǒng)的協(xié)同能力,將音視頻技術(shù)、AI能力和其他能力融合,規(guī)劃完善的系統(tǒng)運維能力,達到降本增效、打通內(nèi)外部業(yè)務壁壘的目標。 ?
中關(guān)村科金智慧視頻中臺產(chǎn)品架構(gòu)
- 構(gòu)建統(tǒng)一的音視頻中臺確保業(yè)務場景可拓展性并支持高并發(fā)?協(xié)助搭建可供全行統(tǒng)一使用的音視頻中臺,使該銀行在應對新增業(yè)務需求時,可以按需在封裝層以組件形式通過?
- 私有化部署有效保障數(shù)據(jù)安全和服務質(zhì)量?區(qū)別于提前部署好的互聯(lián)網(wǎng)云資源,銀行音視頻方面私有化部署相當于是空白的階段,無論從端口申請、權(quán)限審核、包括跨區(qū)的訪問、存儲等問題,都必須要單獨構(gòu)建。中關(guān)村科金音視頻中臺通過提供私有化部署能力,為銀行單獨使用而構(gòu)建,提供對數(shù)據(jù)、安全性和服務質(zhì)量的最有效控制。數(shù)據(jù)不出內(nèi)網(wǎng),完全滿足銀行需求。同時可以與已有系統(tǒng)的數(shù)據(jù)API直接交互,來保障各業(yè)務的聯(lián)動運營,不存在安全限制等問題。此外,不論是內(nèi)部系統(tǒng)對接的擴展、以及業(yè)務個性化擴展,靈活性高,還可獨享版本管理。?
- 全鏈路實時監(jiān)控實現(xiàn)后期運維降本增效?由于音視頻是動態(tài)的,所以在監(jiān)控方面必須能夠?qū)崟r發(fā)現(xiàn)問題,且及時處理,因此基于中關(guān)村科金音視頻中臺所具備的全鏈路監(jiān)控功能,通過對音視頻互動的全鏈路,以及接入節(jié)點、網(wǎng)絡狀態(tài)、時延狀態(tài)、設備狀態(tài)等內(nèi)外部因素進行實時監(jiān)控,幫助銀行在音視頻系統(tǒng)發(fā)生故障時能夠?qū)收显蜻M行快速的判斷與修復,顯著提升后期運維效率,并降低運維成本。?
- 多重技術(shù)融合提升業(yè)務辦理效率和服務質(zhì)量?
利用人臉比對、活體檢測、OCR識別等技術(shù)與音視頻技術(shù)融合,形成具有AI能力的音視頻中臺,解決線下業(yè)務線上化的身份核實難、互動效率低等問題,更智慧地辦理業(yè)務,創(chuàng)造“有溫度、有深度、有廣度“的線上業(yè)務場景。
中關(guān)村科金音視頻中臺除了覆蓋保險遠程雙錄、商戶遠程巡檢、財富遠程投顧、信用卡遠程面簽、三農(nóng)信貸簽約等多種場景外,也充分發(fā)揮了系統(tǒng)互通的能力,讓各系統(tǒng)、各類業(yè)務高效簡潔地協(xié)作,充分利用實時質(zhì)檢等應用能力,使得各業(yè)務辦理場景在滿足金融服務合規(guī)要求的前提下,極大提升了線上業(yè)務能力與效率。?
自研AI智慧雙錄能力
二、“1+N”創(chuàng)新模式,打好直播技術(shù)攻堅戰(zhàn)
中關(guān)村科金的音視頻中臺在設計之初就秉承著“1+N”的創(chuàng)新模式,使其在技術(shù)底座能力不變的基礎上,中臺組件既能獨立又能夠合并,高度可擴展。其中,多人音視頻通話能力支持雙錄、遠程面簽等線上辦理的業(yè)務場景,銀行通過搭建視頻中臺來支持用戶的實時音視頻交流;基于音視頻中臺構(gòu)建的直播平臺使用場景主要在于售前和營銷等場景,面向的是更多客戶對于音視頻信息的接收與互動。
中關(guān)村科金視頻營銷全鏈路解決方案
區(qū)別于常規(guī)的企業(yè)直播,銀行直播過程中可能會涉及一些金融政策、金融數(shù)據(jù)、行情分析等內(nèi)容,需要非常高的安全性和保密性,因此對直播的平臺、設備都有一定的要求。?
中關(guān)村科金團隊通過深度調(diào)研銀行業(yè)應用直播的目的后,發(fā)現(xiàn)大多數(shù)銀行希望通過直播這種小而輕、集中化的觸達方式豐富營銷拓展模式,增加受眾提升轉(zhuǎn)化,降低獲客成本和客戶流失率,提升用戶數(shù)據(jù)利用率,以便更好地經(jīng)營私域流量,提升業(yè)務辦理效率。
中關(guān)村科金一站式直播服務解決方案?
越大的系統(tǒng)周期越長,無論是決策周期還是系統(tǒng)建設周期,有的甚至需要耗時一年,而銀行需要能夠局部、快速上線并使用的直播系統(tǒng)。這種快速上線的直播系統(tǒng)在技術(shù)架構(gòu)、保持通用化、支持對接行方系統(tǒng)的靈活性、不破壞產(chǎn)品形態(tài)等方面存在著諸多挑戰(zhàn),同時需要面對銀行技術(shù)環(huán)境復雜、培訓流程繁瑣、實時審核要求高、運營商故障因素、服務器故障訪問異常、網(wǎng)絡/磁盤IO壓力大等問題。?
舉個例子,在部署方面,銀行對安全要求很高,會劃分出多個內(nèi)部的區(qū)域,區(qū)域之間不能直接互通,必須走代理方式。但代理轉(zhuǎn)發(fā)音視頻數(shù)據(jù)會造成大量的內(nèi)部帶寬占用,多層區(qū)域轉(zhuǎn)發(fā)更不可行。為此,中關(guān)村科金把音視頻傳輸服務拿到了K8s外,部署到外層的區(qū)域。由于音視頻數(shù)據(jù)流都是基于UDP端口,會暴露公網(wǎng)IP地址,中關(guān)村科金還會考慮更多的安全策略;音視頻中臺的其它部分,部署在內(nèi)部的區(qū)域,通過代理方式訪問,包括Redis等中間件;混流服務也在K8s內(nèi)的容器內(nèi),中關(guān)村科金發(fā)現(xiàn)對于大數(shù)據(jù)量的音視頻,K8s內(nèi)的代理轉(zhuǎn)換有性能問題,也是進行了專項的優(yōu)化。?
在功能方面,中關(guān)村科金采用的是SFU傳輸模型,用于支持高并發(fā)傳輸;在音視頻處理上,可支持萬路視頻混流,并可自定義混流模板;除音視頻的相關(guān)功能外,還提供智能播報、白板畫筆、屏幕共享、虛擬背景、遠程協(xié)助、即時消息等多種互動能力;為了應對國產(chǎn)化節(jié)奏,音視頻中臺支持信創(chuàng)環(huán)境和國密;同時在斷網(wǎng)重連機制,優(yōu)化QoS抗網(wǎng)弱,編解碼,多端適配和優(yōu)化等多方面都有改進。?
在存儲方面,中關(guān)村科金采用的是分布式存儲,并且需要保證幾個備份,對于文件的動態(tài)管理來說就會變得很復雜。常規(guī)的磁盤存儲不能滿足大量實時音視頻的要求,標準的分布式存儲也并不是專門為大文件而設計的,粒度過小會產(chǎn)生大量的網(wǎng)絡請求,操作系統(tǒng)核心層面需要調(diào)整,為此中關(guān)村科金做了很多優(yōu)化,如調(diào)整緩存策略,采用冷熱存儲等。?
中關(guān)村科金音視頻中臺的解決方案中,除了高并發(fā)、高可用、動態(tài)擴縮容等技術(shù)保障外,還支持了“雙中心雙活”和“兩地三中心”兩種解決方案。雙中心雙活方案可以實現(xiàn)當兩個機房同時工作時,其中一個線路機房掛掉后可以動態(tài)切換到另一個機房去繼續(xù)工作,同時要保證同一個房間里的用戶都落在一個機房里,來保證雙中心雙活的策略;兩地三中心是指在兩個城市部署三個業(yè)務處理中心,即:生產(chǎn)中心、同城容災中心、異地容災中心,以此最大程度保證業(yè)務的連續(xù)運行。在基礎音視頻能力上進行靈活擴展,疊加AI、虛擬人、云計算等能力,實現(xiàn)了一對多的靈活對接?!?+N”的創(chuàng)新服務模式,使得各業(yè)務線無需再投入技術(shù)研發(fā)成本,只需專注精細化設計各自的業(yè)務能力,打造更加精細化的“技術(shù)+業(yè)務”的服務體系。?
三、技術(shù)廠商需重視互動性,音視頻+AI是趨勢
從圖文到視頻,音視頻產(chǎn)業(yè)跨越了傳統(tǒng)的單點接收屏障,通過直播和互動的方式無限地接近人們。多元的算力、云原生、AI等能力與音視頻的不斷融合,推動著音視頻廠商不斷增強互動性,在低延遲、編解碼、硬件結(jié)合等方面優(yōu)化。
而AIGC、數(shù)字人的興起,也證明了實時音視頻與AI的深度融合的確能夠帶來更深層次的提升。對于直播這種強交互形式,工具+運營+內(nèi)容缺一不可,而企業(yè)最缺乏的是內(nèi)容和運營,數(shù)字人+AIGC恰好可以彌補,如主播助手,彈幕機器人,虛擬主播等。李超表示,中關(guān)村科金目前正在圍繞對話式AI、實時音視頻、數(shù)字人,結(jié)合前沿的AIGC等技術(shù)對這種虛實結(jié)合的實時互動進行探索,通過機器人智能實現(xiàn)文本、圖片、音視頻等多模態(tài)高質(zhì)量內(nèi)容的自動生成,以數(shù)字人為呈現(xiàn)形式,依托視頻+直播的方式與用戶進行互動。
中關(guān)村科金虛實結(jié)合實時互動解決方案?
以數(shù)字人為例,在直播過程中使用數(shù)字人主播可以彌補真人主播的時間精力有限、人員流動性大等問題。數(shù)字人主播可以做到24小時全天候直播,保持永不疲憊的狀態(tài)。因此,中關(guān)村科金在原有音視頻能力平臺的基礎上,以多模態(tài)人機交互為核心,融合ASR、TTS、NLP等多項AI能力,打造了數(shù)字人主播。通過深度學習,數(shù)字人可以更自然的和真人交互。比如數(shù)字人主播在介紹產(chǎn)品同時還會不定時的與用戶進行互動,幫助企業(yè)吸引新用戶群體,拉近與用戶的距離。
對于音視頻技術(shù)發(fā)展的展望,李超坦言:未來,實時音視頻將成為連接虛擬世界和現(xiàn)實世界、內(nèi)容生產(chǎn)和消費的橋梁,在技術(shù)方面,將會強調(diào)更高要求的實時性和沉浸性。而通過數(shù)字人視頻、數(shù)字人直播等形式,企業(yè)能夠以更豐富、更輕松的形式獲客和承載業(yè)務,綻放更多的想象力和可能性,對于提升業(yè)務價值來說是一個強有力的推手。?