詳解6G系統(tǒng)數(shù)據(jù)治理方案的設(shè)計(jì)要點(diǎn)和原則
本文轉(zhuǎn)載自微信公眾號(hào)「大數(shù)據(jù)DT」,作者童文 朱佩英。轉(zhuǎn)載本文請(qǐng)聯(lián)系大數(shù)據(jù)DT公眾號(hào)。
數(shù)據(jù)的使用范圍不同,數(shù)據(jù)治理本身不論是經(jīng)濟(jì)內(nèi)涵還是技術(shù)內(nèi)涵也不同。數(shù)據(jù)治理是指通過(guò)相關(guān)流程和技術(shù),對(duì)數(shù)據(jù)進(jìn)行管理、維護(hù)和深度開(kāi)發(fā),獲得可以作為組織關(guān)鍵資產(chǎn)的高質(zhì)量數(shù)據(jù)。
每個(gè)移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商(Mobile Network Operator,MNO)將移動(dòng)通信系統(tǒng)中產(chǎn)生的數(shù)據(jù)按技術(shù)域隔離并單獨(dú)存儲(chǔ),這些技術(shù)域包括無(wú)線接入網(wǎng)(Radio Access Network,RAN)、核心網(wǎng)(Core Network,CN)、傳輸網(wǎng)(Transport Network,TN)以及運(yùn)行、管理和維護(hù)(Operation, Administration, and Maintenance,OA&M)等。不同網(wǎng)元、不同參與者擁有的數(shù)據(jù)不夠公開(kāi)透明,由此帶來(lái)的數(shù)據(jù)孤島是數(shù)據(jù)采集和共享中的主要瓶頸。
另一方面,大型OTT(Over-The-Top)業(yè)務(wù)公司在數(shù)據(jù)治理和變現(xiàn)策略方面(如數(shù)據(jù)存儲(chǔ)、分析服務(wù)、API接口)積累的專(zhuān)業(yè)知識(shí)遠(yuǎn)遠(yuǎn)領(lǐng)先于電信領(lǐng)域公司。
6G系統(tǒng)的數(shù)據(jù)治理方案將為AI和感知業(yè)務(wù)提供有力支持,將催生新的業(yè)務(wù)方式和系統(tǒng)特性。
一、設(shè)計(jì)要點(diǎn)和原則
數(shù)據(jù)治理的范圍遠(yuǎn)不止是傳統(tǒng)的數(shù)據(jù)采集與存儲(chǔ)??傮w上,系統(tǒng)設(shè)計(jì)需要考慮四個(gè)方面,如圖1所示。
▲圖1 數(shù)據(jù)治理的設(shè)計(jì)要點(diǎn)
1. 數(shù)據(jù)可獲得性和質(zhì)量
數(shù)據(jù)可獲得性和質(zhì)量是AI能否在各行業(yè)中得到應(yīng)用的最大挑戰(zhàn)之一。提高數(shù)據(jù)的可獲得性,意味著數(shù)據(jù)不能僅僅來(lái)自單個(gè)系統(tǒng)、單個(gè)領(lǐng)域,而需要同時(shí)來(lái)自多個(gè)系統(tǒng)的不同領(lǐng)域。這就提出了一個(gè)根本問(wèn)題:如何打破(多廠商、多運(yùn)營(yíng)商、多行業(yè)之間的)物理邊界,讓數(shù)據(jù)進(jìn)入異構(gòu)數(shù)據(jù)海洋?
一旦收集并利用了原本分散且相互隔離的數(shù)據(jù),另一個(gè)問(wèn)題隨之而來(lái):如何提高數(shù)據(jù)的質(zhì)量?海量數(shù)據(jù)的獲取,并不意味著獲取的數(shù)據(jù)是可用的、高質(zhì)量的。同時(shí),在考慮降低數(shù)據(jù)處理計(jì)算復(fù)雜度和能耗的同時(shí),還需要提高數(shù)據(jù)處理效率。
2. 數(shù)據(jù)主權(quán)
隨著社會(huì)的全數(shù)字化轉(zhuǎn)型,數(shù)據(jù)主權(quán)、數(shù)據(jù)安全和隱私的重要性空前突出,很多國(guó)家都制定了隱私保護(hù)的法律法規(guī)。服務(wù)提供商也在不斷更新它們的隱私保護(hù)方案,主要國(guó)家政府也正在制定或已發(fā)布了數(shù)據(jù)管理相關(guān)的規(guī)定。
例如,歐盟2018年頒布的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)就從歐盟層面上規(guī)范了數(shù)據(jù)的使用。2019年,中國(guó)頒布了《數(shù)據(jù)安全管理辦法》,與2016年頒布的《網(wǎng)絡(luò)安全法》一起構(gòu)成了中國(guó)版的GDPR。美國(guó)也正在實(shí)施隱私相關(guān)的法律,例如加州的《消費(fèi)者隱私保護(hù)法》(Consumer Privacy Act)已于2020年1月正式生效。
如何充分挖掘數(shù)據(jù)的內(nèi)在價(jià)值,為各種業(yè)務(wù)提供精確支撐的同時(shí)兼顧隱私保護(hù),尊重?cái)?shù)據(jù)主權(quán),已成為近年來(lái)的熱門(mén)話題。6G系統(tǒng)設(shè)計(jì)應(yīng)當(dāng)考慮到監(jiān)管的不確定性,尤其是存在于不同地區(qū)之間的監(jiān)管差異帶來(lái)的不確定性。
3. 知識(shí)管理
一般來(lái)說(shuō),知識(shí)可以看作是經(jīng)過(guò)處理后的具有特定用途或價(jià)值的數(shù)據(jù),可以被不同技術(shù)和業(yè)務(wù)領(lǐng)域的物理實(shí)體或虛擬實(shí)體直接使用。
知識(shí)管理包括知識(shí)的生成、更新和開(kāi)放。就知識(shí)的生成和更新來(lái)說(shuō),我們需要仔細(xì)把關(guān)數(shù)據(jù)的來(lái)源和質(zhì)量,采取措施攔截不可靠甚至是惡意的數(shù)據(jù)源產(chǎn)生的低質(zhì)量和有害數(shù)據(jù)。而將知識(shí)作為一種能力對(duì)外開(kāi)放,則需要適合的平臺(tái)和接口設(shè)計(jì)。
4. 法律問(wèn)題
各種各樣的傳感器和其他技術(shù)可以實(shí)時(shí)產(chǎn)生數(shù)據(jù),這讓數(shù)據(jù)收集和使用越來(lái)越復(fù)雜和敏感。數(shù)據(jù)生成能力的提升不僅提供了新的數(shù)據(jù)流和內(nèi)容類(lèi)型,同時(shí)也引發(fā)了政策和法律對(duì)數(shù)據(jù)濫用的關(guān)注:別有用心的機(jī)構(gòu)或政府可能利用這些能力達(dá)到社會(huì)控制的目的。
同時(shí),新技術(shù)能力也讓普通人難以分辨技術(shù)內(nèi)容的真假。比如,普通人就很難區(qū)分一段真實(shí)視頻和一段“深度偽造”(deep fake)的視頻。維
護(hù)技術(shù)的社會(huì)利益和防止技術(shù)能力被用于實(shí)施社會(huì)控制、剝奪自由之間存在一種脆弱的平衡,如何保護(hù)這一平衡,變得愈發(fā)重要。為了識(shí)別欺詐行為、防止先進(jìn)技術(shù)被濫用,需要更嚴(yán)格的法律和政策手段。
二、架構(gòu)特點(diǎn)
獨(dú)立的數(shù)據(jù)面是數(shù)據(jù)治理系統(tǒng)設(shè)計(jì)中的關(guān)鍵特性(如圖2所示),它將為6G系統(tǒng)提供數(shù)據(jù)相關(guān)的通用能力,從而為6G系統(tǒng)內(nèi)部和外部功能提供透明、高效、內(nèi)生安全和隱私保護(hù)。下文將介紹基本概念和相關(guān)網(wǎng)絡(luò)功能和業(yè)務(wù)。
▲圖2 獨(dú)立的數(shù)據(jù)面實(shí)現(xiàn)完整的數(shù)據(jù)治理
1. 獨(dú)立數(shù)據(jù)面
獨(dú)立數(shù)據(jù)面旨在實(shí)現(xiàn)6G系統(tǒng)的數(shù)據(jù)治理方案,它處理的數(shù)據(jù)來(lái)自不同業(yè)務(wù)實(shí)體。不論數(shù)據(jù)來(lái)自哪里,數(shù)據(jù)的整個(gè)生命周期都在這一平面完成處理,包括數(shù)據(jù)生成與收集、數(shù)據(jù)處理與分析、數(shù)據(jù)業(yè)務(wù)發(fā)放。
因此,獨(dú)立的數(shù)據(jù)面可以為外部商業(yè)實(shí)體(如汽車(chē)、制造和醫(yī)療等垂直行業(yè))提供數(shù)據(jù)服務(wù),也可以為6G系統(tǒng)本身(如控制面、用戶(hù)面和管理面)提供網(wǎng)絡(luò)自動(dòng)化和優(yōu)化服務(wù)。網(wǎng)絡(luò)運(yùn)行相關(guān)的配置、狀態(tài)、日志,以及用戶(hù)個(gè)人數(shù)據(jù)、傳感器數(shù)據(jù)、其他各方提供的數(shù)據(jù)都是收集的對(duì)象。
收集到的數(shù)據(jù)會(huì)形成豐富的數(shù)據(jù)資源,這些數(shù)據(jù)資源可以以分布式的形式被組織起來(lái)。為了防止直接將原始數(shù)據(jù)用于AI和感知等應(yīng)用而導(dǎo)致的問(wèn)題,原始數(shù)據(jù)在被使用之前通常需要預(yù)處理(如匿名化、數(shù)據(jù)格式再塑、去噪、轉(zhuǎn)換、特征提取等)。
為確保數(shù)據(jù)完整、過(guò)程合規(guī),數(shù)據(jù)處理過(guò)程中所涉及的政策(如地理限制、國(guó)家或地區(qū)隱私法規(guī)等規(guī)定),不論是否來(lái)自監(jiān)管層面,都默認(rèn)需要遵守。將數(shù)據(jù)傳遞至數(shù)據(jù)面時(shí),還需要遵守?cái)?shù)據(jù)合同中約定的數(shù)據(jù)使用權(quán)利和義務(wù)。數(shù)據(jù)脫敏是保護(hù)隱私的關(guān)鍵,數(shù)據(jù)面需要提供這一服務(wù)。
上述由數(shù)據(jù)面提供的所有服務(wù),都由自包含的OA&M系統(tǒng)來(lái)運(yùn)營(yíng)管理。
數(shù)據(jù)面的另一重要功能是基于數(shù)據(jù)收集、處理和編排生成知識(shí)。為了協(xié)調(diào)來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)的處理和傳輸,知識(shí)的生產(chǎn)也需要按照合同要求進(jìn)行。
隨著新的數(shù)據(jù)源、數(shù)據(jù)模型、數(shù)據(jù)主題被數(shù)據(jù)客戶(hù)關(guān)注和使用,數(shù)據(jù)治理框架可以不斷演進(jìn)、不斷充實(shí)。因此,數(shù)據(jù)治理框架的運(yùn)營(yíng)管理和框架的實(shí)時(shí)發(fā)展是可以并行的。
由于數(shù)據(jù)面是一個(gè)邏輯概念,所以可以通過(guò)集中式分層架構(gòu)實(shí)現(xiàn),也可以作為一種分布在邊緣或深度邊緣節(jié)點(diǎn)上的邏輯功能實(shí)現(xiàn)。接下來(lái)我們將探討數(shù)據(jù)面的一些關(guān)鍵要素。
2. 數(shù)據(jù)治理的多方角色
數(shù)據(jù)治理生態(tài)系統(tǒng)包括兩個(gè)維度的角色:從數(shù)據(jù)客戶(hù)到數(shù)據(jù)提供者、從數(shù)據(jù)所有者到數(shù)據(jù)管理者。不同的角色可以由不同的業(yè)務(wù)實(shí)體擔(dān)任。因此,6G中的數(shù)據(jù)治理是典型的多方參與場(chǎng)景,使用6G系統(tǒng)提供的數(shù)據(jù)或知識(shí)的數(shù)據(jù)客戶(hù)、6G系統(tǒng)的數(shù)據(jù)提供者都可能參與其中。
6G可以有自己的數(shù)據(jù)治理框架,也可以在自身領(lǐng)域知識(shí)的基礎(chǔ)上,與其他行業(yè)參與者一起構(gòu)建數(shù)據(jù)治理框架。也就是說(shuō),數(shù)據(jù)治理框架可能存在不同的演進(jìn)或發(fā)展路線。因此,不同業(yè)務(wù)實(shí)體之間在運(yùn)營(yíng)階段如何確定數(shù)據(jù)權(quán)利非常重要,可以借助區(qū)塊鏈等去中心化技術(shù)解決這一問(wèn)題。
3. 數(shù)據(jù)資源
數(shù)據(jù)資源的內(nèi)容非常豐富,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、預(yù)處理數(shù)據(jù)、后處理數(shù)據(jù)、原始數(shù)據(jù)。從無(wú)線環(huán)境中高效收集數(shù)據(jù)(如移動(dòng)性等用戶(hù)行為數(shù)據(jù)和網(wǎng)絡(luò)狀態(tài)數(shù)據(jù))是數(shù)據(jù)治理的前提。然后可以使用智能方法分析數(shù)據(jù)、將數(shù)據(jù)衍生的知識(shí)傳輸給內(nèi)外部客戶(hù)。因而有必要了解數(shù)據(jù)的來(lái)源。
▲圖3 主要數(shù)據(jù)源類(lèi)別
圖3展示了6G系統(tǒng)中一些主要的數(shù)據(jù)源類(lèi)別。
- 基礎(chǔ)設(shè)施:基礎(chǔ)設(shè)施即通信系統(tǒng),包括RAN、TN和CN等各類(lèi)物理和虛擬資源,以及云、邊緣和深度邊緣等計(jì)算資源?;A(chǔ)設(shè)施內(nèi)部產(chǎn)生的數(shù)據(jù)包括計(jì)算資源信息、通信資源信息(如某一網(wǎng)絡(luò)功能的狀態(tài))、感知信息(如來(lái)自RAN的感知信息),以及某些用戶(hù)信息(如移動(dòng)性信息、位置和相關(guān)上下文)。
- 運(yùn)營(yíng)支撐系統(tǒng)(Operation Support System,OSS):這一層的數(shù)據(jù)包括所有OA&M相關(guān)的數(shù)據(jù),如物理設(shè)備狀態(tài)、系統(tǒng)運(yùn)行信息、業(yè)務(wù)發(fā)放信息。
- 業(yè)務(wù)支撐系統(tǒng)(Business Support System,BSS):這一層的數(shù)據(jù)包括所有與業(yè)務(wù)邏輯相關(guān)的數(shù)據(jù),如客戶(hù)信息、伙伴關(guān)系管理信息。更重要的還有消費(fèi)者和企業(yè)客戶(hù)的訂閱數(shù)據(jù),對(duì)于這些數(shù)據(jù),他們應(yīng)擁有完全所有權(quán)和控制權(quán)。
- 行業(yè)通信系統(tǒng):6G行業(yè)應(yīng)用場(chǎng)景中,收集的數(shù)據(jù)可能還包括行業(yè)相關(guān)OA&M數(shù)據(jù)信息、行業(yè)用戶(hù)信息(如流量規(guī)律和移動(dòng)性數(shù)據(jù))以及存儲(chǔ)在云端的業(yè)務(wù)/服務(wù)數(shù)據(jù)。此類(lèi)數(shù)據(jù)的所有權(quán)應(yīng)完全屬于行業(yè)客戶(hù)。
- 終端:來(lái)自終端側(cè)的數(shù)據(jù)包括計(jì)算和通信資源、業(yè)務(wù)使用概況、感知知識(shí)等。此類(lèi)數(shù)據(jù)的所有權(quán)應(yīng)完全屬于終端用戶(hù)。
4. 數(shù)據(jù)搜集
6G中,數(shù)據(jù)治理的一個(gè)主要作用就是提供合適的方法構(gòu)建數(shù)據(jù)資源,這需要合適的架構(gòu)和網(wǎng)絡(luò)功能的支持,構(gòu)建數(shù)據(jù)資源的第一步是收集數(shù)據(jù),這一步有如下幾個(gè)關(guān)鍵動(dòng)作:
- 與數(shù)據(jù)源建立協(xié)議(如數(shù)據(jù)授權(quán))和安全連接。
- 接收數(shù)據(jù)收集需求,確定收集范圍,根據(jù)需求確定收集的地點(diǎn)、時(shí)間和方式。
- 將數(shù)據(jù)屬性告知數(shù)據(jù)源。
- 從數(shù)據(jù)源收集數(shù)據(jù)并入庫(kù)。
- 對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行操作和維護(hù)。
5. 數(shù)據(jù)分析
在管理數(shù)據(jù)資源的基礎(chǔ)上,為不同類(lèi)型客戶(hù)提供數(shù)據(jù)分析服務(wù)便成為可能。有如下四種數(shù)據(jù)分析服務(wù)可以提供:
- 描述性分析挖掘歷史數(shù)據(jù)的統(tǒng)計(jì)信息,提供網(wǎng)絡(luò)洞察信息,如網(wǎng)絡(luò)性能、流量模型、信道狀況、用戶(hù)等方面。
- 診斷性分析可以實(shí)現(xiàn)網(wǎng)絡(luò)故障和業(yè)務(wù)損傷自主檢測(cè),識(shí)別網(wǎng)絡(luò)異常根因,從而提升網(wǎng)絡(luò)可靠性和安全性。
- 預(yù)測(cè)性分析利用數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)事件,如流量模式、用戶(hù)位置、用戶(hù)行為和偏好、資源可用性,甚至是故障。
- 建議性分析基于預(yù)測(cè)性分析為資源分配、內(nèi)容展示等提供建議。
數(shù)據(jù)面提供的知識(shí)來(lái)自數(shù)據(jù)分析服務(wù),提供的知識(shí)包括主動(dòng)知識(shí)(如行動(dòng)建議)和被動(dòng)知識(shí)(如信息共享和客戶(hù)的行動(dòng)決定)。
數(shù)據(jù)分析服務(wù)可以基于客戶(hù)需要,并根據(jù)客戶(hù)需求定制。數(shù)據(jù)面應(yīng)按需多維度開(kāi)放服務(wù)和數(shù)據(jù),表1列舉了可向客戶(hù)提供的服務(wù)類(lèi)型的示例。可以預(yù)見(jiàn)的是,實(shí)際的客戶(hù)類(lèi)型比表格中所列舉的更豐富,客戶(hù)對(duì)數(shù)據(jù)分析的需求和使用場(chǎng)景也各不相同。
▼表1 數(shù)據(jù)面提供的多維數(shù)據(jù)服務(wù)示例
6. 數(shù)據(jù)脫敏
收集和儲(chǔ)存敏感數(shù)據(jù),就涉及了隱私風(fēng)險(xiǎn),需要承擔(dān)隱私保護(hù)責(zé)任。數(shù)據(jù)脫敏是回應(yīng)隱私關(guān)切、實(shí)現(xiàn)法律遵從的重要?jiǎng)幼鳎瑢?duì)于在6G設(shè)計(jì)中支持AI和感知業(yè)務(wù)也尤為重要。
特別是對(duì)于AI任務(wù),需要考慮跨領(lǐng)域的設(shè)計(jì)。近來(lái)有大量關(guān)于AI領(lǐng)域中差分隱私(differential privacy)的研究,探討如何將單個(gè)設(shè)備的訓(xùn)練數(shù)據(jù)匿名化。
模型訓(xùn)練和AI推理過(guò)程中的數(shù)據(jù)脫敏在6G設(shè)計(jì)中必不可少。實(shí)現(xiàn)差分隱私的方法包括:在不影響數(shù)據(jù)統(tǒng)計(jì)屬性的前提下為訓(xùn)練數(shù)據(jù)加入噪聲,訓(xùn)練模型仍然可以捕捉到原始數(shù)據(jù)集的特征;使用加密技術(shù),使機(jī)器學(xué)習(xí)基于加密的(而非解密的)數(shù)據(jù)進(jìn)行。還有一種方法是,讓設(shè)備發(fā)送模型參數(shù),而不是訓(xùn)練數(shù)據(jù),比如說(shuō)聯(lián)邦學(xué)習(xí)和拆分學(xué)習(xí)。
在這一過(guò)程中存在一個(gè)風(fēng)險(xiǎn),如果有完全掌握學(xué)習(xí)方法的內(nèi)部人員心懷不軌,那么他可以利用模型逐漸收斂的過(guò)程構(gòu)造與訓(xùn)練數(shù)據(jù)類(lèi)似的信息。例如在聯(lián)邦學(xué)習(xí)中,信息可能因此被泄露給惡意設(shè)備。
不論何種學(xué)習(xí)方法,數(shù)據(jù)脫敏都是需要考慮的問(wèn)題。因此,我們需要在這個(gè)前提下,思考如何處理不同學(xué)習(xí)方法之間的差異和學(xué)習(xí)方法自身的局限性。
關(guān)于作者:童文 博士,華為無(wú)線CTO,華為5G首席科學(xué)家,華為Fellow,IEEE Fellow,加拿大工程院院士,曾獲IEEE通信學(xué)會(huì)杰出行業(yè)領(lǐng)袖獎(jiǎng)、費(fèi)森登獎(jiǎng)?wù)?。朱佩?博士,華為無(wú)線研究領(lǐng)域高級(jí)副總裁,華為Fellow,IEEE Fellow,加拿大工程院院士。
本文摘編自《6G無(wú)線通信新征程:跨越人聯(lián)、物聯(lián),邁向萬(wàn)物智聯(lián)》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111688846)