關(guān)于數(shù)據(jù)的靈魂三問:從哪兒來?到哪兒去?能干什么?你真的懂了嗎?
作為科技圈小白,經(jīng)常被數(shù)據(jù)搞得頭暈?zāi)X脹,數(shù)據(jù)打哪兒來?到哪兒去?能干什么?那么多數(shù)據(jù)怎么區(qū)分誰有用誰沒用?其實(shí)數(shù)據(jù)就在我們身邊,每個(gè)人都是數(shù)據(jù)的生產(chǎn)者,從人類文明誕生的那一刻起,數(shù)據(jù)就伴隨我們而生。今天這篇文章,小編就帶你查一查數(shù)據(jù)采集技術(shù)的水表。
一、數(shù)據(jù)從哪兒來
數(shù)據(jù)是通過采集的方式獲得的,但是采集過程并不簡單。比如,數(shù)據(jù)糧食有的是粗糧有的是細(xì)糧,能夠拿到細(xì)糧的概率太低了。為了篩選出真實(shí)有效的數(shù)據(jù),大家通常的做法就是把粗糧先搞回來再加工,這種情況就導(dǎo)致花大力氣搞回來的糧食篩到最后能吃的不到10%。
而且,不是所有的數(shù)據(jù)都是現(xiàn)成的,有些情況下需要自給自足去種地,從撒子秧苗開始培育自己的數(shù)據(jù),至于哪個(gè)環(huán)節(jié)出問題導(dǎo)致數(shù)據(jù)收成不好那都是靠天吃飯的隨機(jī)性了。
就算是自己動(dòng)手豐衣足食也存在秧苗生長不統(tǒng)一的問題,數(shù)據(jù)有很大的主觀性,經(jīng)常按照自己的想法長,大家都不一樣,那口感就不一致了,咱們以為這是一碗大米飯,可能最后出來的是雜豆飯。
二、數(shù)據(jù)到哪兒去
數(shù)據(jù)中隱藏著系統(tǒng)或設(shè)備運(yùn)行的規(guī)律,也含有突發(fā)的狀態(tài)變更信息,更是潛藏著異?;?yàn)?zāi)難發(fā)生前細(xì)微的蛛絲馬跡。因此,它的用途非常廣泛,傳統(tǒng)行業(yè)中可以收集生產(chǎn)設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù)實(shí)現(xiàn)系統(tǒng)的監(jiān)控和運(yùn)維工作,信息產(chǎn)業(yè)中各種各樣的數(shù)據(jù)是支撐整個(gè)產(chǎn)業(yè)發(fā)展的基石,在未來,人工智能技術(shù)大規(guī)模應(yīng)用到各行各業(yè)中,更是離不開豐富的數(shù)據(jù)支撐。
我們既然拿糧食比喻數(shù)據(jù),那么數(shù)據(jù)對(duì)于人工智能來說就是吃到肚子里去。數(shù)據(jù)采集難度系數(shù)不低,我們?cè)趺锤啽愕氐玫綌?shù)據(jù),更快地解決人工智能的溫飽問題呢?聰明的人類又開始思考如何為自己快速搞到數(shù)據(jù)。
首先,我們可以自己搞一個(gè)高定制化的統(tǒng)一收割系統(tǒng),用統(tǒng)一的機(jī)器做數(shù)據(jù)糧食收割效率非常高,但這也導(dǎo)致了最終的數(shù)據(jù)糧食雖然統(tǒng)一,完全沒有驚喜,畢竟收割機(jī)高度就是這么高,這一茬被收割,一些參差不齊的數(shù)據(jù)卻僥幸繼續(xù)野蠻生長無法收割。從下面的曲線可以看出:高度定制化可以帶來極簡的使用體驗(yàn),但也犧牲了靈活性。
極簡和靈活性如何取舍,還是要落地在場景中。按照2-8原則,80%的數(shù)據(jù)我們采用高端定制的模式來收割,剩下的20%的數(shù)據(jù)手動(dòng)收割,這樣我們既能高效的獲取整齊劃一的糧食也能參雜一些小驚喜,兩全其美。
下面我們以網(wǎng)絡(luò)人工智能業(yè)務(wù)為例,來看看具體的操作:
網(wǎng)絡(luò)人工智能業(yè)務(wù)所使用的80%以上數(shù)據(jù),是電信網(wǎng)絡(luò)的設(shè)備數(shù)據(jù),所以這一部分可以直接進(jìn)行網(wǎng)絡(luò)打通,系統(tǒng)自動(dòng)完成對(duì)接協(xié)商、數(shù)據(jù)采集和標(biāo)準(zhǔn)化處理,使用者可直接獲取想要的小區(qū)性能指標(biāo),進(jìn)入下一業(yè)務(wù)環(huán)節(jié)。
80%的數(shù)據(jù)采集場景做到了極簡,大部分用戶的體驗(yàn)得到保障。剩下20%的場景,通過靈活通用的采集能力來解決,用戶配置數(shù)據(jù)源對(duì)接參數(shù)即可完成數(shù)據(jù)采集。
還有一些數(shù)據(jù)并不能通過簡單采集獲得,比如,無源設(shè)備、以及無法產(chǎn)生狀態(tài)數(shù)據(jù)的軟硬件系統(tǒng),這就需要一波高端操作——探針自主采集。探針技術(shù)本身比較成熟,各行業(yè)都有廣泛應(yīng)用,弊端是部署成本高、推廣難度大。探針技術(shù)也有軟硬之分,從名稱上就能看出,軟探針就是通過獨(dú)立可執(zhí)行的軟件或可被集成的SDK,在用戶授權(quán)的情況下,采集網(wǎng)絡(luò)體驗(yàn)數(shù)據(jù)。硬探針基本上就是傳感器、探測設(shè)備等,專業(yè)性較強(qiáng),數(shù)據(jù)收集準(zhǔn)確性高。
三、數(shù)據(jù)能干什么
數(shù)據(jù)能干的事情太多了,可以用來分析用戶喜好和需求,獲得對(duì)電信網(wǎng)絡(luò)真實(shí)客觀的使用反饋,能夠快速得知產(chǎn)品有何不足,對(duì)應(yīng)更新更多的業(yè)務(wù)模式,能夠幫助實(shí)現(xiàn)業(yè)務(wù)改善。好的數(shù)據(jù)能夠幫助企業(yè)獲得更大對(duì)競爭力。但這些數(shù)據(jù)的背后是人,人的主觀性越強(qiáng),需求就越明確,對(duì)產(chǎn)品能力的提升就越有幫助。這些數(shù)據(jù)就好比是食物中最頂端的高端食材,口感一流品質(zhì)上乘,但是價(jià)格不菲。
如下圖所示:
體驗(yàn)數(shù)據(jù)不好獲得,這些數(shù)據(jù)基本上要通過問卷調(diào)查、實(shí)驗(yàn)、端側(cè)體驗(yàn)指標(biāo)采集等方式獲得,不僅成本高而且可獲得的數(shù)據(jù)量也有限。這就好像你是個(gè)網(wǎng)店賣家,辛苦做出的產(chǎn)品想要得到五星好評(píng)或真實(shí)超過10個(gè)字的評(píng)價(jià)感受,需要給客戶搞一個(gè)好評(píng)返現(xiàn)紅包。鑒于大家都比較忙,給有字評(píng)價(jià)的客戶依舊不多,那就需要用插補(bǔ)的方式,基于少量真實(shí)評(píng)價(jià)估計(jì)一個(gè)全部用戶的整體感受。
在網(wǎng)絡(luò)人工智能業(yè)務(wù)中,我們是如何獲得高質(zhì)量數(shù)據(jù)的?首先,我們開發(fā)了專業(yè)的APP,對(duì)于用戶來說,除了能隨時(shí)感知自己所處網(wǎng)絡(luò)的速率和時(shí)延,還能針對(duì)室內(nèi)覆蓋幫助用戶進(jìn)行信號(hào)仿真,實(shí)現(xiàn)Wi-Fi的組網(wǎng)規(guī)劃,真正解決用戶的體驗(yàn)問題,除此之外,還具備游戲的代入感和使用體驗(yàn),能更好的吸引用戶,實(shí)現(xiàn)網(wǎng)絡(luò)體驗(yàn)數(shù)據(jù)的采集。其次,我們還提供了可基于有限采集數(shù)據(jù),通過算法進(jìn)行數(shù)據(jù)插補(bǔ)的能力,對(duì)于采樣點(diǎn)少或缺失的區(qū)域進(jìn)行數(shù)據(jù)補(bǔ)充,該方法引入了地理統(tǒng)計(jì)計(jì)算的相關(guān)算法,在一定采樣條件下,插補(bǔ)的誤差RMSE小于5,高于物理測量設(shè)備的仿真結(jié)果。
四、保衛(wèi)數(shù)據(jù)安全才是正經(jīng)事
在開頭我們講過,數(shù)據(jù)采集有很多難處,在收集、存儲(chǔ)、傳輸上都需要更安全的環(huán)境。只有保障數(shù)據(jù)采集系統(tǒng)安全可靠,才能夠有效的保護(hù)數(shù)據(jù)需求者和提供者的權(quán)益。網(wǎng)絡(luò)人工智能在數(shù)據(jù)采集安全方面也做了不少針對(duì)性的措施。比如在數(shù)據(jù)收集環(huán)節(jié)的數(shù)據(jù)脫敏、最小采集范圍、密級(jí)控制等,避免“順手牽羊”;在傳輸過程中也提升了運(yùn)輸大隊(duì)的軍火儲(chǔ)備和隱蔽能力,爭取讓劫匪找不到自己的數(shù)據(jù),或者遇到劫道兒的也能從容迎戰(zhàn)保衛(wèi)數(shù)據(jù)安全;在存儲(chǔ)環(huán)節(jié)的訪問控制和權(quán)限隔離等技術(shù),避免越權(quán)訪問和數(shù)據(jù)泄露問題。
網(wǎng)絡(luò)人工智能在數(shù)據(jù)采集安全方面所做的措施如下圖所示:
隨著數(shù)據(jù)安全和隱私保護(hù)法規(guī)的不斷完善,應(yīng)對(duì)數(shù)據(jù)安全的軟、硬件措施也逐步完善,每一個(gè)安全措施都是不斷完善的長久工程,數(shù)據(jù)安全沒有終點(diǎn),只有與時(shí)俱進(jìn)不斷進(jìn)步,才能持續(xù)滿足人們對(duì)數(shù)據(jù)的安全感,從而更充分的發(fā)揮數(shù)據(jù)價(jià)值。
五、數(shù)據(jù)采集技術(shù)還在不斷成長
數(shù)據(jù)采集不是一蹴而就的,隨著產(chǎn)品或服務(wù)的迭代升級(jí),各行業(yè)技術(shù)的發(fā)展,用戶需求的提升,政策法規(guī)的完善,數(shù)據(jù)采集技術(shù)在安全和隱私保護(hù)、數(shù)據(jù)可獲得性、體驗(yàn)等都需要不斷演進(jìn)發(fā)展。數(shù)據(jù)采集不僅是數(shù)字化轉(zhuǎn)型的基礎(chǔ),還是人工智能的精神食糧,更需要做到保障數(shù)據(jù)通道的暢通無阻。
作為華為ICT基礎(chǔ)設(shè)施業(yè)務(wù)面向全球開發(fā)者的年度盛會(huì),華為開發(fā)者大會(huì)2021(Cloud)將于2021年4月24日-26日在深圳舉行。本屆大會(huì)以#每一個(gè)開發(fā)者都了不起#為主題,將匯聚業(yè)界大咖、華為科學(xué)家、頂級(jí)技術(shù)專家、天才少年和眾多開發(fā)者,共同探討和分享云、計(jì)算、人工智能等最新ICT技術(shù)在行業(yè)的深度創(chuàng)新和應(yīng)用。智能時(shí)代,每一個(gè)開發(fā)者都在創(chuàng)造一往無前的奔騰時(shí)代。世界有你,了不起!
點(diǎn)擊鏈接,了解大會(huì)詳細(xì)信息。https://developer.huaweicloud.com/HDC.Cloud2021.html