大數(shù)據(jù)現(xiàn)狀與趨勢:大數(shù)據(jù)應(yīng)用、治理與技術(shù)
全球范圍內(nèi),研究發(fā)展大數(shù)據(jù)技術(shù)、運用大數(shù)據(jù)推動經(jīng)濟發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢。下面將從應(yīng)用、治理和技術(shù)三個方面來講講當(dāng)前的大數(shù)據(jù)的現(xiàn)狀與趨勢。
一、大數(shù)據(jù)應(yīng)用的三個層次
按照數(shù)據(jù)開發(fā)應(yīng)用深入程度的不同,可將眾多的大數(shù)據(jù)應(yīng)用分為三個層次。
第一層,描述性分析應(yīng)用,是指從大數(shù)據(jù)中總結(jié)、抽取相關(guān)的信息和知識,幫助人們分析發(fā)生了什么,并呈現(xiàn)事物的發(fā)展歷程。
如美國的DOMO公司從其企業(yè)客戶的各個信息系統(tǒng)中抽取、整合數(shù)據(jù),再以統(tǒng)計圖表等可視化形式,將數(shù)據(jù)蘊含的信息推送給不同崗位的業(yè)務(wù)人員和管理者,幫助其更好地了解企業(yè)現(xiàn)狀,進而做出判斷和決策。
第二層,預(yù)測性分析應(yīng)用,是指從大數(shù)據(jù)中分析事物之間的關(guān)聯(lián)關(guān)系、發(fā)展模式等,并據(jù)此對事物發(fā)展的趨勢進行預(yù)測。
如微軟公司紐約研究院研究員David Rothschild通過收集和分析賭博市場、好萊塢證券交易所、社交媒體用戶發(fā)布的帖子等大量公開數(shù)據(jù),建立預(yù)測模型,對多屆奧斯卡獎項的歸屬進行預(yù)測。2014和2015年,均準(zhǔn)確預(yù)測了奧斯卡共24個獎項中的21個,準(zhǔn)確率達87.5%。
第三層,指導(dǎo)性分析應(yīng)用,是指在前兩個層次的基礎(chǔ)上,分析不同決策將導(dǎo)致的后果,并對決策進行指導(dǎo)和優(yōu)化。
如無人駕駛汽車分析高精度地圖數(shù)據(jù)和海量的激光雷達、攝像頭等傳感器的實時感知數(shù)據(jù),對車輛不同駕駛行為的后果進行預(yù)判,并據(jù)此指導(dǎo)車輛的自動駕駛。
當(dāng)前,在大數(shù)據(jù)應(yīng)用的實踐中,描述性、預(yù)測性分析應(yīng)用多,決策指導(dǎo)性等更深層次分析應(yīng)用偏少。不同類型的應(yīng)用意味著人類和計算機在決策流程中不同的分工和協(xié)作。
雖然已有很多成功的大數(shù)據(jù)應(yīng)用案例,但還遠未達到我們的預(yù)期,大數(shù)據(jù)應(yīng)用仍處于初級階段。未來,隨著應(yīng)用領(lǐng)域的拓展、技術(shù)的提升、數(shù)據(jù)共享開放機制的完善,以及產(chǎn)業(yè)生態(tài)的成熟,具有更大潛在價值的預(yù)測性和指導(dǎo)性應(yīng)用將是發(fā)展的重點。
大數(shù)據(jù)治理體系的發(fā)展
隨著大數(shù)據(jù)作為戰(zhàn)略資源的地位日益凸顯,人們越來越強烈地意識到制約大數(shù)據(jù)發(fā)展最大的短板之一就是:數(shù)據(jù)治理體系遠未形成,如數(shù)據(jù)資產(chǎn)地位的確立尚未達成共識,數(shù)據(jù)的確權(quán)、流通和管控面臨多重挑戰(zhàn);數(shù)據(jù)壁壘廣泛存在,阻礙了數(shù)據(jù)的共享和開放;法律法規(guī)發(fā)展滯后,導(dǎo)致大數(shù)據(jù)應(yīng)用存在安全與隱私風(fēng)險等等。如此種種因素,制約了數(shù)據(jù)資源中所蘊含價值的挖掘與轉(zhuǎn)化。
其中,隱私、安全與共享利用之間的矛盾問題尤為凸顯。一方面,數(shù)據(jù)共享開放的需求十分迫切。近年來人工智能應(yīng)用取得的重要進展,主要源于對海量、高質(zhì)量數(shù)據(jù)資源的分析和挖掘。而對于單一組織機構(gòu)而言,往往靠自身的積累難以聚集足夠的高質(zhì)量數(shù)據(jù)。
另外,大數(shù)據(jù)應(yīng)用的威力,在很多情況下源于對多源數(shù)據(jù)的綜合融合和深度分析,從而獲得從不同角度觀察、認知事物的全方位視圖。而單個系統(tǒng)、組織的數(shù)據(jù)往往僅包含事物某個片面、局部的信息,因此,只有通過共享開放和數(shù)據(jù)跨域流通才能建立信息完整的數(shù)據(jù)集。
然而,另一方面,數(shù)據(jù)的無序流通與共享,又可能導(dǎo)致隱私保護和數(shù)據(jù)安全方面的重大風(fēng)險,必須對其加以規(guī)范和限制。2016年11月7日,全國人大常委會通過的《中華人民共和國網(wǎng)絡(luò)安全法》中明確了對個人信息收集、使用及保護的要求,并規(guī)定了個人對其個人信息進行更正或刪除的權(quán)利。2019年,中央網(wǎng)信辦發(fā)布了《數(shù)據(jù)安全管理辦法(征求意見稿)》,向社會公開征求意見,明確了個人信息和重要數(shù)據(jù)的收集、處理、使用和安全監(jiān)督管理的相關(guān)標(biāo)準(zhǔn)和規(guī)范。相信這些法律法規(guī)將在促進數(shù)據(jù)的合規(guī)使用、保障個人隱私和數(shù)據(jù)安全等方面發(fā)揮不可或缺的重要作用。
大數(shù)據(jù)理論與技術(shù)創(chuàng)新
近年來,數(shù)據(jù)規(guī)模呈幾何級數(shù)高速成長。據(jù)國際信息技術(shù)咨詢企業(yè)國際數(shù)據(jù)公司(IDC)的報告,2020年全球數(shù)據(jù)存儲量將達到44ZB(1021),到2030年將達到2500ZB。當(dāng)前,需要處理的數(shù)據(jù)量已經(jīng)大大超過處理能力的上限,從而導(dǎo)致大量數(shù)據(jù)因無法或來不及處理,而處于未被利用、價值不明的狀態(tài),這些數(shù)據(jù)被稱為“暗數(shù)據(jù)”。
據(jù)國際商業(yè)機器公司(IBM)的研究報告估計,大多數(shù)企業(yè)僅對其所有數(shù)據(jù)的1%進行了分析應(yīng)用。近年來,大數(shù)據(jù)獲取、存儲、管理、處理、分析等相關(guān)的技術(shù)已有顯著進展,但是大數(shù)據(jù)技術(shù)體系尚不完善,大數(shù)據(jù)基礎(chǔ)理論的研究仍處于萌芽期。
推演信息技術(shù)的未來發(fā)展趨勢,較長時期內(nèi)仍將保持漸進式發(fā)展態(tài)勢,隨技術(shù)發(fā)展帶來的數(shù)據(jù)處理能力的提升將遠遠落后于按指數(shù)增長模式快速遞增的數(shù)據(jù)體量,數(shù)據(jù)處理能力與數(shù)據(jù)資源規(guī)模之間的“剪刀差”將隨時間持續(xù)擴大,大數(shù)據(jù)現(xiàn)象將長期存在。在此背景下,大數(shù)據(jù)現(xiàn)象倒逼技術(shù)變革,將使得信息技術(shù)體系進行一次重構(gòu),這也帶來了顛覆式發(fā)展的機遇。
例如,計算機體系結(jié)構(gòu)以數(shù)據(jù)為中心的宏觀走向和存算一體的微觀走向,軟件定義方法論的廣泛采用,云邊端融合的新型計算模式等;網(wǎng)絡(luò)通信向?qū)拵А⒁苿?、泛在發(fā)展,海量數(shù)據(jù)的快速傳輸和匯聚帶來的網(wǎng)絡(luò)的Pb/s級帶寬需求,千億級設(shè)備聯(lián)網(wǎng)帶來的Gb/s級高密度泛在移動接入需求;大數(shù)據(jù)的時空復(fù)雜度亟需在表示、組織、處理和分析等方面的基礎(chǔ)性原理性突破,高性能、高時效、高吞吐等極端化需求呼喚基礎(chǔ)器件的創(chuàng)新和變革;軟硬件開源開放趨勢導(dǎo)致產(chǎn)業(yè)發(fā)展生態(tài)的重構(gòu)等等。
當(dāng)然,不管是大數(shù)據(jù)的應(yīng)用、數(shù)據(jù)治理體系的建設(shè),大數(shù)據(jù)理論與技術(shù)的創(chuàng)新,也離不開專業(yè)人才的支持,尤其是在大數(shù)據(jù)快速發(fā)展的當(dāng)下,各方面的人才需求都在增加,越早入行也意味著更多的發(fā)展機遇。