區(qū)塊鏈在大數(shù)據(jù)中的應(yīng)用
背景
近些年,大數(shù)據(jù)技術(shù)在科學(xué)和工業(yè)領(lǐng)域的應(yīng)用引起了業(yè)界的廣泛關(guān)注,大數(shù)據(jù)促進(jìn)社會進(jìn)步的同時,也帶來很多的問題和挑戰(zhàn),尤其是大數(shù)據(jù)治理和隱私保護(hù)問題。區(qū)塊鏈技術(shù)具備去中心化、不可篡改、透明化等特征,在改善大數(shù)據(jù)安全服務(wù)方面具有巨大的潛力。在本文中,我們首先為讀者介紹區(qū)塊鏈大數(shù)據(jù)技術(shù)概念、特性以及二者結(jié)合的動機(jī),接著介紹區(qū)塊鏈大數(shù)據(jù)在工業(yè)界的應(yīng)用,最后對一些代表性的項(xiàng)目進(jìn)行分析。
區(qū)塊鏈大數(shù)據(jù)概述
區(qū)塊鏈
隨著比特幣為代表的新型數(shù)字貨幣的快速發(fā)展,作為比特幣底層支撐的區(qū)塊鏈技術(shù)引起了人們的關(guān)注,區(qū)塊鏈概念首次提出是在比特幣白皮書中[2]。區(qū)塊鏈本質(zhì)上是一個共享數(shù)據(jù)庫,與傳統(tǒng)的中心化數(shù)據(jù)庫相比,區(qū)塊鏈通過采取分布式數(shù)據(jù)存儲、P2P傳輸、共識機(jī)制、加密算法和智能合約等傳統(tǒng)技術(shù),使得區(qū)塊鏈具有去中心化、不可篡改、可溯源、多方維護(hù)、公開透明等特點(diǎn)[3]?;谶@些特點(diǎn),區(qū)塊鏈奠定了堅(jiān)實(shí)的“信任”基礎(chǔ),創(chuàng)造了可靠的“合作”機(jī)制,具有廣闊的運(yùn)用前景。
大數(shù)據(jù)
大數(shù)據(jù)技術(shù)起源于2000年前后互聯(lián)網(wǎng)的高速發(fā)展時期。伴隨著時代背景下的數(shù)據(jù)特征的不斷演變以及數(shù)據(jù)價值釋放需求的不斷增加,大數(shù)據(jù)已逐步演進(jìn)成針對大數(shù)據(jù)的多重?cái)?shù)據(jù)特征,圍繞數(shù)據(jù)采集、存儲、處理計(jì)算,同時配套的數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)安全等助力數(shù)據(jù)價值釋放的周邊技術(shù)組合形成的整套技術(shù)生態(tài)。如今大數(shù)據(jù)技術(shù)已經(jīng)發(fā)展成覆蓋面龐大的技術(shù)體系。圖1展示了大數(shù)據(jù)技術(shù)體系圖譜及相關(guān)代表性的大數(shù)據(jù)開源軟件。
圖1 大數(shù)據(jù)技術(shù)體系及主要開源框架
大數(shù)據(jù)時代,客戶更傾向于在線交易,每天將產(chǎn)生大量的交易信息,累計(jì)的數(shù)據(jù)呈指數(shù)增長,為行業(yè)了解客戶的需求、購買模式和客戶趨勢創(chuàng)造了新的機(jī)會。大數(shù)據(jù)具有體量大、時效性高、數(shù)據(jù)源異構(gòu)多樣和價值高等特點(diǎn)。通過大數(shù)據(jù)技術(shù)分析各類數(shù)據(jù)信息,將產(chǎn)生巨大的價值,指導(dǎo)國家和企業(yè)決策。大數(shù)據(jù)技術(shù)便利人類生活的同時,也帶來了很多的問題與挑戰(zhàn),如數(shù)據(jù)隱私安全問題,臟數(shù)據(jù)處理、數(shù)據(jù)源可靠性驗(yàn)證、數(shù)據(jù)共享等。
區(qū)塊鏈、大數(shù)據(jù)結(jié)合動機(jī)
大數(shù)據(jù)技術(shù)在解決當(dāng)下許多問題方面具有巨大的潛力,目前政府、國私企正大力投資建設(shè)部門的大數(shù)據(jù)中心,以此來提高對外的服務(wù)質(zhì)量。區(qū)塊鏈技術(shù)具備的很多獨(dú)特性質(zhì),可以用于解決以上大數(shù)據(jù)面臨的這些挑戰(zhàn)。
區(qū)塊鏈和大數(shù)據(jù)技術(shù)結(jié)合動機(jī)的詳細(xì)描述如下:
保障數(shù)據(jù)的安全:區(qū)塊鏈以其不可篡改,可信任何公開透明性,讓更多的數(shù)據(jù)安全流動起來。典型案例是區(qū)塊鏈如何推動大數(shù)據(jù)基因測序,區(qū)塊鏈大數(shù)據(jù)測序利用私鑰限制訪問權(quán)限,降低了利用法律限制個人獲取基因數(shù)據(jù)的局限性,并且利用分布式計(jì)算資源,高效完成測序任務(wù),區(qū)塊鏈的安全性解決了基因測序的工業(yè)化問題,推動了數(shù)據(jù)的安全流動。
保障數(shù)據(jù)隱私的安全:政府掌握了大量的高密度、高價值數(shù)據(jù),如人口數(shù)據(jù)、金融數(shù)據(jù)、醫(yī)療數(shù)據(jù)等,正確使用政府?dāng)?shù)據(jù)將對整個經(jīng)濟(jì)社會發(fā)展產(chǎn)生不可估量的推動力,開放數(shù)據(jù)是大勢所趨。然而,數(shù)據(jù)開放主要的問題是如何保護(hù)個人隱私?;趨^(qū)塊鏈的數(shù)據(jù)脫敏技術(shù)能保證數(shù)據(jù)隱私性,為隱私保護(hù)下的數(shù)據(jù)開放提供了解決方案。數(shù)據(jù)脫敏技術(shù)主要采用哈希處理等加密算法,例如、基于區(qū)塊鏈技術(shù)的Enigma系統(tǒng),在不訪問原始數(shù)據(jù)的情況下進(jìn)行運(yùn)算,可以對數(shù)據(jù)的私密性進(jìn)行保護(hù),杜絕數(shù)據(jù)共享中的隱私安全。
保障數(shù)據(jù)存儲的安全:區(qū)塊鏈網(wǎng)絡(luò)中所有節(jié)點(diǎn)參與計(jì)算,相互驗(yàn)證其信息的真?zhèn)我赃_(dá)成全網(wǎng)共識。區(qū)塊鏈的數(shù)據(jù)是不可篡改的、記錄歷史的,修改區(qū)塊鏈網(wǎng)絡(luò)中的數(shù)據(jù)至少需要修改50%節(jié)點(diǎn)的數(shù)據(jù),區(qū)塊鏈的不變性確保了存儲在區(qū)塊鏈網(wǎng)絡(luò)中的數(shù)據(jù)是可靠的,使得數(shù)據(jù)庫的發(fā)展進(jìn)入新時代。
保障數(shù)據(jù)完整性:數(shù)據(jù)的訪問者可能會篡改大數(shù)據(jù)中的記錄,從而影響大數(shù)據(jù)分析預(yù)測的結(jié)果,區(qū)塊鏈技術(shù)通過采取多簽名私鑰、加密技術(shù)和安全多方計(jì)算技術(shù)來保障數(shù)據(jù)不完整性。數(shù)據(jù)首先通過哈希計(jì)算,放置在區(qū)塊鏈上,再使用數(shù)字簽名技術(shù),一方面使得數(shù)據(jù)僅對授權(quán)用戶開放,使用者通過簽名驗(yàn)證數(shù)據(jù)的完整性。
區(qū)塊鏈大數(shù)據(jù)應(yīng)用
如圖2所示,通過調(diào)查大數(shù)據(jù)環(huán)境下區(qū)塊鏈技術(shù)的應(yīng)用,包括大數(shù)據(jù)的采集、存儲、分析和隱私保護(hù)等,區(qū)塊鏈通過共識算法確保數(shù)據(jù)的完整性。接下來重點(diǎn)分析了區(qū)塊鏈大數(shù)據(jù)服務(wù)中的兩個子領(lǐng)域應(yīng)用,區(qū)塊鏈大數(shù)據(jù)收集架構(gòu):移動感知(Mobile crowdsensing,MCS)區(qū)塊鏈,區(qū)塊鏈大數(shù)據(jù)傳輸/共享架構(gòu):邊緣網(wǎng)絡(luò)區(qū)塊鏈。
圖2 大數(shù)據(jù)環(huán)境下區(qū)塊鏈的應(yīng)用概覽
MCS區(qū)塊鏈
數(shù)據(jù)采集是數(shù)據(jù)處理生命周期中一項(xiàng)非常重要的任務(wù),目前數(shù)據(jù)源和通信鏈路面臨各種惡意攻擊和威脅。因此安全的數(shù)據(jù)收集方法對于各種數(shù)據(jù)至關(guān)重要,目前全球已完成了幾項(xiàng)數(shù)據(jù)收集安全的研究工作。例如,基于區(qū)塊鏈的安全大數(shù)據(jù)收集方案被應(yīng)用到移動感知(Mobile crowdsensing,MCS)項(xiàng)目。隨著移動終端(mobile terminals,MT)和傳感器等便攜式智能移動終端設(shè)備的快速增長,MCS已經(jīng)有效地應(yīng)用到工業(yè)物聯(lián)網(wǎng)當(dāng)中,MCS服務(wù)器發(fā)布一些與傳感器相關(guān)的數(shù)據(jù)集,并選擇特定區(qū)域的MT來完成特定任務(wù)。任務(wù)的主要挑戰(zhàn)是MT中傳感設(shè)備的發(fā)送數(shù)據(jù)范圍以及MT之間數(shù)據(jù)的安全共享。Liu[4]等提出了一個基于區(qū)塊鏈和強(qiáng)化學(xué)習(xí)(DRL)的框架來克服這些挑戰(zhàn),每個MT基于分布式區(qū)塊鏈的DRL方法為傳感設(shè)備提供了多點(diǎn)發(fā)送功能以及最大傳輸范圍。以太坊區(qū)塊鏈平臺用于保障數(shù)據(jù)的可靠性和安全性,MT進(jìn)行共享數(shù)據(jù)。以太坊會維護(hù)一個安全賬本,并在沒有受信任的第三方情況下與合作的MT共享數(shù)據(jù),該框架還集成了預(yù)防多種攻擊和處理常見的設(shè)備故障的功能。
邊緣網(wǎng)絡(luò)區(qū)塊鏈
區(qū)塊鏈具有去中心化和不可篡改的特性,能提供大數(shù)據(jù)的安全傳輸,支持可靠數(shù)據(jù)共享。傳輸安全關(guān)鍵在于如何解決傳統(tǒng)傳輸協(xié)議中存在的不足,如何防止數(shù)據(jù)被盜、數(shù)據(jù)丟失。目前國內(nèi)外,有一些研究致力于使用區(qū)塊鏈來支持大數(shù)據(jù)的傳輸和共享,隨著邊緣網(wǎng)絡(luò)中數(shù)據(jù)量越來越大,邊緣網(wǎng)絡(luò)中敏感數(shù)據(jù)的安全共享是一項(xiàng)具有挑戰(zhàn)的任務(wù),Xu[5]等通過共識算法提高邊緣網(wǎng)絡(luò)認(rèn)證計(jì)算的效率。此外,為了減少響應(yīng)時間和存儲開銷,作者引入了一種基于區(qū)塊鏈的無效事務(wù)過濾算法,使得訪問者可以通過緩存層來訪問數(shù)據(jù)。最后作者提出了快速交易和空心快,以提高模型的網(wǎng)絡(luò)傳輸效率。應(yīng)用層如圖3所示,將采集到的數(shù)據(jù)報告、數(shù)據(jù)庫、社交媒體或輔助小工具數(shù)據(jù)添加到帶有簽名和哈希值的區(qū)塊鏈中,采取一致共識算法和無效事務(wù)過濾算法進(jìn)行處理,然后與數(shù)據(jù)分析服務(wù)共享區(qū)塊數(shù)據(jù)。實(shí)時分析模塊進(jìn)行數(shù)據(jù)可視化、模式預(yù)測,相互協(xié)作保障計(jì)算結(jié)果的真實(shí)可靠。
圖3 區(qū)塊鏈大數(shù)據(jù)安全傳輸/共享架構(gòu)
小結(jié)
區(qū)塊鏈被稱為一種顛覆性的技術(shù)、數(shù)字化的分布式賬本、本質(zhì)上又是一種共享數(shù)據(jù)庫,公開透明的按照順序的記錄比特幣等加密貨幣的交易,具有很多優(yōu)勢。大數(shù)據(jù)是互聯(lián)網(wǎng)時代的產(chǎn)物,區(qū)塊鏈與大數(shù)據(jù)技術(shù)的結(jié)合成為當(dāng)下的熱點(diǎn),在本文中,主要介紹了區(qū)塊鏈和大數(shù)據(jù)的概念以及優(yōu)點(diǎn),通過現(xiàn)有的相關(guān)調(diào)查,了解現(xiàn)有研究在區(qū)塊鏈和大數(shù)據(jù)方面的貢獻(xiàn)以及二者結(jié)合的動機(jī),討論了目前區(qū)塊鏈大數(shù)據(jù)在工業(yè)界的一些應(yīng)用,最后對本文進(jìn)行總結(jié)。
參考文獻(xiàn)
[1] Deepa, N., Pham, Q. V., Nguyen, D. C.,Bhattacharya, S., Prabadevi, B., Gadekallu, T. R., ... & Pathirana, P. N.(2022). A survey on blockchain for big data: approaches, opportunities, andfuture directions. Future Generation Computer Systems.
[2] Nakamoto, S. (2008). Bitcoin: Apeer-to-peer electronic cash system. Decentralized Business Review, 21260.
[3] 沈鑫, 裴慶祺, & 劉雪峰. (2016). 區(qū)塊鏈技術(shù)綜述. 網(wǎng)絡(luò)與信息安全學(xué)報, 2(11), 11-20.
[4] Liu, C. H., Lin, Q., & Wen, S.(2018). Blockchain-enabled data collection and sharing for industrial IoT withdeep reinforcement learning. IEEE Transactions on Industrial Informatics,15(6), 3516-3526.
[5] Xu, C., Wang, K., Li, P., Guo, S., Luo,J., Ye, B., & Guo, M. (2018). Making big data open in edges: Aresource-efficient blockchain-based approach. IEEE Transactions on Parallel andDistributed Systems, 30(4), 870-882.