區(qū)塊鏈+大數(shù)據(jù) 任重而道遠(yuǎn)
隨著共享經(jīng)濟(jì)的迅猛發(fā)展,“區(qū)塊鏈+大數(shù)據(jù)”似乎已經(jīng)成為一個非常明顯的發(fā)展趨勢。一方面,區(qū)塊鏈可以解決大數(shù)據(jù)存在的諸多問題,從而使其為共享經(jīng)濟(jì)提供更加優(yōu)質(zhì)的服務(wù);另一方面,為了最大限度地體現(xiàn)自身價值,越來越成熟的大數(shù)據(jù)迫切需要一個應(yīng)用實體。然而,作為兩種相互獨(dú)立的互聯(lián)網(wǎng)技術(shù),大數(shù)據(jù)和區(qū)塊鏈要想真正實現(xiàn)深度融合,仍舊任重而道遠(yuǎn)。
一、數(shù)據(jù)孤島問題突出
俗話說: “巧婦難為無米之炊。”數(shù)據(jù)是大數(shù)據(jù)的基礎(chǔ),而且只有被共享才可以擁有“生命”。 另外,如果不能獲得底層數(shù)據(jù),那么我們就無法進(jìn)行數(shù)據(jù)分析。
對此,中國科學(xué)院院士、北京大數(shù)據(jù)研究院院長鄂維南說道: “第一個問題就是沒數(shù)據(jù),理論上我們中國有很多數(shù)據(jù),但實際做數(shù)據(jù)分析會發(fā)現(xiàn)非常困難。” 由此來看,數(shù)據(jù)孤島確實是一個十分嚴(yán)重的問題。
通常情況下,不同企業(yè)會用不同格式將數(shù)據(jù)存儲在不同地方。在各方之間信息不對稱、數(shù)據(jù)共享渠道十分缺乏、制度法律不完善等因素的影響下,很多企業(yè)和政府都不愿意公開自己手中的數(shù)據(jù),再加上已經(jīng)公開的數(shù)據(jù)還會因為某些原因而無法關(guān)聯(lián)融合,形成數(shù)據(jù)孤島就成為了一個必然結(jié)果。
此外,形成數(shù)據(jù)孤島的原因還有另外一個——利益。從目前的情況來看,很多企業(yè)都會以保護(hù)商業(yè)機(jī)密為由而不把數(shù)據(jù)共享出來,不僅如此,一些政府部門也會因為各種各樣的原因(例如,數(shù)據(jù)已經(jīng)被用于商業(yè)交易、工作人員懶政等)而讓數(shù)據(jù)“沉睡”。
實際上,無論是企業(yè)還是政府,不進(jìn)行數(shù)據(jù)共享的根本原因是利益,正如鄂維南所說: “數(shù)據(jù)孤島的痛不是技術(shù)問題,而是利益問題,背后隱藏的利益導(dǎo)致了數(shù)據(jù)孤島的產(chǎn)生。”
二、增強(qiáng)數(shù)據(jù)可信度
數(shù)據(jù)發(fā)展存在3個階段:
- 在第一階段,數(shù)據(jù)并沒有經(jīng)過充分檢驗,而且是無序的;
- 在第二階段,大數(shù)據(jù)正式興起,可以在人工智能算法的助力下進(jìn)行質(zhì)量排序;
- 在第三階段,采用區(qū)塊鏈機(jī)制以后,數(shù)據(jù)獲得了在互聯(lián)網(wǎng)全局基礎(chǔ)上的可信質(zhì)量。
正是因為有了區(qū)塊鏈,數(shù)據(jù)才會進(jìn)入第三階段??梢哉f,在人類目前獲得的所有數(shù)據(jù)中,區(qū)塊鏈上的大數(shù)據(jù)是可信度最高的一種,而且還具有很高的精確度和良好的數(shù)據(jù)質(zhì)量。
1、用區(qū)塊鏈驗證數(shù)據(jù)出處和精確性
2016年,IDC Government Insights 發(fā)布了一篇報告,該報告深刻闡述了區(qū)塊鏈對政府?dāng)?shù)據(jù)權(quán)限管理和精確性的巨大價值,同時還指出,對于政府的數(shù)據(jù)采集系統(tǒng)來說,使用區(qū)塊鏈共識機(jī)制獲取和驗證信息的方式是非常合適的。此外,在未來的幾年內(nèi),政府會以此篇報告為依據(jù),對區(qū)塊鏈進(jìn)行技術(shù)測試,從而挖掘出區(qū)塊鏈的真正價值。
此前,政府?dāng)?shù)據(jù)權(quán)限并不是特別完善,信息精確性也沒有保障,而在區(qū)塊鏈的幫助下,政府長期控制數(shù)據(jù)、信息精確性無法驗證的難題都可以被有效解決,正如 IDC Government Insights 報告所指出的那樣: “區(qū)塊鏈可能成為驗證數(shù)據(jù)出處和精確性的核心工具,可以追蹤數(shù)據(jù)升級,為不同數(shù)據(jù)領(lǐng)域建立真正的權(quán)威數(shù)據(jù)。”
對此,IDC Government Insights 研究主管肖恩·麥卡錫說道:“當(dāng)前,政府已經(jīng)對IT安全、信息安全、可靠性提起了高度重視,而 區(qū)塊鏈被認(rèn)為是IT經(jīng)理人的強(qiáng)大工具,不僅可以使欺詐得以大幅度減少,還可以最大限度地保證數(shù)據(jù)安全。 更重要的是,區(qū)塊鏈也可以拉近政府和公民之間的距離,進(jìn)而形成一種全新的關(guān)系。”
IDC Government Insights 報告顯示,在改善數(shù)據(jù)真實性和精確性方面,區(qū)塊鏈可以發(fā)揮出非常大的作用。這主要是因為區(qū)塊鏈可以對代表有價物品的不同實體進(jìn)行轉(zhuǎn)移和監(jiān)控,而且還可以保證審計跟蹤的穩(wěn)定性。
在跟蹤實體活動的時候,區(qū)塊鏈采取的是共享記錄的方式,這樣就可以保證實體活動不會受到未授權(quán)更改及黑客攻擊的影響。如果在P2P網(wǎng)絡(luò)的助力下建立了共享的權(quán)威版本,那么眾多節(jié)點(diǎn)就會一起工作以確保數(shù)據(jù)的完整性。
區(qū)塊鏈的共識協(xié)議會對活動的有效性,以及是否可以添加到區(qū)塊鏈中進(jìn)行檢查,通過檢查以后,區(qū)塊鏈會把這個權(quán)威記錄和其他信息放在一起進(jìn)行核對。
毋庸置疑,區(qū)塊鏈可以在土地登記、版權(quán)、智能合約、病歷等多個方面發(fā)揮作用,但 IDC Government Insights 報告似乎將焦點(diǎn)放在以下3個方面。
- 1)數(shù)據(jù)精確性:對于任何類型的數(shù)據(jù)而言,精確性都是一個關(guān)鍵特性,這不僅可以表示任意對象的數(shù)據(jù)值記錄都是正確的,還可以表示形式、描述對象、內(nèi)容都是一致的。
- 2)數(shù)據(jù)權(quán)威性:區(qū)塊鏈為數(shù)據(jù)賦予的權(quán)威性不僅詳細(xì)說明了數(shù)據(jù)出處,還對數(shù)據(jù)所有權(quán)及數(shù)據(jù)最終權(quán)威版本的位置進(jìn)行了明確規(guī)定。
- 3)數(shù)據(jù)訪問控制:區(qū)塊鏈不僅可以跟蹤公共信息,還可以跟蹤私人信息,具體包括可以更新數(shù)據(jù)的人、數(shù)據(jù)對應(yīng)的交易、數(shù)據(jù)本身的詳細(xì)信息等。
從目前的情況來看,政府剛剛開始對區(qū)塊鏈解決方案的實際能力進(jìn)行測試,測試重點(diǎn)放在了數(shù)據(jù)保護(hù)、權(quán)限管理兩個方面。另外,根據(jù)IDC的預(yù)測,區(qū)塊鏈解決方案原型搭建的關(guān)鍵推動者應(yīng)該是系統(tǒng)集成商。
針對區(qū)塊鏈解決方案,肖恩·麥卡錫總結(jié)道: “我們建議企業(yè)和政府機(jī)構(gòu)把區(qū)塊鏈解決方案的機(jī)遇及價值研究納入第三平臺戰(zhàn)略,可以借助內(nèi)部戰(zhàn)略文件的力量,確定區(qū)塊鏈的實際意義及應(yīng)該遵循什么樣的實施路徑。”
可以看到,在政府?dāng)?shù)據(jù)方面,區(qū)塊鏈可以發(fā)揮比較大的作用,一方面,有利于解決數(shù)據(jù)權(quán)限問題;另一方面,有利于保證數(shù)據(jù)的精確性。
2、區(qū)塊鏈與大數(shù)據(jù)共建未來信用
區(qū)塊鏈改變了人與人之間的信任方式,這一點(diǎn)是毋庸置疑的。在當(dāng)今世界上,信用可謂是一個既稀缺又昂貴的資源,而人類也曾為此付出過非常大的代價。另外,為了最大限度地規(guī)避道德風(fēng)險,擺脫信任困境,一筆交易必須被拆分成多個環(huán)節(jié),形成多個交易主體。
區(qū)塊鏈不僅是一項技術(shù),也是一種數(shù)據(jù)庫,更重要的是,它還可以建立信任,從而實現(xiàn)價值的轉(zhuǎn)移和傳遞 。而大數(shù)據(jù)也可以通過分析和處理相關(guān)數(shù)據(jù),建立起數(shù)據(jù)的一種智能。 那么,二者既然有如此多的相似之處,是不是可以很好地融合在一起,從而推動整個互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展呢?答案是肯定的。
在商品經(jīng)濟(jì)的發(fā)展過程中,信用是一項必不可少的資源,而在交易支付領(lǐng)域,以點(diǎn)對點(diǎn)網(wǎng)絡(luò)和開源系統(tǒng)為基礎(chǔ)的區(qū)塊鏈則掌握著 去中心化、加密安全、不可篡改、去信任機(jī)制 等諸多優(yōu)勢。這樣看來,在區(qū)塊鏈的助力下,基于信任需要的交易環(huán)節(jié)可以有所減少,從而大幅度降低了交易成本。
一些專家學(xué)者認(rèn)為,信用需求的不斷擴(kuò)大是區(qū)塊鏈出現(xiàn)的一個重要?dú)v史原因。在商品經(jīng)濟(jì)時代,商業(yè)模式是物物交換,但這種商業(yè)模式需要非常高的運(yùn)輸成本。鑒于此,降低交易成本成為市場經(jīng)濟(jì)的首要考慮因素。于是,商業(yè)模式開始轉(zhuǎn)變?yōu)槔眯庞媒⒔灰住?/p>
互聯(lián)網(wǎng)金融在市場上出現(xiàn)后,獲得了非常良好的發(fā)展。拿微信來說,其主要特征是通過大數(shù)據(jù)來建立信用??梢哉f,對于互聯(lián)網(wǎng)金融而言,大數(shù)據(jù)金融是一個非常重要的基礎(chǔ),既降低了信用建立的成本,又加快了信用建立的速度,還提高了信用建立的質(zhì)量。
不過,信用建立也不能一直依靠某個(些)“中心”,因為如果中心化程度過高,很可能引發(fā)信息不對稱的問題,從而對參與方及其他人的利益造成損害。而區(qū)塊鏈則利用自身所具有的去中心化特征,有效地解決了這一問題。
在區(qū)塊鏈大數(shù)據(jù)時代,全網(wǎng)公證是建立信用的一種絕佳手段。對于傳統(tǒng)信用體系而言,這是極具顛覆性意義的。另外,區(qū)塊鏈上的大數(shù)據(jù)可以將信用賦予每一個人,而區(qū)塊鏈也會成為全球金融的基礎(chǔ)架構(gòu)。
三、解決大數(shù)據(jù)風(fēng)控弊端
區(qū)塊鏈也可以有效解決大數(shù)據(jù)風(fēng)控的很多弊端,例如,數(shù)據(jù)質(zhì)量低下、數(shù)據(jù)孤島、數(shù)據(jù)泄露等,本節(jié)將對此進(jìn)行詳細(xì)說明。
1、改善數(shù)據(jù)質(zhì)量
眾所周知,區(qū)塊鏈中的每一個節(jié)點(diǎn)都可以記錄和存儲交易信息,不僅如此,為了驗證交易數(shù)據(jù)的真實“身份”,這些節(jié)點(diǎn)也可以對交易數(shù)據(jù)進(jìn)行檢查。在這種情況下,數(shù)據(jù)的真實性和有效性就有了很大的保障。另外,由于區(qū)塊鏈具有去中心化的特征,因此,無論是誰都不可以對區(qū)塊鏈上的數(shù)據(jù)進(jìn)行篡改,這樣數(shù)據(jù)篡改的可能性就被降到了最低。
可見,在區(qū)塊鏈的助力下,數(shù)據(jù)的公開性、安全性都有了大幅度提升,而這也帶來了數(shù)據(jù)質(zhì)量的提高,以及數(shù)據(jù)檢驗?zāi)芰Φ脑鰪?qiáng)。
OKLink分析師曾說過: “區(qū)塊鏈技術(shù)擁有高可靠性、簡化流程、交易可追蹤及改善數(shù)據(jù)質(zhì)量等特質(zhì),使得其具備重構(gòu)金融業(yè)基礎(chǔ)架構(gòu)的潛力。”
2、解決數(shù)據(jù)孤島問題
大數(shù)據(jù)存在非常嚴(yán)重的數(shù)據(jù)孤島問題,而區(qū)塊鏈則有望解決這一問題。之所以會這樣說,主要是因為區(qū)塊鏈不僅是一個分布式賬本,而且還具有去中心化、開放性等特征。
在區(qū)塊鏈的助力下,信息傳遞到金融市場參與者的過程會變得越來越公開透明。不僅如此,作為金融市場中的秩序維護(hù)者,監(jiān)管機(jī)構(gòu)還可以通過區(qū)塊鏈中的數(shù)據(jù)鏈條來預(yù)測和分析可能出現(xiàn)的風(fēng)險問題,并制定出相應(yīng)的規(guī)避措施,以此來保證金融市場的正常運(yùn)行。
可以看到, 區(qū)塊鏈的去中心化的特征,不僅能夠解決大數(shù)據(jù)中的數(shù)據(jù)孤島問題,還可以實現(xiàn)不同主體間的信息共享,從而進(jìn)一步完善現(xiàn)有的風(fēng)控模式。
另外,在區(qū)塊鏈的巨大影響下,區(qū)塊鏈創(chuàng)業(yè)公司像雨后春筍般不斷涌現(xiàn)。不過,對于區(qū)塊鏈創(chuàng)業(yè)公司來說,提供完善的區(qū)塊鏈解決方案是可以的,但這些解決方案能否順利落地還是一個未知數(shù)。
可以說,區(qū)塊鏈目前的發(fā)展?fàn)顩r與20世紀(jì)90年代互聯(lián)網(wǎng)的發(fā)展情形非常相似,其對行業(yè)、政府、企業(yè)的改變是一定會發(fā)生的。到2020年,不僅區(qū)塊鏈創(chuàng)業(yè)公司的數(shù)量可能會大幅度增加,區(qū)塊鏈聯(lián)盟的數(shù)量也可能會有所增加。
在維護(hù)一個可靠數(shù)據(jù)庫時,區(qū)塊鏈采取了去中心化和去信任的方式,這也注定了區(qū)塊鏈與大數(shù)據(jù)融合在一起是必然的。甚至可以說,區(qū)塊鏈的誕生是對大數(shù)據(jù)的重構(gòu)。
3、解決數(shù)據(jù)泄露問題
從本質(zhì)上來講,區(qū)塊鏈其實是一個去中心化的數(shù)據(jù)庫,因此,如果區(qū)塊鏈中的某個節(jié)點(diǎn)對數(shù)據(jù)“動了手腳”的話,那么其他節(jié)點(diǎn)會在第一時間發(fā)現(xiàn),這樣數(shù)據(jù)泄露的可能性會大幅度降低。
只有通過私鑰的形式,區(qū)塊鏈中各個節(jié)點(diǎn)的身份信息才可以被成功獲取,而且私鑰還是數(shù)據(jù)擁有者才可以知道的。 即使數(shù)據(jù)已經(jīng)泄露出去,但如果私鑰沒有被泄露的話,那些已經(jīng)被泄露的數(shù)據(jù)也沒有辦法與節(jié)點(diǎn)身份進(jìn)行匹配,因此,它們并沒有任何使用價值。
另外,區(qū)塊鏈只能被那些計算力超過50%的黑客攻破,不僅如此,隨著區(qū)塊鏈節(jié)點(diǎn)的不斷增多,所需的節(jié)點(diǎn)力也會越來越大。當(dāng)節(jié)點(diǎn)增多到一定數(shù)量時,發(fā)動一次攻擊的成本就會變得非常高,對于黑客而言,這其實是得不償失的。由此來看,通過區(qū)塊鏈對數(shù)據(jù)存儲技術(shù)進(jìn)行加密,可以最大限度地確保數(shù)據(jù)安全,從而把數(shù)據(jù)泄露的風(fēng)險降到最低。
可以說,“區(qū)塊鏈+大數(shù)據(jù)”是解決大數(shù)據(jù)風(fēng)控弊端的最佳模式,同時,該模式還可以大幅度提升金融業(yè)務(wù)風(fēng)控能力,從而推動金融行業(yè)的不斷發(fā)展。
四、用區(qū)塊鏈解決大數(shù)據(jù)交易問題
區(qū)塊鏈可以從根本上解決大數(shù)據(jù)的交易問題。一方面,區(qū)塊鏈可以實現(xiàn)對數(shù)據(jù)的追根溯源;另一方面,區(qū)塊鏈可以實現(xiàn)對靜態(tài)數(shù)據(jù)的隔離驗證。
1、追溯數(shù)據(jù)的源頭
在數(shù)據(jù)交易的過程中,數(shù)據(jù)提供方會有這樣的顧慮: 數(shù)據(jù)被發(fā)送出去以后,很可能會通過其他渠道流入二級市場,并且被轉(zhuǎn)賣的次數(shù)越多,數(shù)據(jù)價值越小。 另外,在現(xiàn)有技術(shù)的基礎(chǔ)上,數(shù)據(jù)的可復(fù)制性和二次傳播還沒有辦法完全避免,再加上數(shù)據(jù)價值會隨著傳播次數(shù)的增多而不斷減小,所以數(shù)據(jù)提供方根本不愿意,也害怕將數(shù)據(jù)提供出來進(jìn)行交易。
簡言之,數(shù)據(jù)提供方不想進(jìn)行數(shù)據(jù)交易的原因主要包括以下兩點(diǎn):
- 1)二次傳播導(dǎo)致數(shù)據(jù)價值的不斷減小。
- 2)為了獲取原始數(shù)據(jù)全集,數(shù)據(jù)接收方會進(jìn)行多次購買。
眾所周知,馬太效應(yīng)會在數(shù)據(jù)本身的量級上展示出來,如果不能有效解決數(shù)據(jù)溯源問題的話,數(shù)據(jù)接收方必然會分次獲取數(shù)據(jù)全集,從而對數(shù)據(jù)提供方的數(shù)據(jù)交易價值產(chǎn)生嚴(yán)重影響。從目前的情況來看,在商業(yè)協(xié)議的保護(hù)下,數(shù)據(jù)雖然可以不被二次轉(zhuǎn)賣,但由于舉證困難,如果數(shù)據(jù)接收方違約,數(shù)據(jù)提供方根本無法追責(zé)。
俗話說:“羅馬不是一天建成的。”在現(xiàn)有技術(shù)不能避免數(shù)據(jù)被二次復(fù)制和轉(zhuǎn)賣的情況下,讓數(shù)據(jù)具備可溯源性特征也是一種非常不錯的過渡手段。當(dāng)出現(xiàn)數(shù)據(jù)接收方蓄意違約的現(xiàn)象時,數(shù)據(jù)提供方如果具備舉證手段,可以在很大程度上消除其進(jìn)行數(shù)據(jù)交易的顧慮。
一個非常有效的實現(xiàn)方法是通過區(qū)塊鏈的不對稱加密技術(shù),對需要交易的數(shù)據(jù)進(jìn)行簽名,具體包括以下幾個環(huán)節(jié):
- 1)數(shù)據(jù)交易雙方針對簽名算法進(jìn)行協(xié)商,例如,使用AES128。
- 2)數(shù)據(jù)接收方生成自己的公鑰和私鑰。
- 3)數(shù)據(jù)接收方將自己的公鑰和私鑰同時提供給數(shù)據(jù)提供方。
- 4)數(shù)據(jù)提供方使用私鑰對數(shù)據(jù)關(guān)鍵字段進(jìn)行簽名。數(shù)據(jù)關(guān)鍵字段包括枚舉類型、ID類型等。值得一提的是,數(shù)值類型應(yīng)該保留明文,然后將已經(jīng)簽過名的數(shù)據(jù)出售給數(shù)據(jù)接收方,原始數(shù)據(jù)則由數(shù)據(jù)提供方保留。
- 5)數(shù)據(jù)接收方購買到加密數(shù)據(jù)以后,把自己系統(tǒng)內(nèi)的關(guān)鍵數(shù)據(jù)用私鑰簽名進(jìn)行轉(zhuǎn)換,以便供數(shù)據(jù)銜接使用。
- 6)如果市場上出現(xiàn)相關(guān)出售數(shù)據(jù),那么數(shù)據(jù)接收方可以通過公鑰對數(shù)據(jù)進(jìn)行驗證,根據(jù)公鑰和私鑰的驗證結(jié)果,了解數(shù)據(jù)究竟出自哪一個數(shù)據(jù)提供者。
這種方法雖然可以對具體的數(shù)據(jù)提供方進(jìn)行驗證,但也存在一個問題:如果數(shù)據(jù)接收方充滿惡意,妄圖同時掌握私鑰和公鑰的話,那么數(shù)據(jù)提供方很有可能遭到陷害。這也表示,要想真正實現(xiàn)數(shù)據(jù)的追根溯源,除了需要區(qū)塊鏈的助力,還需要監(jiān)管機(jī)構(gòu)的公證。
2、靜態(tài)數(shù)據(jù)的隔離驗證
比特幣的隔離驗證BIP是隔離驗證一詞的來源,很多專家學(xué)者都認(rèn)為,隔離驗證可以引入到靜態(tài)數(shù)據(jù)交易中。
從目前的情況來看,對靜態(tài)數(shù)據(jù)進(jìn)行交易是特別困難的。因為靜態(tài)數(shù)據(jù)涉及了太多的用戶隱私,所以使數(shù)據(jù)提供方和數(shù)據(jù)接收方承擔(dān)大量的監(jiān)管風(fēng)險。另外,從法律層面來看,很多靜態(tài)數(shù)據(jù)都處于灰色地帶,而且其中大部分都產(chǎn)生于政府職能部門。
在這種情況下, 如果我們可以使用隔離驗證技術(shù),將那些合法且可以出售的數(shù)據(jù)進(jìn)行隔離驗證處理,那么就可以在保護(hù)用戶隱私的同時,為數(shù)據(jù)接收方的合法使用提供保障。
這方面我們可以使用靜態(tài)數(shù)據(jù)哈希,將不能被泄露的用戶隱私數(shù)據(jù)進(jìn)行哈希,使數(shù)據(jù)接收方只有在擁有某些數(shù)據(jù)的情況下,才可以借助哈希比對獲取一條數(shù)據(jù)記錄的其他字段,從而實現(xiàn)與隔離驗證相類似的功能。
可以看到,在解決大數(shù)據(jù)交易問題方面,區(qū)塊鏈確實有著得天獨(dú)厚的優(yōu)勢,而且也可以發(fā)揮真正的作用。一方面,區(qū)塊鏈可以追溯數(shù)據(jù)的源頭,從而保證數(shù)據(jù)提供方和數(shù)據(jù)接收方的利益;另一方面,區(qū)塊鏈可以實現(xiàn)靜態(tài)數(shù)據(jù)的隔離驗證,從而降低數(shù)據(jù)交易中的風(fēng)險。
區(qū)塊鏈+大數(shù)據(jù)何時應(yīng)聲落地、遍地開花?我們拭目以待。