?作者 | Dan Neault
譯者 | 陳峻
如今,大家都普遍認(rèn)為數(shù)據(jù)是商業(yè)環(huán)境中最有價(jià)值的資源。企業(yè)的成功往往與他們從數(shù)據(jù)中獲利的能力有著直接關(guān)系。而作為傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的演進(jìn),數(shù)據(jù)湖(Data Lake)能夠從多個(gè)來(lái)源獲取原始形式的數(shù)據(jù)。這就是為什么許多組織已經(jīng)開(kāi)始轉(zhuǎn)向通過(guò)數(shù)據(jù)湖,來(lái)改進(jìn)分析,實(shí)現(xiàn)更有效的協(xié)作,并支持大規(guī)模的數(shù)據(jù)驅(qū)動(dòng)型決策的原因。
雖然數(shù)據(jù)湖能夠給組織帶來(lái)卓越的業(yè)務(wù)成果,但它們的快速采用,也可能會(huì)給一些缺乏資源和專(zhuān)業(yè)領(lǐng)域知識(shí)團(tuán)隊(duì),帶來(lái)合規(guī)性和安全控制上的門(mén)檻。更復(fù)雜的是,數(shù)據(jù)湖的廣泛使用,會(huì)讓更多內(nèi)、外部角色接觸到數(shù)據(jù),進(jìn)而放大了業(yè)務(wù)安全的潛在風(fēng)險(xiǎn)。
1、從數(shù)據(jù)庫(kù)到數(shù)據(jù)湖
在上個(gè)世紀(jì)60年代,隨著計(jì)算機(jī)變得更易于訪問(wèn),各個(gè)組織需要有效地存儲(chǔ)和管理手中的數(shù)據(jù),這便催生了數(shù)據(jù)庫(kù)技術(shù)的產(chǎn)生。
在之后的幾十年中,在線(xiàn)事務(wù)處理(online transactional processing,OLTP)型的工作負(fù)載和關(guān)系型數(shù)據(jù)庫(kù),充當(dāng)了快速、準(zhǔn)確地處理數(shù)據(jù)的主力軍。
到了20世紀(jì)80年代,數(shù)據(jù)倉(cāng)庫(kù)(data warehouses)將數(shù)據(jù)處理從事務(wù)或操作系統(tǒng),轉(zhuǎn)變?yōu)榱藳Q策支持系統(tǒng)。這種轉(zhuǎn)變使得許多組織能夠聚合來(lái)自多個(gè)環(huán)境的數(shù)據(jù),并通過(guò)匯集商業(yè)智能(business intelligence,BI),來(lái)支持戰(zhàn)略決策的制定。
如今,大量的組織都會(huì)利用數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和BI ,用以提供創(chuàng)新信息,并指導(dǎo)戰(zhàn)略決策。然而,隨著云計(jì)算和現(xiàn)代化編程語(yǔ)言的興起,數(shù)據(jù)庫(kù)的使用方式也隨著如下因素,發(fā)生了巨大的變化:
- 組織開(kāi)始意識(shí)到,如果他們不被限制于預(yù)定義的模式、以及在事務(wù)或分析系統(tǒng)中的使用方式,那么他們可以從數(shù)據(jù)中獲得更多的價(jià)值。
- 數(shù)據(jù)可以被用于開(kāi)發(fā)、訓(xùn)練、分析機(jī)器學(xué)習(xí)(machine learning,ML)模型,或是針對(duì)在任何類(lèi)型的數(shù)據(jù)庫(kù)上,運(yùn)行的現(xiàn)有工作負(fù)載,進(jìn)行現(xiàn)代化的改造。
- 云計(jì)算能夠以前所未有的速度和規(guī)模,快速配置現(xiàn)代化的工作負(fù)載。
數(shù)據(jù)倉(cāng)庫(kù)在處理和分析結(jié)構(gòu)化的數(shù)據(jù)方面固然表現(xiàn)出色,但它們無(wú)法捕獲原始的、非結(jié)構(gòu)化的數(shù)據(jù),這在某種程度上對(duì)組織的數(shù)字化業(yè)務(wù)產(chǎn)生了限制。因此,數(shù)據(jù)湖等非關(guān)系數(shù)據(jù)庫(kù)變得越來(lái)越受歡迎,一些數(shù)據(jù)架構(gòu)師正在嘗試著默認(rèn)使用數(shù)據(jù)湖,來(lái)處理新的工作負(fù)載,并對(duì)現(xiàn)有的工作負(fù)載進(jìn)行現(xiàn)代化的改造。
2、為什么要采用數(shù)據(jù)湖
正是由于數(shù)據(jù)架構(gòu)師們通過(guò)使用數(shù)據(jù)湖,來(lái)構(gòu)建ML模型,為無(wú)數(shù)分析系統(tǒng)提供數(shù)據(jù),進(jìn)而按需執(zhí)行查詢(xún)與分析等操作,因此他們從中獲得了數(shù)據(jù)的潛在價(jià)值,也促進(jìn)了越來(lái)越多的組織,開(kāi)始在數(shù)據(jù)湖中構(gòu)造它們的數(shù)據(jù)生命周期。
畢竟,在傳統(tǒng)方式上,數(shù)據(jù)倉(cāng)庫(kù)常被用于定期分析大量的結(jié)構(gòu)化數(shù)據(jù),或定期生成數(shù)據(jù)報(bào)告。而這往往要求企業(yè)在處理和存儲(chǔ)數(shù)據(jù)之前,就已經(jīng)完成、并將預(yù)定義的模式應(yīng)用到數(shù)據(jù)庫(kù)上。這在某種程度上,就限制了數(shù)據(jù)在后續(xù)交易或分析系統(tǒng)中的創(chuàng)新使用方式。
而數(shù)據(jù)湖并不需要這樣的前期工作。它能夠集成和存儲(chǔ)未經(jīng)轉(zhuǎn)換、或僅被少量處理的數(shù)據(jù)。這些數(shù)據(jù)可以來(lái)自包括:非結(jié)構(gòu)化的日志數(shù)據(jù)、物聯(lián)網(wǎng)(internet of things,IoT)傳感器、社交媒體、以及多媒體內(nèi)容等多個(gè)指向數(shù)據(jù)湖的來(lái)源。利用與數(shù)據(jù)湖配套的實(shí)現(xiàn)技術(shù),數(shù)據(jù)架構(gòu)師們可以:
- 使用Apache Kafka等數(shù)據(jù)流處理工具,近乎實(shí)時(shí)地處理流入數(shù)據(jù)湖中的數(shù)據(jù)。
- 使用Google BigQuery或Amazon Athena等高性能查詢(xún)引擎,直接從數(shù)據(jù)湖中獲取特定的數(shù)據(jù)洞見(jiàn)。
- 使用Elasticsearch等工具對(duì)大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行按需分析,對(duì)來(lái)自日志和運(yùn)營(yíng)的數(shù)據(jù)予以搜索、過(guò)濾和可視化。
3、數(shù)據(jù)湖安全嗎?
顯然,進(jìn)入數(shù)據(jù)湖的數(shù)據(jù)需要得到與過(guò)去被存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),有著相同級(jí)別、甚至更高的保護(hù)。那么數(shù)據(jù)湖主要會(huì)面臨哪些安全風(fēng)險(xiǎn)呢?
- 訪問(wèn)控制:針對(duì)數(shù)據(jù)庫(kù)表的訪問(wèn)權(quán)限控制,向來(lái)是靈活多變、且極具挑戰(zhàn)性的。而針對(duì)數(shù)據(jù)湖的權(quán)限設(shè)置更是如此。我們往往需要基于特定的對(duì)象或元數(shù)據(jù)來(lái)予以定義。否則,整個(gè)組織的人員都可以訪問(wèn)數(shù)據(jù)湖的話(huà),其中的個(gè)人數(shù)據(jù)、以及根據(jù)合規(guī)性要求保密的數(shù)據(jù),就沒(méi)有了安全保證。根據(jù) Forrester Consulting 曾委托進(jìn)行的一項(xiàng)研究,58% 的安全事件都是由內(nèi)部威脅所引起的,如果不加以控制的話(huà),員工對(duì)敏感數(shù)據(jù)的訪問(wèn)將是一場(chǎng)安全噩夢(mèng)。
- 數(shù)據(jù)保護(hù):數(shù)據(jù)湖通常充當(dāng)?shù)氖墙M織內(nèi)信息的單一存儲(chǔ)庫(kù)。因此,它往往成為了最有價(jià)值的攻擊目標(biāo)。如果沒(méi)有適當(dāng)?shù)脑L問(wèn)控制機(jī)制,不良行為者可以據(jù)此獲得整個(gè)組織的敏感數(shù)據(jù),甚至修改各種訪問(wèn)權(quán)限。
- 治理、隱私和合規(guī)性:由于數(shù)據(jù)湖的數(shù)據(jù)源多且雜,因此某些數(shù)據(jù)可能包含了在不同的系統(tǒng)和地域范圍內(nèi)屬于隱私、甚至是違規(guī)的信息內(nèi)容。由此產(chǎn)生的跨數(shù)據(jù)湖存儲(chǔ)架構(gòu)的定位、以及對(duì)不同層級(jí)數(shù)據(jù)的管控,將具有挑戰(zhàn)性。
可見(jiàn),為了在不影響安全性的情況下,充分發(fā)揮數(shù)據(jù)湖的優(yōu)勢(shì),組織需要遵循一套優(yōu)秀的實(shí)踐,來(lái)降低運(yùn)營(yíng)不合規(guī)、管理不善、數(shù)據(jù)泄漏、以及其他安全事件的發(fā)生風(fēng)險(xiǎn)。
4、如何保護(hù)數(shù)據(jù)湖
有效的安全策略往往能夠給數(shù)據(jù)湖賦予清晰的可見(jiàn)性和控制權(quán)。為此,組織可以采取四個(gè)步驟:
- 梳理標(biāo)準(zhǔn)化的數(shù)據(jù)訪問(wèn)流程:由于既可以給真實(shí)的用戶(hù)使用,也能夠供集成系統(tǒng)的調(diào)用,因此該流程應(yīng)當(dāng)能夠跟蹤數(shù)據(jù)的訪問(wèn)和使用的全過(guò)程。
- 創(chuàng)建數(shù)據(jù)的分類(lèi)方案和目錄:在數(shù)據(jù)湖中,數(shù)據(jù)應(yīng)當(dāng)按照內(nèi)容、使用場(chǎng)景、類(lèi)型、以及可能的用戶(hù)群體進(jìn)行分類(lèi),并提供相應(yīng)的目錄,以實(shí)現(xiàn)數(shù)據(jù)的搜索和索引。同時(shí),我們還應(yīng)該采取一種便利的方法,將需要保留的數(shù)據(jù)與待刪除的數(shù)據(jù)分開(kāi)。
- 啟用數(shù)據(jù)保護(hù):數(shù)據(jù)加密和自動(dòng)監(jiān)控等安全管控措施應(yīng)被事先設(shè)置好。而當(dāng)出現(xiàn)未授權(quán)的訪問(wèn)用戶(hù)、及其可疑活動(dòng)時(shí),應(yīng)能夠及時(shí)發(fā)出警報(bào)。
- 加強(qiáng)數(shù)據(jù)的治理、隱私保護(hù)、以及合規(guī)性:我們需要通過(guò)明確的數(shù)據(jù)政策,向相關(guān)人員傳達(dá),該如何定位和使用數(shù)據(jù)湖,如何提高數(shù)據(jù)質(zhì)量和敏感數(shù)據(jù)的使用,以及如何按照數(shù)據(jù)隱私標(biāo)準(zhǔn)去存儲(chǔ)歷史數(shù)據(jù)。
5、在防范安全和隱私風(fēng)險(xiǎn)的同時(shí)最大化數(shù)據(jù)價(jià)值
綜上所述,為了解決與數(shù)據(jù)湖的相關(guān)安全和合規(guī)風(fēng)險(xiǎn),組織應(yīng)該首先創(chuàng)建一種有效且高效的方法,來(lái)分類(lèi)和發(fā)現(xiàn)其環(huán)境中的數(shù)據(jù)。接著,組織必須能夠識(shí)別誰(shuí)在訪問(wèn)數(shù)據(jù),何時(shí)訪問(wèn)了敏感數(shù)據(jù),以及防止數(shù)據(jù)被惡意的內(nèi)部人員所竊取。
雖然上面提到的各種安全優(yōu)秀實(shí)踐都是創(chuàng)建數(shù)據(jù)湖安全環(huán)境的基礎(chǔ)步驟,但是組織應(yīng)當(dāng)從基礎(chǔ)入手,以數(shù)據(jù)為中心,確保數(shù)據(jù)在數(shù)據(jù)湖乃至組織的內(nèi)外部,無(wú)論身處何處、以何種形式存在,都是安全可控的。
原文鏈接:https://thenewstack.io/data-lake-security-dive-into-the-best-practices/