自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

跨數(shù)據(jù)庫跨系統(tǒng),數(shù)據(jù)脫敏有新招(附工具下載)

運(yùn)維 數(shù)據(jù)庫運(yùn)維
命令行工具提供的是靜態(tài)數(shù)據(jù)脫敏能力,可以用于日常學(xué)習(xí)、測試。基于 d18n 這個(gè) Library 相信你也不難實(shí)現(xiàn)適用各家公司自己的動(dòng)態(tài)數(shù)據(jù)脫敏平臺(tái)。保護(hù)用戶隱私數(shù)據(jù)每一個(gè)人都責(zé)無旁貸,期待社區(qū)能夠涌現(xiàn)更多優(yōu)秀的產(chǎn)品共同提高數(shù)據(jù)安全水平。

[[428559]]

作者介紹

貝殼找房DBA團(tuán)隊(duì) , 負(fù)責(zé)鏈家、貝殼找房的數(shù)據(jù)庫服務(wù)治理及運(yùn)維,包括MySQL、Redis、Kafka、RocketMQ、TiDB等產(chǎn)品。為保證線上服務(wù)高效、安全、穩(wěn)定運(yùn)行,面向研發(fā)同學(xué)提供一站式的數(shù)據(jù)庫操作平臺(tái),建設(shè)了滿足99.99%標(biāo)準(zhǔn)的高可用自動(dòng)化切換平臺(tái),并結(jié)合DBA豐富的運(yùn)維經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了數(shù)據(jù)庫故障的自助診斷 。

引言

2021 年 9 月 1 日起《中華人民共和國數(shù)據(jù)安全法》( 以下簡稱《安全法》 )正式施行,成為了規(guī)范數(shù)據(jù)處理活動(dòng),保障數(shù)據(jù)安全,促進(jìn)數(shù)據(jù)開發(fā)利用,保護(hù)個(gè)人、組織的合法權(quán)益,維護(hù)國家主權(quán)、安全和發(fā)展利益的法律依據(jù)。數(shù)據(jù)脫敏技術(shù)則是對(duì)敏感數(shù)據(jù)按需進(jìn)行漂白、變形、遮蓋等處理,避免敏感信息泄露。數(shù)據(jù)脫敏工具使用、開發(fā)、平臺(tái)建設(shè)是每家互聯(lián)網(wǎng)公司保護(hù)用戶隱私應(yīng)盡的義務(wù)。

貝殼在用戶隱私數(shù)據(jù)保護(hù)上也做了很多努力,嚴(yán)格遵守國家法律要求,本文將分享一款由貝殼 DBA 團(tuán)隊(duì)開發(fā)的數(shù)據(jù)脫敏工具,即 d18n,它是 data-desensitization 的 Numeronym 縮寫,即使用 18 代替中間的 18 個(gè)字母。下面將拆解 d18n 的技術(shù)實(shí)現(xiàn),讓大家了解數(shù)據(jù)安全背后的故事。

一、數(shù)據(jù)脫敏場景

[[428560]]

從上圖可見敏感信息脫敏其實(shí)已經(jīng)融入到生活的方方面面,我們看的電影,讀的小說,聽的新聞都會(huì)用到信息脫敏。以下列舉三個(gè)互聯(lián)網(wǎng)公司常見的三種數(shù)據(jù)脫敏場景。

場景一:測試開發(fā)

線上數(shù)據(jù)庫服務(wù)做了嚴(yán)格的權(quán)限控制和資源隔離,非授權(quán)用戶無法獲取任何數(shù)據(jù)。測試環(huán)境為了盡量仿真生產(chǎn)環(huán)境有時(shí)會(huì)提出使用獲取線上數(shù)據(jù)樣本的需求,但測試環(huán)境的權(quán)限控制相對(duì)較寬松,因此不可將未脫敏的數(shù)據(jù)直接導(dǎo)入測試環(huán)境。

場景二:數(shù)據(jù)分析

隨著大數(shù)據(jù)應(yīng)用在互聯(lián)網(wǎng)的不斷落地,大數(shù)據(jù)分析能夠輔助公司進(jìn)行產(chǎn)品決策,準(zhǔn)確分析用戶行為。直接使用生產(chǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,未經(jīng)管控和數(shù)據(jù)脫敏,敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)的幾率將大大增加。

場景三:數(shù)據(jù)共享

政府與企業(yè),企業(yè)與企業(yè),企業(yè)內(nèi)應(yīng)用與應(yīng)用之間都有數(shù)據(jù)交換和信息共享的需求。針對(duì)不同級(jí)別的數(shù)據(jù)共享需求,要制定不同的數(shù)據(jù)脫敏方案。在保護(hù)好公司核心數(shù)據(jù)資產(chǎn)的情況下,為政企合作、企業(yè)合作、服務(wù)迭代提供數(shù)據(jù)安全保障。

二、跨平臺(tái)數(shù)據(jù)脫敏

d18n 工具使用 Go 語言開發(fā),在設(shè)計(jì)選型時(shí)它特意避開了部分依賴 CGO 的數(shù)據(jù)庫驅(qū)動(dòng),因此它是完全跨平臺(tái)的,可以直接在 Windows、Linux、Mac 系統(tǒng)中使用,即使是最新的 Apple Silicon MacBook Pro 也可功能無損支持。

由于 d18n 開發(fā)時(shí) Go 1.16 已經(jīng)支持了 embed 功能,它原生支持將靜態(tài)資源與二進(jìn)制程序一起打包。在數(shù)據(jù)脫敏和敏感信息識(shí)別時(shí)需要使用的語料包已經(jīng)被 d18n 打包封裝好了,因此無需再下載任何其他靜態(tài)資源文件,真正做到開箱即用。這一點(diǎn)對(duì)于目前流行的容器化環(huán)境來說也是特別友好的。 

d18n 的跨平臺(tái)不僅體現(xiàn)在操作系統(tǒng)級(jí)別的跨平臺(tái)上,它對(duì)數(shù)據(jù)庫平臺(tái)的支持也是多樣化的。除了互聯(lián)網(wǎng)公司最常使用的 MySQL 數(shù)據(jù)庫,d18n 還支持 Oracle、SQL Server、PostgreSQL 等等多種關(guān)系型數(shù)據(jù)庫??梢哉f,只要是使用 SQL 語言的數(shù)據(jù)庫,只要它有 Pure Go 驅(qū)動(dòng),d18n 都能支持。很多同學(xué)甚至直接把 d18n 當(dāng)作一個(gè)簡單的數(shù)據(jù)庫命令行查詢工具使用,帶來跨平臺(tái)一致性的用戶體驗(yàn)。

d18n 支持導(dǎo)出、導(dǎo)入的文件類型相對(duì)也比較豐富,有絕大多數(shù)人都熟悉的 Excel, TXT,也有對(duì)應(yīng)用程序友好的 CSV、JSON、SQL、HTML 等文件格式。無論是交給人用肉眼閱讀,還是交給程序做自動(dòng)化處理,d18n 都應(yīng)付得來。

三、敏感數(shù)據(jù)識(shí)別

前面講了很關(guān)于多跨平臺(tái)的友好性,一款數(shù)據(jù)脫敏工具用戶真正看重的是它對(duì)敏感數(shù)據(jù)的識(shí)別和處理能力上,這一節(jié)開始將進(jìn)入硬核知識(shí)介紹。

關(guān)系型數(shù)據(jù)庫敏感數(shù)據(jù)識(shí)別常用的算法有“關(guān)鍵字匹配”和“正則匹配”。d18n 當(dāng)然也不能免于俗套,這兩項(xiàng)技術(shù)也是妥妥的支持。更有誠意的是,d18n 還一并提供了敏感信息識(shí)別使用的通用規(guī)則庫。對(duì)于想“偷懶”的同學(xué),它能讓你開箱即用;對(duì)于“勤奮”的同學(xué),你也可以參照模板進(jìn)行深度自定義且無需修改源碼。

在傳統(tǒng)技術(shù)基礎(chǔ)之上,為了進(jìn)一步提高敏感數(shù)據(jù)發(fā)現(xiàn)能力,d18n 還引入了自然語言處理包 (gse),它將語料庫轉(zhuǎn)化成 Trier 數(shù)據(jù)結(jié)構(gòu),通過有窮自動(dòng)機(jī)算法 (DFA) 來匹配經(jīng)過自動(dòng)分詞的數(shù)據(jù)。

自然語言處理識(shí)別敏感數(shù)據(jù)的核心難點(diǎn)是如何生成精準(zhǔn)有效的語料庫,一個(gè)有效語料庫通常是針對(duì)真實(shí)的數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練得到的。d18n 中提供的關(guān)于地址、姓名的語料庫模板并非真實(shí)數(shù)據(jù)訓(xùn)練得到僅供用戶參考。下面是 d18n 中應(yīng)用自然語言處理來識(shí)別敏感信息的測試用例。

敏感信息存儲(chǔ)主動(dòng)申報(bào)已經(jīng)深深的融入到了貝殼的各項(xiàng)流程制度中,機(jī)器識(shí)別做為一個(gè)有效的補(bǔ)充可以幫助業(yè)務(wù)查缺補(bǔ)漏,及時(shí)發(fā)現(xiàn)可能存在的隱患。

四、數(shù)據(jù)脫敏導(dǎo)出

有了全平臺(tái)的敏感數(shù)據(jù)信息,接下來就是如何做好數(shù)據(jù)脫敏工作,綜合整理法律合規(guī)以及來自不同業(yè)務(wù)方的需求,主要有以下幾點(diǎn)。

為了滿足上面五點(diǎn)需求,本文從六個(gè)維度出發(fā)(即:無效化、隨機(jī)化、數(shù)據(jù)替換、加密替換、差分隱私、偏移取整)分別介紹數(shù)據(jù)脫敏算法實(shí)現(xiàn)。

首先是“無效化”,在處理待脫敏的數(shù)據(jù)時(shí),通過對(duì)字段數(shù)據(jù)值進(jìn)行截?cái)?、加密、隱藏等方式讓敏感數(shù)據(jù)脫敏,使其不再具有利用價(jià)值。一般采用特殊字符(*等)代替真值。以下是 d18n 中 smoke 和 phone 兩個(gè)算法的測試用例展示。

其次是“隨機(jī)化”,隨機(jī)值替換,字母變?yōu)殡S機(jī)字母,數(shù)字變?yōu)殡S機(jī)數(shù)字,這種方案可以在一定程度上保留原有數(shù)據(jù)的格式,且不可打破數(shù)據(jù)的唯一性約束。d18n 中內(nèi)置了常用漢字的語料庫,中文默認(rèn)也可以做隨機(jī)化替換。

對(duì)于 ASCII 碼表中的字符,d18n 還集成了先進(jìn)的 FPE(Format Preserving Encryption) 算法,進(jìn)一步保證了數(shù)據(jù)的“不可逆”性。

除了單個(gè)字符的隨機(jī)化,d18n 還支持單詞級(jí)別的隨機(jī)化替換,可保持語句長度及標(biāo)點(diǎn)符號(hào)不變。根據(jù)用戶生成的語料庫不同,支持不同語言的單詞替換。下面是一個(gè)英文替換的例子。

第三是“數(shù)據(jù)替換”,數(shù)據(jù)替換與“無效化”方式比較相似,不同的是這里不以特殊字符進(jìn)行遮擋,而是用一個(gè)設(shè)定的虛擬值替換真值。比如說將 IP 統(tǒng)一設(shè)置成 “127.0.0.1”。

第四是“加密替換”,d18n 支持對(duì)稱加密算法和非對(duì)稱加密算法。數(shù)據(jù)加密是一種特殊的可逆脫敏方法,通過密鑰和算法對(duì)敏感數(shù)據(jù)進(jìn)行加密,已知密鑰和算法可解密恢復(fù)原始數(shù)據(jù),要注意密鑰的安全性。雖然 d18n 也支持 RSA,ECC 等數(shù)據(jù)加密算法,但 d18n 不會(huì)生成密鑰文件、也不保留加密密鑰,更不提供解密支持。

第五是“差分隱私”,它是密碼學(xué)中的詞匯,旨在提供一種當(dāng)從統(tǒng)計(jì)數(shù)據(jù)庫查詢時(shí),最大化數(shù)據(jù)查詢的準(zhǔn)確性,同時(shí)最大限度減少識(shí)別其記錄的機(jī)會(huì)。d18n 使用了 Google 開源的 github.com/google/differential-privacy 包實(shí)現(xiàn)了這部分能力。

第六是“偏移取整”,這種方式通過數(shù)據(jù)移位去除隱私信息,偏移取整在保持了數(shù)據(jù)的安全性的同時(shí)保證了范圍的大致真實(shí)性,比之前幾種方案更接近真實(shí)數(shù)據(jù)。下面兩個(gè)例子分別是對(duì)數(shù)值類型取整和對(duì)時(shí)間類型取整。

五、數(shù)據(jù)脫敏導(dǎo)入

至此僅實(shí)現(xiàn)了把數(shù)據(jù)庫中的數(shù)據(jù)脫敏后共享給使用方的需求,如果有同學(xué)給了一份未脫敏的數(shù)據(jù)文件讓你導(dǎo)入到測試環(huán)境呢?d18n 也支持對(duì) Excel、TXT、CSV、HTML、JSON 等格式的文件進(jìn)行二次脫敏生成 SQL,可生成 SQL 文件,也可直接連接數(shù)據(jù)庫導(dǎo)入至數(shù)據(jù)庫中查看。

總結(jié)

d18n 中引入了很多優(yōu)秀的第三方開源 Library,它雖然是一個(gè)命令行工具,但作者們更想把它作為一個(gè) Library 來開發(fā),這樣可以更好的回饋給開源社區(qū),也給 d18n 帶來更多的可能。命令行工具提供的是靜態(tài)數(shù)據(jù)脫敏能力,可以用于日常學(xué)習(xí)、測試?;?d18n 這個(gè) Library 相信你也不難實(shí)現(xiàn)適用各家公司自己的動(dòng)態(tài)數(shù)據(jù)脫敏平臺(tái)。保護(hù)用戶隱私數(shù)據(jù)每一個(gè)人都責(zé)無旁貸,期待社區(qū)能夠涌現(xiàn)更多優(yōu)秀的產(chǎn)品共同提高數(shù)據(jù)安全水平。

> > > >

開源地址

【項(xiàng)目文檔】https://github.com/LianjiaTech/d18n/blob/main/doc/toc.md

【Github地址】https://github.com/LianjiaTech/d18n

【Issue 反饋】https://github.com/LianjiaTech/d18n/issues

責(zé)任編輯:張燕妮 來源: dbaplus社群
相關(guān)推薦

2011-07-14 15:24:26

MSSQL數(shù)據(jù)庫跨數(shù)據(jù)庫查詢

2009-03-23 09:05:01

2011-08-29 14:44:56

DBLINK

2023-11-30 07:15:57

MySQL數(shù)據(jù)庫

2011-07-28 17:02:59

MYSQL數(shù)據(jù)庫跨表更新數(shù)據(jù)并合

2024-03-13 07:26:23

2023-09-13 06:59:07

2010-11-03 11:36:53

訪問DB2表

2011-08-29 15:21:30

2023-01-04 12:17:07

開源攜程

2014-08-07 08:49:47

數(shù)據(jù)庫

2017-07-18 17:07:40

數(shù)據(jù)庫 MyCATJoin

2011-03-30 14:26:03

Entity Fram跨數(shù)據(jù)庫查詢

2010-08-10 11:35:42

DB2數(shù)據(jù)庫

2011-03-30 14:08:01

Entity Fram跨數(shù)據(jù)庫查詢

2021-02-03 09:34:28

潮數(shù)

2010-08-25 14:32:49

DB2數(shù)據(jù)庫遷移

2010-09-30 08:27:48

2012-07-06 15:00:03

跨平臺(tái)工具MoSync

2012-07-06 15:08:14

跨平臺(tái)工具Netbiscuits
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)