自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

差分隱私技術(shù)在火山引擎的應(yīng)用實(shí)踐

原創(chuàng) 精選
安全 應(yīng)用安全
為了解決查詢統(tǒng)計(jì)以及用戶數(shù)據(jù)采集場景中隱私泄露問題,火山引擎安全研究團(tuán)隊(duì)基于差分隱私技術(shù),依托自研的 Jeddak 數(shù)據(jù)安全隱私計(jì)算平臺(tái),分別研發(fā)了面向查詢保護(hù)的 DPSQL 服務(wù)以及面向采集保護(hù) LDPDC 服務(wù),在保障查詢和采集過程中用戶隱私的基礎(chǔ)上,實(shí)現(xiàn)了數(shù)據(jù)的高可用目標(biāo)。

一、背景

1.1 隱私泄漏場景

隨著用戶自身隱私保護(hù)意識(shí)的提升和《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》等國家法律法規(guī)的陸續(xù)施行,如何在收集、使用用戶數(shù)據(jù)的過程中保障用戶的隱私安全、滿足監(jiān)管要求,成為了挑戰(zhàn)性的問題。在互聯(lián)網(wǎng)廠商的日常業(yè)務(wù)中,常見的用戶隱私泄露場景有:

(1)數(shù)據(jù)統(tǒng)計(jì)查詢: 對(duì)用戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)查詢的結(jié)果直接向客戶返回(如客群洞察等業(yè)務(wù)),存在通過差分攻擊從統(tǒng)計(jì)結(jié)果中獲取個(gè)體信息的可能性。

例如,某互聯(lián)網(wǎng)公司為外部客戶提供客群畫像服務(wù),客戶分別查詢?nèi)后w A 和群體 B(群體 B 與群體 A 相比,僅多出一名用戶甲)的居住地分布,如果第二次查詢結(jié)果中居住在南京鼓樓的人數(shù)比第一次報(bào)告中多 1,那么可以推斷出甲的居住地在南京鼓樓,泄露了甲的隱私信息。

(2)用戶數(shù)據(jù)采集: 手機(jī) APP、移動(dòng)終端通常會(huì)采集多種用戶信息(如地理位置,健康狀態(tài)等)以提升服務(wù)質(zhì)量和用戶體驗(yàn)。然而,直接采集可能會(huì)導(dǎo)致用戶隱私的泄露,同時(shí)也受到法律法規(guī)的嚴(yán)格限制。

例如,用戶甲在某??漆t(yī)院看病時(shí)打開了位置定位,互聯(lián)網(wǎng)廠商通過收集用戶甲的地理位置,可能會(huì)推斷出用戶甲患有某種疾病,從而造成用戶甲的隱私泄露。

因此,對(duì)于廣大互聯(lián)網(wǎng)廠商來說,研發(fā)高質(zhì)量的隱私保護(hù)服務(wù),以解決統(tǒng)計(jì)發(fā)布、數(shù)據(jù)采集等場景中的用戶隱私泄露問題,同時(shí)保證數(shù)據(jù)的可用性,從而滿足監(jiān)管要求,為業(yè)務(wù)賦能,成為了重要的工作。

1.2 去標(biāo)識(shí)化與差分隱私

傳統(tǒng)的隱私保護(hù)手段往往通過解耦、泛化等方法去除用戶記錄的標(biāo)識(shí)符信息(如姓名、身份證號(hào)、設(shè)備 ID 等),或通過匿名化技術(shù)(如 K-匿名、L-多樣性等)對(duì)用戶記錄的準(zhǔn)標(biāo)識(shí)符(如街道、郵編等)進(jìn)行泛化、壓縮,使得攻擊者無法直接或間接地把處理過的數(shù)據(jù)與用戶準(zhǔn)確地重新關(guān)聯(lián)。然而,傳統(tǒng)方法的安全性與攻擊者所掌握的背景知識(shí)密切相關(guān),并且難以對(duì)隱私保護(hù)水平進(jìn)行定量分析。例如上文中的查詢場景,由于攻擊者有背景知識(shí)存在(知道員工甲是否在查詢范圍中),傳統(tǒng)的匿名化方法無法起到預(yù)期的作用。

為解決這些問題,差分隱私(Differential Privacy,簡稱 DP) [1]技術(shù)應(yīng)運(yùn)而生。該技術(shù)提供了一種嚴(yán)格、可證明的隱私保護(hù)手段,且其保護(hù)強(qiáng)度不依賴于攻擊者所掌握的背景知識(shí)。由于這些特點(diǎn),差分隱私一經(jīng)提出便得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可和應(yīng)用。特別地,差分隱私的通用定義為:

則稱算法 M 提供 ε-DP,其中 S 是由算法 M 所有可能的輸出構(gòu)成的集合,參數(shù) ε 稱為隱私預(yù)算。通過調(diào)整隱私預(yù)算 ε 的取值,可以控制差分隱私保護(hù)的程度。ε 越小,添加或刪除一條記錄對(duì)結(jié)果的影響程度越小,隱私保護(hù)強(qiáng)度也就越大,計(jì)算結(jié)果的可用性越低,反之亦然。因此,在實(shí)際應(yīng)用中,根據(jù)不同場景和需求,設(shè)定合理的 ε 取值以達(dá)到隱私保護(hù)和數(shù)據(jù)可用性之間的平衡,是差分隱私技術(shù)應(yīng)用的關(guān)鍵問題之一。

1.3 基于差分隱私的保護(hù)服務(wù)

為了解決查詢統(tǒng)計(jì)以及用戶數(shù)據(jù)采集場景中隱私泄露問題,火山引擎安全研究團(tuán)隊(duì)基于差分隱私技術(shù),依托自研的 Jeddak 數(shù)據(jù)安全隱私計(jì)算平臺(tái),分別研發(fā)了面向查詢保護(hù)的 DPSQL 服務(wù)(Differentially Private SQL Query Service)以及面向采集保護(hù) LDPDC 服務(wù)(Locally Differentially Private Data Collection Service),在保障查詢和采集過程中用戶隱私的基礎(chǔ)上,實(shí)現(xiàn)了數(shù)據(jù)的高可用目標(biāo)。以下分別對(duì)兩個(gè)服務(wù)進(jìn)行介紹。

二、DPSQL 查詢保護(hù)服務(wù)

DPSQL 采用中心化差分隱私(Centralized Differential Privacy,簡稱 CDP,適用于數(shù)據(jù)管理者可信的場景)[1]模式,以中間件的形式接收 SQL 統(tǒng)計(jì)查詢請(qǐng)求,返回滿足差分隱私的查詢結(jié)果。由于現(xiàn)實(shí)場景中查詢請(qǐng)求的多樣性,DPSQL 服務(wù)構(gòu)建面臨以下關(guān)鍵挑戰(zhàn):

  • 如何兼容不同類型數(shù)據(jù)庫的查詢方言,以降低使用成本、保障客戶的查詢體驗(yàn)?
  • 如何在復(fù)雜 SQL 語句情況下計(jì)算合適的差分隱私噪聲,兼顧隱私保護(hù)效果與保證數(shù)據(jù)效用?

以下將從服務(wù)架構(gòu)和關(guān)鍵設(shè)計(jì)兩個(gè)方面闡述 DPSQL 的應(yīng)對(duì)措施,并對(duì)落地應(yīng)用進(jìn)行簡要介紹。

2.1 服務(wù)架構(gòu)

DPSQL 服務(wù)包含三個(gè)組件:

  • DPSQL 核心服務(wù):以原始 SQL 統(tǒng)計(jì)查詢語句作為輸入,輸出滿足差分隱私的結(jié)果,其中包括 SQL 解析與重寫、差分隱私加噪等模塊;
  • 元數(shù)據(jù)管理服務(wù):維護(hù)數(shù)據(jù)庫的元數(shù)據(jù)及數(shù)據(jù)表屬性特征,以便于對(duì)數(shù)據(jù)表屬性進(jìn)行敏感度分析;
  • 隱私預(yù)算管理服務(wù):維護(hù)每個(gè)數(shù)據(jù)表的隱私預(yù)算分配與消耗記錄,提供隱私預(yù)算余量查詢、報(bào)表和審計(jì)功能,以便于對(duì)查詢請(qǐng)求進(jìn)行隱私控制。

一個(gè)典型的查詢請(qǐng)求處理流程如下:

首先,核心服務(wù)接受客戶提交的 SQL 查詢語句,對(duì)該語句進(jìn)行解析和重寫,以便于計(jì)算隱私噪聲(如將 AVG 計(jì)算改為 SUM/COUNT);

然后,核心服務(wù)調(diào)用元數(shù)據(jù)管理服務(wù),計(jì)算重寫后的 SQL 查詢所對(duì)應(yīng)的數(shù)據(jù)表敏感度,同時(shí)在數(shù)據(jù)庫上執(zhí)行重寫后的 SQL 查詢,得到原始的查詢結(jié)果;

最后,核心服務(wù)調(diào)用隱私預(yù)算管理服務(wù)得到為該查詢分配的隱私預(yù)算,并結(jié)合敏感度在原始的查詢結(jié)果中添加噪聲并返回。

2.2 關(guān)鍵設(shè)計(jì)

針對(duì)前文所述 SQL 方言兼容以及查詢?cè)肼曈?jì)算的挑戰(zhàn),團(tuán)隊(duì)在 DPSQL 中實(shí)現(xiàn)了多源異構(gòu)的 SQL 解析與重寫機(jī)制,以及自適應(yīng)的 差分隱私加噪機(jī)制。

2.2.1 多源異構(gòu)數(shù)據(jù)庫 SQL 解析與重寫機(jī)制

  • 采用靈活可擴(kuò)展的 SQL 解析機(jī)制(parser),可支持多種 SQL 方言,與傳統(tǒng)數(shù)據(jù)庫查詢無差別。
  • 采用定制化的 SQL 重寫機(jī)制(rewriter),可支持多種語法特征,例如聚合函數(shù)、多層子查詢、join、group by 等。

2.2.2 自適應(yīng)的差分隱私加噪機(jī)制

  • 根據(jù) SQL 查詢包含的聚合函數(shù)類型,自適應(yīng)地為查詢分配隱私預(yù)算,降低隱私預(yù)算的消耗;
  • 根據(jù) SQL 查詢的聚合函數(shù)類型,高效分析聚合函數(shù)在多表鏈接查詢、多層子查詢等場景下的敏感度,分配合適的差分隱私加噪算法,提高服務(wù)性能和查詢結(jié)果的可用性。

2.3 落地應(yīng)用

目前,DPSQL 服務(wù)已接入火山引擎的客戶數(shù)據(jù)平臺(tái),為銀行、車企、零售等行業(yè)客戶提供隱私保護(hù)的用戶群體洞察服務(wù)。

三、 LDPDC 采集保護(hù)服務(wù)

LDPDC 服務(wù)以本地化差分隱私(Local Differential Privacy)[2]為核心技術(shù),為用戶提供端上的 LDP-SDK,實(shí)現(xiàn)端上的數(shù)據(jù)的擾動(dòng)處理。同時(shí),配套提供了服務(wù)端的計(jì)算服務(wù),對(duì) LDP-SDK 采集的數(shù)據(jù)進(jìn)行匯總分析。同樣地,LDPDC 面臨以下挑戰(zhàn):

  • 如何在滿足用戶個(gè)性化隱私保護(hù)需求的同時(shí),降低通信開銷?
  • 如何針對(duì)分析任務(wù),降低采集數(shù)據(jù)中的噪聲,提高數(shù)據(jù)可用性?

同樣的,以下從服務(wù)架構(gòu)和關(guān)鍵設(shè)計(jì)兩個(gè)方面闡述 LDPDC 的應(yīng)對(duì)措施,并對(duì)落地應(yīng)用進(jìn)行簡要介紹。

3.1 服務(wù)架構(gòu)

LDPDC 服務(wù)兩個(gè)模塊構(gòu)成:

客戶端:內(nèi)置 LDP-SDK,包含個(gè)性化的擾動(dòng)機(jī)制,用以接受用戶個(gè)性化的隱私保護(hù)需求設(shè)置,并據(jù)此對(duì)用戶數(shù)據(jù)進(jìn)行擾動(dòng)處理,從而為用戶提供差分隱私保護(hù);

服務(wù)端:收集匯總客戶端傳輸?shù)臄?shù)據(jù),提供定制化的降噪聚合機(jī)制,用于對(duì)匯總的數(shù)據(jù)進(jìn)行降噪聚合處理,提高數(shù)據(jù)可用性。處理后的數(shù)據(jù)可應(yīng)用于推薦系統(tǒng)、統(tǒng)計(jì)查詢、機(jī)器學(xué)習(xí)等數(shù)據(jù)分析服務(wù);

3.2 關(guān)鍵設(shè)計(jì)

針對(duì)端上擾動(dòng)和匯聚噪聲降低的挑戰(zhàn),LDPDC 設(shè)計(jì)了個(gè)性化的擾動(dòng)機(jī)制和定制化的降噪聚合機(jī)制。

3.2.1 個(gè)性化的擾動(dòng)機(jī)制

  • 為用戶提供隱私保護(hù)強(qiáng)度配置選項(xiàng)(低、中、高三擋),滿足用戶對(duì)自身數(shù)據(jù)的個(gè)性化隱私保護(hù)需求。
  • 提供高效的數(shù)據(jù)壓縮和交互機(jī)制(如 GRR 機(jī)制、OLH 機(jī)制等),減少客戶端與服務(wù)端之間的信息傳輸量和交互次數(shù),降低通信開銷。

3.2.2 定制化的降噪聚合機(jī)制

  • 針對(duì)不同類型的個(gè)人數(shù)據(jù),使用定制化的降噪聚合機(jī)制,以保證所收集到數(shù)據(jù)的高效用。
  • 提供無偏性處理機(jī)制,使得加噪聚合后的統(tǒng)計(jì)信息理論上等于真實(shí)數(shù)據(jù)的統(tǒng)計(jì)信息。
  • 提供一致性處理機(jī)制,使得聚合后的統(tǒng)計(jì)信息能夠與公開的背景知識(shí)保持一致,如將小于 0 的頻數(shù)置為 0 等。

3.3 落地應(yīng)用

目前,LDPDC 服務(wù)將開始在地理位置采集等服務(wù)中進(jìn)行應(yīng)用,輔助業(yè)務(wù)部門對(duì)于用戶信息采集進(jìn)行合規(guī)治理,為廣告推薦等服務(wù)提供策略支持。

四、結(jié)語

DPSQL 服務(wù)和 LDPDC 服務(wù)是差分隱私技術(shù)在火山引擎實(shí)際應(yīng)用場景中的成功實(shí)踐。未來,差分隱私相關(guān)服務(wù)將出現(xiàn)在火山引擎云安全系列產(chǎn)品矩陣中,服務(wù)于火山云客戶?;鹕揭姘踩芯繄F(tuán)隊(duì)將繼續(xù)探索業(yè)務(wù)場景,深入挖掘用戶數(shù)據(jù)隱私保護(hù)需求,研究前沿隱私保護(hù)技術(shù)的落地應(yīng)用,為用戶的數(shù)據(jù)隱私安全提供強(qiáng)力保障。

引用文獻(xiàn)

[1] Dwork C., Mcsherry F., Nissim K., et al. Calibrating Noise to Sensitivity in Private Data Analysis [A]. Theory of Cryptography, Third Theory of Cryptography Conference, TCC 2006, New York, NY, USA, March 4-7, 2006, Proceedings: 265–284.

[2] Kasiviswanathan S.P., Lee H.K., Nissim K., et al. What Can We Learn Privately? [A]. 49th Annual IEEE Symposium on Foundations of Computer Science, FOCS 2008, October 25-28, 2008, Philadelphia, PA, USA: 531–540.

責(zé)任編輯:未麗燕 來源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2023-04-04 13:38:30

DataLeap數(shù)據(jù)血緣

2023-05-31 14:54:32

2024-07-18 21:26:44

2022-08-19 18:15:04

視頻會(huì)議音頻質(zhì)量噪聲

2022-12-23 09:29:52

大數(shù)據(jù)

2023-06-07 08:32:32

引擎技術(shù)while

2021-10-21 13:13:57

數(shù)字化

2024-03-07 10:09:42

向量數(shù)據(jù)庫

2023-03-27 21:24:18

架構(gòu)數(shù)據(jù)處理分析服務(wù)

2022-05-20 11:23:01

火山引擎A/B 測試ToB 市場

2024-07-18 08:40:28

2024-11-25 08:20:22

2021-01-13 12:10:09

物聯(lián)網(wǎng)隱私網(wǎng)絡(luò)安全

2023-10-19 14:55:22

火山引擎擁塞控制算法

2020-04-30 13:45:56

隱私框架深度學(xué)習(xí)

2024-01-31 14:53:09

Kotlin云端緩存
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)