自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手大數(shù)據(jù)安全治理實踐

大數(shù)據(jù)
快手的數(shù)據(jù)平臺旨在提升決策效率和業(yè)績。該平臺通過數(shù)據(jù)中臺構建數(shù)據(jù)倉庫和數(shù)據(jù)服務,包括分析決策、實驗決策、AB 測試和核心資產(chǎn)服務等。目前,快手的數(shù)據(jù)量已達到萬億級,總數(shù)據(jù)量達到 EB 級。

快手成立于 2011 年,致力于成為全球最癡迷于為客戶創(chuàng)造價值的公司。公司在 2022 年 Q4 時,整體的日活用戶達到了 3.66 億,月活用戶達到 6.4 億。為了支撐快手如此大的規(guī)模體量,背后有很多數(shù)據(jù)相關的建設。

快手的數(shù)據(jù)平臺旨在提升決策效率和業(yè)績。該平臺通過數(shù)據(jù)中臺構建數(shù)據(jù)倉庫和數(shù)據(jù)服務,包括分析決策、實驗決策、AB 測試和核心資產(chǎn)服務等。目前,快手的數(shù)據(jù)量已達到萬億級,總數(shù)據(jù)量達到 EB 級。

本次分享聚焦于數(shù)據(jù)安全,將分享快手在大數(shù)據(jù)安全治理方面的實踐。

一、背景介紹

1. 快手大數(shù)據(jù)安全平臺定位

圖片

作為上市公司,快手對于數(shù)據(jù)安全非常關注??焓执髷?shù)據(jù)安全平臺的主要職責是為大數(shù)據(jù)全鏈路、全生命周期保駕護航,保障數(shù)據(jù)安全。這里的全鏈路包含幾個層面:

  • 在數(shù)倉建設階段,數(shù)據(jù)開發(fā)人員可利用平臺提供的開發(fā)能力進行數(shù)據(jù)倉庫建設,如基于 ODS 創(chuàng)建數(shù)據(jù)集市和維表。其中數(shù)據(jù)平臺有完善的數(shù)據(jù)權限申請管控機制,防止機密數(shù)據(jù)泄露。
  • 在數(shù)據(jù)采集階段,數(shù)據(jù)平臺會識別敏感數(shù)據(jù),進行數(shù)據(jù)加密、脫敏等操作,在數(shù)據(jù)入倉時進行安全管控。
  • 在數(shù)據(jù)應用階段,數(shù)據(jù)平臺也采取了安全措施,在數(shù)據(jù)服務或應用上對用戶鑒權,確保數(shù)據(jù)資產(chǎn)的安全。

2. 快手大數(shù)據(jù)安全面臨的挑戰(zhàn)

圖片

在構建數(shù)據(jù)平臺過程中,面臨多項挑戰(zhàn):

  • 通用性:系統(tǒng)覆蓋范圍廣泛,涉及 30+ 系統(tǒng),需具備較強的通用性。
  • 精細化管控:分為三個層面,首先是資源精細化,涵蓋報表、數(shù)據(jù)集、指標、維度庫表等異構資源;第二是操作類型精細化,包含讀寫操作;第三是賬號精細化,包含個人賬號和多租戶體系賬號,需做好權限管控和隔離。
  • 高可用:認證和鑒權處于數(shù)據(jù)服務核心鏈路,一旦異常影響范圍非常大,因此對安全要求極高。
  • 擴展性:業(yè)務需求靈活多變,需滿足多種業(yè)務線的權限管控要求,對擴展性提出了較高要求。

3. 快手大數(shù)據(jù)安全建設思路

圖片

為了應對數(shù)據(jù)平臺建設面臨的挑戰(zhàn),快手的建設思路圍繞著幾個方向展開:

  • 首先是組織規(guī)范,快手成立了數(shù)據(jù)委員會、信息安全委員會等虛擬組織,制定了數(shù)據(jù)分類分級規(guī)范、數(shù)據(jù)權限規(guī)范、數(shù)據(jù)安全隱私打標規(guī)范等,還建立了專門的安全平臺組,負責落地這些規(guī)范。
  • 其次,建設原則兼顧安全與效率,制定了分級審批流程,并建立了協(xié)調(diào)機制。既要保證安全,又要提高效率。
  • 最后,在安全原則方面,遵循相關法律法規(guī),并遵循最小權限原則。

二、平臺建設

1. 發(fā)展歷程

圖片

大數(shù)據(jù)安全平臺的發(fā)展歷程可分為四個階段:

  • 原始階段,數(shù)據(jù)平臺主要是圍繞報表平臺建設,當時落地了初級的權限管理;權限模型基于 RBAC;安全能力處于 2A 級,包括鑒權、申請權限等,整體相對原始。
  • 發(fā)展階段,引入了 RPAC 權限模型,增強了權限控制,并擴展系統(tǒng)覆蓋,涵蓋了引擎類系統(tǒng)(如 Hive)。
  • 精細化建設階段,引入了行級權限(PRBC),實現(xiàn)了更精細的權限控制;加強租戶數(shù)據(jù)隔離,保障數(shù)據(jù)安全;迭代安全能力,達到 4A 級別,完善了認證體系以及全鏈路審計。
  • 數(shù)據(jù)合規(guī)建設階段,聚焦隱私數(shù)據(jù)保護,引入加解密脫敏、安全隔離艙等能力,實現(xiàn)了 5A 級能力;系統(tǒng)覆蓋擴展至 Druid、CK、Kafka、HDFS 等平臺;持續(xù)推進數(shù)據(jù)合規(guī)建設,保障數(shù)據(jù)安全。

2. 建設思路

圖片

安全平臺建設思路圍繞以下三個方面展開:

  • 全域覆蓋,涵蓋存儲引擎、中臺系統(tǒng)(如生產(chǎn)平臺、分析平臺)、分析決策平臺等系統(tǒng)。
  • 全能力建設,基于 5A 方法論,構建認證、授權、訪問控制、資源保護、審計等全方位安全能力。
  • 全生命周期管控,事前重點關注隱私數(shù)據(jù)合規(guī)性,通過數(shù)據(jù)安全打標、隱私數(shù)據(jù)打標等措施,加強數(shù)據(jù)加密和權限控制;事中關注認證鑒權穩(wěn)定性;事后基于審計日志,構建安全態(tài)勢感知能力,識別異常訪問行為,制定風險策略,保障數(shù)據(jù)安全。

3. 系統(tǒng)架構

圖片

系統(tǒng)采用多層架構,包括:

  • 應用層:面向用戶,提供應用服務。
  • 安全平臺核心層:包含插件層、接口層、服務層和存儲層。
  • 依賴層:提供外部依賴,如租戶賬號體系和資源體系。

核心層包含以下模塊:

  • 插件層:滿足不同引擎的特點,實現(xiàn)權限鑒權。
  • 接口層:提供 HTTP 和 RPC 接口,面向中臺應用和開發(fā)平臺。
  • 服務層:統(tǒng)一接入資源和賬號,提供權限授予和管理服務。
  • 存儲層:自動緩存和加速數(shù)據(jù),提高訪問效率。

為保障系統(tǒng)高可用和高性能,該系統(tǒng)提供了完善的監(jiān)控、告警、降級、容錯預案、演練限流等保障措施。

4. 關鍵技術 – 認證體系

圖片

認證體系旨在驗證用戶的身份。在設計認證體系時,我們面臨以下挑戰(zhàn):

  • 輕量化:避免對現(xiàn)有系統(tǒng)造成較大影響。
  • 本地化:與組織體系相結合。
  • 易演化:滿足未來國際化探索等新的業(yè)務需求。

我們借鑒業(yè)界成熟方案,自研了一套基于三方無密鑰傳輸?shù)恼J證體系。認證過程包含三次網(wǎng)絡通信:客戶端身份驗證、獲取有效期內(nèi)訪問令牌、后臺服務令牌驗證。認證體系包含以下關鍵點:

  • 賬號體系:包括個人賬號和組賬號。
  • 令牌類型:包括常規(guī)訪問令牌、代理訪問令牌和降級令牌。
  • 降級令牌機制:確保在密鑰分發(fā)中心異常時,不影響當前訪問。

5. 關鍵技術 – 權限模型

圖片

權限模型用于控制用戶對資源的訪問權限。業(yè)界常見的權限模型包括:

  • 訪問控制列表 (ACL):直接建立用戶和資源之間的關系,每次訪問時檢查用戶是否有權限。
  • 基于角色的訪問控制 (RBAC):引入角色的概念,角色與資源綁定,用戶通過加入角色繼承權限。
  • 基于策略的訪問控制 (PBAC):引入策略概念,根據(jù)主體的屬性、環(huán)境或客體的屬性綜合判斷訪問權限。
  • 基于屬性的訪問控制 (ABAC):與 PBAC 類似,但更強調(diào)屬性在訪問控制中的作用。

快手由于資源復雜、賬號體系本地化等特點,結合 RBAC 和 PBAC 自研了基于策略的角色訪問控制 (PRBAC) 模型。PRBAC 模型以策略為核心,涵蓋以下四個方面:

  • 主體:自定義用戶組、租戶賬號。
  • 資源:統(tǒng)一標識符 (UIN),由公司域、資源域和唯一 ID 組成。
  • 動作:讀、寫等常見動作。
  • 條件:行級權限的關鍵所在,根據(jù) SQL 查詢中的 WHERE 條件判斷訪問權限。

6. 關鍵技術 – 統(tǒng)一鑒權

圖片

鑒權體系可分為兩類:

  • 應用系統(tǒng)類:QPS 較低,延遲容忍度較高,與快手體系結合良好,可直接集成中間件框架和訪問遠程鑒權服務。
  • 大數(shù)據(jù)引擎類:與大數(shù)據(jù)框架結合較少,基于開源引擎改造,提供鑒權插件,根據(jù)引擎特性選擇本地或遠程鑒權模式。

對于鑒權核心服務,包括:

  • 自動化刷新器:增量或全量加載數(shù)據(jù)。
  • 本地數(shù)據(jù)緩存:異常后快速恢復。
  • 鑒權引擎:權限模型和策略規(guī)則計算,從而實現(xiàn)靈活的鑒權規(guī)則判斷。

7. 關鍵技術 – 全鏈路審計日志

圖片

全鏈路審計旨在追蹤數(shù)據(jù)泄露的源頭,包括生產(chǎn)系統(tǒng)、應用系統(tǒng)、Hive 引擎、HDFS Server 等環(huán)節(jié)。審計基于上游數(shù)據(jù)源,實時收集資產(chǎn)操作日志、訪問日志和下載日志。審計日志經(jīng)過轉換處理,例如展開 Hive 上下文,便于后續(xù)審計。審計日志用于清查和策略構建,如審批日志策略。全鏈路審計的特點包括:

  • 全鏈路覆蓋
  • 融合血緣信息
  • 審計格式統(tǒng)一
  • 支持實時風險告警

三、治理實踐

接下來將具體介紹快手數(shù)據(jù)治理實踐中的重點問題和解決方案。

1. 數(shù)據(jù)分類分級

圖片

首先要介紹的是分類分級。分類分級旨在將數(shù)據(jù)按敏感性劃分為不同級別,優(yōu)先處理高敏感數(shù)據(jù)。

  • 分類:原先融合在一起的數(shù)據(jù)現(xiàn)已區(qū)分開,隱私數(shù)據(jù)單獨列出。通用數(shù)據(jù)和隱私數(shù)據(jù)均按公開級別分級,通用數(shù)據(jù)分為 C1 至 C4 級(公開級、內(nèi)部級、機密級、原密級),隱私數(shù)據(jù)分為 P1 至 P4 級。
  • 分級:分級后,不同敏感級別的數(shù)據(jù)將采取不同的保護措施。例如,C4 級和 P4 級數(shù)據(jù)將采用更嚴格的審批流程,涉及部門負責人和二級部門負責人審批。此外,這些數(shù)據(jù)在存儲時將采取加密或脫敏等保護措施。

數(shù)據(jù)分類分級遵循以下原則:

  • 升級原則:如果表中存在敏感信息,則整表按最高標準處理。
  • 降級原則:數(shù)據(jù)脫敏或匿名化后,可降低其敏感級別。

圖片

數(shù)據(jù)分類分級流程分為三個階段:

  • 元數(shù)據(jù)采集:通過元數(shù)據(jù)中臺自動采集外部平臺的數(shù)據(jù)源、數(shù)據(jù)表變更信息,并存儲至元數(shù)據(jù)中心和圖庫中。
  • 基于元數(shù)據(jù),采用以下三種方式進行自動化識別,其中,血緣識別:分析表血緣、任務血緣等,識別敏感字段并進行打標。算法檢測:使用算法檢測特定數(shù)據(jù)類型,如銀行卡號。規(guī)則模板匹配:匹配內(nèi)置的個人信息識別規(guī)則模板,如姓名、手機號、銀行卡號等。
  • 數(shù)據(jù)大盤分析,識別后,將數(shù)據(jù)推送給用戶進行二次確認和打標。同時,提供事后資產(chǎn)大盤,幫助用戶從個人、組織、部門等視角審查資產(chǎn)分布情況。

2. 數(shù)據(jù)引擎安全

圖片

數(shù)據(jù)引擎安全存在以下問題:

  • 內(nèi)部規(guī)范方面:早期缺乏賬號體系和租戶賬號體系;資產(chǎn)歸屬不明確,安全責任不清。
  • 安全能力方面:缺乏身份認證信息,缺少安全審計和溯源能力,權限管控缺失。
  • 運營治理方面:無法定位真實訪問用戶,阻礙推動工作;多個團隊使用多個平臺,協(xié)作困難。

圖片

針對數(shù)據(jù)引擎安全問題,我們制定了以下解決方案:

  • 規(guī)范方面:落實賬號體系和認證體系。明確管理角色職責,包括租戶管理員和安全接口人的審批權限。
  • 工具方面:引入精細化權限管控,如行列級權限。優(yōu)化鑒權模式,根據(jù)引擎層級進行分層認證。
  • 治理方面:成立專門工作組,針對每個引擎推進治理工作。采用二八原則,重點關注頭部平臺。采取靈活的封禁策略,逐步推進平臺改造。

3. 敏感數(shù)據(jù)保護

圖片

敏感數(shù)據(jù)保護治理面臨以下挑戰(zhàn):

  • 法律法規(guī)差異:不同國家對敏感數(shù)據(jù)的要求不盡相同,需要仔細研究相關法律法規(guī)。
  • 集中管控:敏感數(shù)據(jù)應與通用數(shù)據(jù)分開管理,以便于安全管理和風險預警。
  • 成本與效率:將敏感數(shù)據(jù)從通用數(shù)據(jù)中分離會涉及不同鏈路的改造,需要綜合考慮成本和效率。

各改造的成本和效率存在差異,需要綜合考量。改造涉及以下方面:

  • 數(shù)據(jù)入倉:加強識別和自動脫敏。
  • 數(shù)據(jù)加工:注重敏感數(shù)據(jù)審批。

圖片

在敏感數(shù)據(jù)保護解決方案中,為解決敏感數(shù)據(jù)保護挑戰(zhàn),我們重點引入了安全隔離倉的概念:

  • 安全隔離倉:虛擬概念,用于隔離包含敏感信息的外部數(shù)據(jù)源。
  • 加密和隔離:識別包含敏感信息的外部數(shù)據(jù)源后,自動加密并將其放置在安全隔離倉中。

此外,我們還采取了以下措施:

  • 規(guī)范建設:研究不同國家法律法規(guī),定義敏感信息類型、脫敏方式和要求。
  • 工具建設:開發(fā)數(shù)據(jù)識別、文件字段加密和脫敏工具。
  • 數(shù)據(jù)保護措施:實施字段級權限管控、嚴格審批流程等數(shù)據(jù)保護措施。
  • 增量處理:定期掃描識別新出現(xiàn)的敏感信息,推動用戶治理和落地。

通過上述措施,我們建立了全面的敏感數(shù)據(jù)保護體系,確保敏感數(shù)據(jù)得到有效保護。

四、成果和規(guī)劃

1. 成果總結

圖片

自建設以來,快手大數(shù)據(jù)安全體系已在 30 余個系統(tǒng)中落地實施,資源規(guī)模達到千萬級,日均申請量達到千級,覆蓋了 C2 至 C4 及 P4 等審批流。應用范圍涵蓋多個層面,包括 Web 系統(tǒng)、認證鑒權等服務。整體運行穩(wěn)定,未出現(xiàn)重大故障。有效保障了數(shù)據(jù)安全,提升了數(shù)據(jù)治理水平。

2. 未來規(guī)劃

圖片

未來規(guī)劃主要包括以下幾個方面:

  • 覆蓋度提升:推動底層引擎使用方 100% 接入認證和鑒權;完善 HDFS 上層使用方的認證和鑒權接入。
  • 態(tài)勢感知增強:分析數(shù)據(jù)資產(chǎn)分布和敏感數(shù)據(jù)訪問行為;檢測數(shù)據(jù)異常行為。
  • 新技術探索:探索增強型數(shù)據(jù)保護技術,如增強隱私數(shù)據(jù)保護、多方安全檢測等;研究 data fabric 等新思路,實現(xiàn)數(shù)據(jù)可用但不可見。
  • 智能化提升:利用大模型和機器學習算法提升數(shù)據(jù)分類分級和敏感數(shù)據(jù)識別準確性;探索智能化數(shù)據(jù)治理手段。

通過以上工作,保障敏感數(shù)據(jù)的保護,為企業(yè)數(shù)據(jù)安全保駕護航。

五、問答環(huán)節(jié)

Q1:關于令牌化數(shù)據(jù)入湖處理:如何處理已令牌化的實時數(shù)據(jù)庫數(shù)據(jù)入湖?

A1:入湖時,識別令牌化數(shù)據(jù)的敏感性。如果數(shù)據(jù)僅用于建模,則無需額外處理。否則,根據(jù)數(shù)據(jù)脫敏規(guī)范進行脫敏處理,確保數(shù)據(jù)安全。

Q2:關于跨部門數(shù)據(jù)權限申請:快手如何劃分數(shù)據(jù)權責歸屬?

A2:權限申請分為不同級別:

  • 普通數(shù)據(jù):權限負責人審批。
  • 重要數(shù)據(jù)(如 C4):權限負責人、二級部門負責人審批。
  • 非常重要數(shù)據(jù):權限負責人、二級部門負責人、一級部門負責人審批。

申請方式包括個人名義和組名義,權限有效期過后可續(xù)簽或升級。

Q3:關于大數(shù)據(jù)平臺行級記錄刪除:快手如何支持隱私合規(guī)下的行級記錄刪除?

A3:全鏈路刪除數(shù)據(jù),包括業(yè)務庫和下游數(shù)據(jù)。Hive 分區(qū)文件:不適合行級刪除,成本高。建議采用 Hudi 引擎:支持行級增刪改,性能較好。其刪除的具體流程如下:

  • 用戶提出數(shù)據(jù)刪除請求。
  • 系統(tǒng)驗證請求合法性。
  • 啟動全鏈路數(shù)據(jù)刪除流程。
  • 業(yè)務庫刪除對應數(shù)據(jù)。
  • Hudi 引擎刪除對應行級數(shù)據(jù)。
  • 其他下游系統(tǒng)同步刪除對應數(shù)據(jù)。
責任編輯:姜華 來源: DataFunTalk
相關推薦

2024-02-22 08:51:46

大數(shù)據(jù)白盒化治理數(shù)據(jù)治理

2024-01-11 08:15:52

大數(shù)據(jù)成本治理Hadoop

2024-03-26 06:46:52

大數(shù)據(jù)數(shù)據(jù)治理大數(shù)據(jù)資產(chǎn)治理

2023-08-07 08:40:24

2024-10-15 08:14:51

2021-05-21 16:26:46

數(shù)據(jù)安全治理

2024-03-19 09:24:00

大數(shù)據(jù)數(shù)據(jù)分析性能優(yōu)化

2019-05-31 12:03:06

SQLHadoop大數(shù)據(jù)

2024-04-30 08:05:53

2013-04-27 10:35:09

大數(shù)據(jù)全球峰會大數(shù)據(jù)安全

2015-07-06 10:59:11

2013-04-23 14:36:54

2023-01-31 15:27:13

數(shù)據(jù)治理數(shù)據(jù)管理

2016-08-12 00:04:44

大數(shù)據(jù)交通

2019-08-24 11:25:49

2024-06-04 07:29:13

2023-04-07 07:31:17

渠道數(shù)據(jù)

2017-06-12 10:31:54

大數(shù)據(jù)智慧法院人民法院

2023-04-10 07:34:30

點贊
收藏

51CTO技術棧公眾號