自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AAAI 2025|Portcullis —— 面向第三方大型語(yǔ)言模型的可信隱私保護(hù)網(wǎng)關(guān)

人工智能
在大模型浪潮的推動(dòng)下,企業(yè)和個(gè)人的數(shù)據(jù)安全面臨前所未有的挑戰(zhàn)。抖音集團(tuán)安全研究團(tuán)隊(duì)推出Portcullis ——針對(duì)大模型的隱私保護(hù)網(wǎng)關(guān),旨在為第三方大型語(yǔ)言模型(LLM)推理服務(wù)提供可控可信的隱私防護(hù)。

在大模型浪潮的推動(dòng)下,企業(yè)和個(gè)人的數(shù)據(jù)安全面臨前所未有的挑戰(zhàn)。抖音集團(tuán)安全研究團(tuán)隊(duì)推出Portcullis ——針對(duì)大模型的隱私保護(hù)網(wǎng)關(guān),旨在為第三方大型語(yǔ)言模型(LLM)推理服務(wù)提供可控可信的隱私防護(hù)。該工作成果 《Portcullis : A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference》已被人工智能領(lǐng)域的頂級(jí)會(huì)議AAAI 2025以O(shè)ral報(bào)告的形式接收。本屆AAAI 2025共有12957篇有效投稿,錄用3032篇,錄取率為23.4%。其中Oral占比4.6%。

?

一、研究背景

大型語(yǔ)言模型(LLM)能夠在各種任務(wù)和查詢中提供高質(zhì)量的響應(yīng)。不是所有公司都擁有具備高性能和強(qiáng)大穩(wěn)定性的LLM,因此第三方LLM常被用來(lái)增強(qiáng)其服務(wù),如OpenAI的ChatGPT。然而,使用第三方LLM引入了顯著的隱私問(wèn)題。比如,蘋果的智能云計(jì)算利用私有云計(jì)算來(lái)托管LLM,雖然提升了性能,但仍可能存在將敏感信息暴露給第三方LLM的風(fēng)險(xiǎn)。

為了解決LLM中的隱私問(wèn)題,先前的研究開發(fā)了一些技術(shù),如對(duì)預(yù)訓(xùn)練的LLM進(jìn)行微調(diào),以處理加密的提示,從而在不重構(gòu)底層模型的情況下保護(hù)隱私。此外,還使用了數(shù)據(jù)匿名化、差分隱私(DP)、安全多方計(jì)算(SMPC)和混合加密方法等技術(shù)來(lái)防止數(shù)據(jù)泄露。然而,這些方法需要對(duì)第三方LLM進(jìn)行修改,這對(duì)于像OpenAI這樣的封閉源模型是不可能的。修改還可能影響它們的結(jié)果準(zhǔn)確性。此外,這些方式增加了部署和操作的復(fù)雜性和開銷,導(dǎo)致首次生成令牌的時(shí)間和每個(gè)輸出令牌的時(shí)間增加。

在我們與清華大學(xué)聯(lián)合發(fā)表于AAAI 2025的論文《Portcullis : A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference》中,我們介紹了一種創(chuàng)新的可信的隱私保護(hù)網(wǎng)關(guān),Portcullis 無(wú)需修改第三方大型語(yǔ)言模型(LLM),即可實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的保護(hù)。與以往的技術(shù)相比,Portcullis 特別解決了敏感信息識(shí)別的上下文依賴問(wèn)題。例如,“Ronald Regan”是某app的使用者,對(duì)這個(gè)app來(lái)說(shuō)是敏感信息,但是在指代Ronald Reagan Airport時(shí),“Ronald Regan”這一名稱并不敏感。Portcullis允許用戶通過(guò)內(nèi)置的命名實(shí)體識(shí)別(NER)插件添加額外的上下文信息,從而提高數(shù)據(jù)處理的精確性。這種方法極大增強(qiáng)了系統(tǒng)在處理上下文敏感信息時(shí)的靈活性和準(zhǔn)確性。此外,Portcullis 結(jié)合了可信執(zhí)行環(huán)境(TEE)技術(shù),確保所有數(shù)據(jù)均在加密的內(nèi)存中處理,并通過(guò)認(rèn)證機(jī)制保障數(shù)據(jù)完整性。它對(duì)容器可能執(zhí)行的操作進(jìn)行嚴(yán)格的審查和認(rèn)證,涵蓋了設(shè)備裝載/卸載、用戶輸入處理、與第三方LLM的接口交互及響應(yīng)管理等,保證了網(wǎng)關(guān)本身不會(huì)泄露用戶信息。

圖片

二、Portcullis

Portcullis 的核心在于其雙層架構(gòu):基礎(chǔ)設(shè)施層和應(yīng)用層。

  • 在基礎(chǔ)設(shè)施層,Portcullis 利用可信執(zhí)行環(huán)境(TEE)技術(shù),尤其是Intel TDX技術(shù),來(lái)生成認(rèn)證報(bào)告,確保容器組的完整性和安全策略從啟動(dòng)時(shí)就得到遵守。Portcullis 的認(rèn)證機(jī)制嚴(yán)格驗(yàn)證這些步驟的安全性和完整性,增強(qiáng)了系統(tǒng)的信任度和透明度。
  • 此外,Portcullis 在應(yīng)用層整合了高級(jí)的隱私控制組件,利用機(jī)器學(xué)習(xí)和模式匹配技術(shù)檢測(cè)數(shù)據(jù)中的敏感信息,并將其替換為占位符。Portcullis 在向用戶交付響應(yīng)之前,能夠從被掩蓋的版本中恢復(fù)原始數(shù)據(jù),確保數(shù)據(jù)恢復(fù)過(guò)程保持原始信息的完整性。這一處理方式使得Portcullis 在提供高效和精確的隱私保護(hù)的同時(shí),還支持?jǐn)?shù)據(jù)的安全存儲(chǔ)和恢復(fù),有效地平衡了隱私保護(hù)和數(shù)據(jù)實(shí)用性之間的關(guān)系。

「應(yīng)用層:」

圖片

如上圖所示, Portcullis 在處理用戶請(qǐng)求時(shí),首先通過(guò)應(yīng)用協(xié)助用戶生成自我介紹。應(yīng)用根據(jù)之前收集的用戶上下文信息,生成包含可能敏感數(shù)據(jù)的原始文本(Raw Prompt)。這段文本隨后被發(fā)送到Portcullis 中,Portcullis 使用模式匹配和機(jī)器學(xué)習(xí)技術(shù)—包括「NER系統(tǒng)」, 和「敏感數(shù)據(jù)數(shù)據(jù)庫(kù)」—來(lái)識(shí)別并屏蔽敏感信息,例如姓名、電子郵件地址和居住地點(diǎn),替換成「占位符」。

  1. 「隱私數(shù)據(jù)的分類:」 Portcullis 不僅關(guān)注常見(jiàn)的個(gè)人識(shí)別信息(PII),還擴(kuò)展到其它關(guān)鍵敏感信息,如企業(yè)內(nèi)部信息或政治數(shù)據(jù)。例如,“Ronald Regan”這一名字在不同的上下文中敏感性各異,Portcullis通過(guò)用戶標(biāo)記的敏感數(shù)據(jù)數(shù)據(jù)庫(kù)來(lái)識(shí)別特定上下文中的相關(guān)內(nèi)容,從而最小化誤報(bào)和漏報(bào)。
  2. 「模式匹配:」 Portcullis 使用正則表達(dá)式、內(nèi)部NER、Presidio 和 BERT-NER等工具來(lái)有效識(shí)別和分類常見(jiàn)的敏感信息類型。通過(guò)緩存層加速處理過(guò)程,該緩存層能夠快速識(shí)別并處理先前遇到的敏感實(shí)體,克服了逐個(gè)令牌匹配的低效問(wèn)題。
  3. 「數(shù)據(jù)屏蔽和恢復(fù):」 一旦檢測(cè)到敏感信息,Portcullis 采用多種策略來(lái)替換敏感信息,保護(hù)隱私同時(shí)保持提示的上下文完整性。這包括使用非特定占位符進(jìn)行代替(如用[NAME]或[ADDRESS]替換具體姓名或地址),以及偽名化和生成合成數(shù)據(jù)等手段。在LLM處理屏蔽后的提示并生成響應(yīng)后,Portcullis通過(guò)一個(gè)加密的Redis集群恢復(fù)原始數(shù)據(jù)關(guān)聯(lián),確保用戶接收到的響應(yīng)恢復(fù)原始數(shù)據(jù)的完整性和準(zhǔn)確性。

經(jīng)過(guò)處理的文本(Masked Prompt)保留了原文的上下文結(jié)構(gòu),同時(shí)去除了敏感內(nèi)容,這樣的文本被安全地送入第三方大型語(yǔ)言模型(如GPT-4或ChatGPT)進(jìn)行處理,生成包含占位符的回答。Portcullis 最終通過(guò)其加密的Redis鍵值存儲(chǔ)系統(tǒng)將所有占位符恢復(fù)為原始敏感數(shù)據(jù),以確保返回給用戶的最終結(jié)果(Restored Result)既保護(hù)了隱私又保持了信息的完整性和準(zhǔn)確性。這種流程確保用戶在接收到最終生成的自我介紹時(shí),能夠看到一個(gè)涵蓋原始個(gè)人信息的完整畫像,而不是被替換過(guò)的占位信息。

「基礎(chǔ)設(shè)施層:」

圖片

我們?cè)贙ubernetes環(huán)境中部署Portcullis,過(guò)程從Kubelet啟動(dòng)并通過(guò)Containerd與Kata-runtime協(xié)作創(chuàng)建Pod和容器開始。此階段包括從容器鏡像庫(kù)中下載集成了隱私保護(hù)功能的Portcullis鏡像。在部署過(guò)程中,Image Agent和Attestation Agent承擔(dān)關(guān)鍵角色,負(fù)責(zé)執(zhí)行安全策略審查和認(rèn)證確認(rèn),以確保鏡像的安全性和完整性得到維護(hù)。所有敏感數(shù)據(jù)處理活動(dòng)均在Trusted Execution Environment(TEE)虛擬機(jī)內(nèi)完成,該環(huán)境提供了隔離的執(zhí)行空間,從而加強(qiáng)了數(shù)據(jù)的安全防護(hù)。系統(tǒng)的依賴方將審核這些安全策略和認(rèn)證結(jié)果,以驗(yàn)證所有操作均符合既定的安全標(biāo)準(zhǔn)。

在Portcullis的設(shè)計(jì)中,專門考慮了傳統(tǒng)云基礎(chǔ)設(shè)施在支持大型模型時(shí)的三個(gè)主要安全風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)包括:1. 虛擬化平臺(tái)的漏洞被攻擊者利用,從而從虛擬機(jī)(VM)逃逸,控制宿主機(jī)并可能危及其他VM。2. 云服務(wù)提供商(CSP)管理容器資源(如掛載卷)的能力被濫用,他們可能通過(guò)這種控制來(lái)操縱數(shù)據(jù),替換為受損版本,訪問(wèn)敏感信息或注入惡意代碼。3. 容器內(nèi)運(yùn)行的軟件的漏洞,例如SQL注入或XSS,可能成為敏感數(shù)據(jù)泄露的點(diǎn)。單獨(dú)保護(hù)容器是不夠的;需要綜合的安全措施來(lái)同時(shí)應(yīng)對(duì)基礎(chǔ)設(shè)施和應(yīng)用層面的漏洞。

Portcullis 通過(guò)以下方式解決了這些問(wèn)題:

  • 「增強(qiáng)數(shù)據(jù)保密性」:Portcullis 通過(guò)加密內(nèi)存處理所有數(shù)據(jù),并通過(guò)認(rèn)證確保數(shù)據(jù)完整性。
  • 「容器驗(yàn)證與監(jiān)控」:Portcullis 只允許經(jīng)過(guò)驗(yàn)證的容器執(zhí)行,持續(xù)監(jiān)控任何可能影響部署或損害遠(yuǎn)程認(rèn)證完整性的篡改行為。如上圖所示,Portcullis 確保容器根文件系統(tǒng)對(duì)CSP威脅安全。Portcullis 實(shí)施了租戶定義的執(zhí)行策略,規(guī)定了Portcullis 代理可以執(zhí)行的操作,包括裝載/卸載設(shè)備、處理用戶輸入、與第三方LLM接口以及管理響應(yīng)。所有操作都以可驗(yàn)證的方式報(bào)告。
  • 「軟件漏洞防護(hù)」:為了防范SQL注入或XSS等常見(jiàn)威脅,Portcullis 集成了Bandit,這是一個(gè)為Python代碼庫(kù)量身定制的靜態(tài)分析工具。Bandit構(gòu)建了一個(gè)抽象語(yǔ)法樹(AST),并使用一系列安全插件徹底檢查AST,有效識(shí)別并處理包括SQL注入和硬編碼密碼等78種安全問(wèn)題。

通過(guò)這些措施,Portcullis 不僅保證了操作的安全性和可信性,也確保了在應(yīng)用生命周期內(nèi)政策的完整性和可驗(yàn)證性,為用戶提供了一個(gè)既安全又高效的隱私保護(hù)解決方案。

三、實(shí)驗(yàn)結(jié)果

?

「實(shí)驗(yàn)環(huán)境:」 我們使用Intel? Xeon? Scalable Processor (Sapphire Rapids),使用Kubernetes v1.28.2、QEMU 8.1.4、Debian 12 和 Linux版本 5.15.120 進(jìn)行實(shí)驗(yàn)。Portcullis 與其他隱私保護(hù)方案,如Hide and Seek和Infer-DPT進(jìn)行了對(duì)比測(cè)試。實(shí)驗(yàn)考察了Portcullis 在處理數(shù)據(jù)隱私、系統(tǒng)延時(shí)和擴(kuò)展性方面的表現(xiàn),還測(cè)試了其在識(shí)別和處理敏感信息方面的效率和準(zhǔn)確性。通過(guò)這些對(duì)比,Portcullis 展現(xiàn)了其在隱私保護(hù)和數(shù)據(jù)處理效率方面的顯著優(yōu)勢(shì),尤其是在保持響應(yīng)準(zhǔn)確性和處理速度方面超越了現(xiàn)有解決方案。

?

  1. 「啟動(dòng)延時(shí)和可擴(kuò)展性」

圖片

Portcullis 在多實(shí)例并發(fā)啟動(dòng)時(shí)展現(xiàn)出了良好的可擴(kuò)展性。實(shí)驗(yàn)中,從1個(gè)到24個(gè)容器實(shí)例的啟動(dòng)延時(shí)呈線性增長(zhǎng),這證明了Portcullis 在處理大規(guī)模部署時(shí)的效率和穩(wěn)定性。

  1. 「運(yùn)行時(shí)延時(shí)」

圖片

在運(yùn)行時(shí)性能測(cè)試中,Portcullis 在數(shù)據(jù)掩碼和LLM處理中的總延時(shí)非常低,平均增加的處理時(shí)間僅為1.33%。這說(shuō)明Portcullis 的數(shù)據(jù)處理和脫敏機(jī)制對(duì)于LLM的響應(yīng)時(shí)間影響極小,能夠在保護(hù)隱私的同時(shí),維持高效的查詢響應(yīng)速度。

  1. 「隱私數(shù)據(jù)識(shí)別和掩碼的有效性」

圖片

在PII數(shù)據(jù)集上的測(cè)試顯示,Portcullis 在識(shí)別和掩碼處理敏感信息方面表現(xiàn)出色,其錯(cuò)誤正面率(False Positive Rate)和錯(cuò)誤反面率(False Negative Rate)都優(yōu)于現(xiàn)有的隱私保護(hù)方案。尤其是在復(fù)雜的數(shù)據(jù)掩碼配置中,Portcullis 的性能超過(guò)了競(jìng)爭(zhēng)方案,如Hide and Seek,其全匹配命中率顯著提高。

  1. 「響應(yīng)精度」

圖片

通過(guò)計(jì)算cosine相似度來(lái)評(píng)估響應(yīng)的準(zhǔn)確性,Portcullis 在處理掩碼后的提示請(qǐng)求時(shí),能夠保持與原始數(shù)據(jù)相似的高質(zhì)量LLM響應(yīng)。在不同的數(shù)據(jù)集和模型測(cè)試中,Portcullis 所生成的LLM響應(yīng)與未經(jīng)掩碼的原始響應(yīng)在語(yǔ)義上保持高度一致,證明了其在保護(hù)隱私的同時(shí),不犧牲響應(yīng)的質(zhì)量和準(zhǔn)確性。

四、總結(jié)與展望

「敏感詞識(shí)別——LLM 時(shí)代下數(shù)據(jù)安全的關(guān)鍵挑戰(zhàn):」 在高速發(fā)展的 LLM 系統(tǒng)中,所有交互和處理都基于自然語(yǔ)言(提示詞),使得文本成為這一時(shí)代最核心的數(shù)據(jù)要素。然而,并非所有文本都涉及隱私或安全問(wèn)題,因此,在海量數(shù)據(jù)中精準(zhǔn)識(shí)別真正的“敏感信息”已成為 LLM 時(shí)代的重要挑戰(zhàn)。Portcullis 在這一問(wèn)題上突破了傳統(tǒng)技術(shù)的局限,特別針對(duì)數(shù)據(jù)敏感性識(shí)別的上下文依賴性提出了解決方案。此外,Portcullis 允許用戶通過(guò)內(nèi)置的命名實(shí)體識(shí)別(NER)插件引入額外的上下文信息,從而顯著提升識(shí)別的精確性和靈活性,并為 LLM 系統(tǒng)的未來(lái)安全機(jī)制提供了重要的技術(shù)思路。

「高安全可信執(zhí)行與加密數(shù)據(jù)處理:」 Portcullis借助抖音集團(tuán)安全研究團(tuán)隊(duì)的 Jeddak PCC (Private Cloud Compute)能力,不僅確保所有數(shù)據(jù)在加密的內(nèi)存中安全處理,還通過(guò)認(rèn)證機(jī)制加強(qiáng)了數(shù)據(jù)完整性的保護(hù)。它對(duì)容器可能執(zhí)行的操作進(jìn)行嚴(yán)格的審查和認(rèn)證,包括設(shè)備裝載/卸載、用戶輸入處理、與第三方LLM的接口交互及響應(yīng)管理等,確保了整個(gè)操作過(guò)程的可信性和安全性。保證了 Portcullis 本身不會(huì)泄露用戶信息。

「輕量高效——LLM時(shí)代下安全設(shè)計(jì)的必備準(zhǔn)則:」 當(dāng)前 LLM 推理服務(wù)需要面臨極高的性能要求和處理多樣化請(qǐng)求的需求,因此,任何附加的安全機(jī)制都必須在盡可能避免影響推理效率的基礎(chǔ)上確保安全性,否則將嚴(yán)重削弱系統(tǒng)的可用性。Portcullis 支持智能適配不同類型隱私保護(hù)策略,并將計(jì)算開銷降至最低,從而確保在強(qiáng)化安全防護(hù)的同時(shí),不影響 LLM 服務(wù)的流暢運(yùn)行,也便于集成到其他現(xiàn)有系統(tǒng)中。

「未來(lái)展望:」 隨著技術(shù)的進(jìn)一步發(fā)展和市場(chǎng)需求的不斷擴(kuò)大,Portcullis 有望成為推動(dòng)企業(yè)安全應(yīng)用創(chuàng)新的關(guān)鍵技術(shù)。未來(lái),我們計(jì)劃繼續(xù)優(yōu)化Portcullis 的性能,擴(kuò)展其功能,以適應(yīng)更多復(fù)雜的應(yīng)用場(chǎng)景和數(shù)據(jù)類型,以實(shí)現(xiàn)更全面, 更可信的數(shù)據(jù)安全和隱私保護(hù)解決方案。

責(zé)任編輯:龐桂玉 來(lái)源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2024-01-05 17:29:32

2015-11-05 16:44:37

第三方登陸android源碼

2010-05-25 10:30:41

Twitter

2017-12-11 15:53:56

2014-07-23 08:55:42

iOSFMDB

2019-07-30 11:35:54

AndroidRetrofit庫(kù)

2019-03-19 08:53:32

WiFi探針app數(shù)據(jù)泄露

2017-05-16 13:24:02

LinuxCentOS第三方倉(cāng)庫(kù)

2014-07-25 09:33:22

2019-09-03 18:31:19

第三方支付電商支付行業(yè)

2009-12-31 14:38:34

Silverlight

2016-10-21 14:09:10

2017-11-01 06:40:33

2011-10-08 14:37:59

漏洞

2019-09-02 14:59:41

蘋果維修設(shè)備

2022-01-14 09:57:14

鴻蒙HarmonyOS應(yīng)用

2009-01-14 12:45:05

MSNIM蘋果

2014-07-22 10:56:45

Android Stu第三方類庫(kù)

2021-09-26 10:43:08

注冊(cè)Istio集成

2013-08-12 16:04:19

第三方移動(dòng)應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)