從“源頭”保護數(shù)據(jù)安全:騰訊安全推出大模型隱私保護脫敏技術(shù)
大模型已經(jīng)被廣泛應用在各類場景,幫助人們進行報告摘要、文本翻譯、數(shù)據(jù)分析、業(yè)務風控等各項工作,極大地提升了工作效率,但同時公眾對于大模型帶來的數(shù)據(jù)泄露的隱憂也從未停止。
近日,騰訊安全玄武實驗室披露了一項關(guān)于大模型隱私保護的安全脫敏與還原(Hide and Seek, HaS)技術(shù),有望幫助大模型產(chǎn)品使用者從本地終端側(cè)防范隱私數(shù)據(jù)泄露。
HaS為業(yè)內(nèi)首個支持信息還原的自由文本脫敏技術(shù),通過對用戶上傳給大模型的prompt(提示詞)進行隱私信息脫敏,并在大模型返回計算結(jié)果后進行恢復,該方案兼顧了隱私安全和計算資源消耗:脫敏與還原算法經(jīng)過4bit量化后權(quán)重文件僅500MB,可在手機、 PC等終端上部署。
這是業(yè)內(nèi)首個公開發(fā)布的、能被大模型用戶部署于終端側(cè)的隱私保護脫敏技術(shù)。借助這一技術(shù),用戶可以從“源頭”免除使用云端大模型帶來的數(shù)據(jù)泄露方面的擔憂。
據(jù)悉,這個模型主要適用于典型的NLP任務場景,例如機器翻譯、文本摘要,文本潤色、閱讀理解、文本分類、情感分析等,其主要的技術(shù)難點在于如何解決實體識別與替換、實體指代消解、多義詞識別、自糾錯魯棒性還原、實體翻譯等。此前,不少大模型提供方以及專業(yè)安全廠商均在積極進行相關(guān)的嘗試,但目前尚未有理想的解決方案。
“在大模型應用中提示詞是一種自由文本,而針對自由文本的隱私保護問題,一種全密態(tài)的解決方案是通過安全多方計算(Multi-Party Computation, MPC)協(xié)議實現(xiàn)安全推理。然而,MPC協(xié)議在計算成本和通信量上的高需求嚴重限制了其在大模型應用中的落地?!彬v訊安全玄武實驗室高級安全工程師陳昱表示,“實際上,多數(shù)場景下用戶并不需要保護整句的信息不泄漏,而僅需要保護其中的隱私實體不泄漏?!毙鋵嶒炇医?jīng)過正則匹配、近義詞向量、BERT NER+CR等方法的不斷探索試錯后,最終提出了這項技術(shù)。
實驗表明,HaS的數(shù)據(jù)脫敏處理并不會對任務造成影響。在使用模型進行隱私保護與直接調(diào)用大模型相比“分類任務”與“翻譯任務”兩個場景的性能對比,在使用560M生成式方案下,文本分類任務的性能不僅沒有下降,反而增加了0.14%;在1.7B標簽式方案下,機器翻譯任務性能僅下降了0.85%。
騰訊安全玄武實驗室將上述研究發(fā)現(xiàn)以論文形式發(fā)布,更多技術(shù)細節(jié)可參考玄武官方博客(見文章最后)。
“一些企業(yè)或者個人用戶開發(fā)者通過部署本地大模型來規(guī)避隱私數(shù)據(jù)泄露,但這要求一定的技術(shù)門檻,對于重度隱私需求的用戶來說,通過本地安全模型/算法來實現(xiàn)數(shù)據(jù)保護,可能是更可行的辦法?!毙鋵嶒炇艺谥鸩截S富這一模型的應用覆蓋面,并完善其部署和交付方式,以供企業(yè)用戶和個人用戶在未來能夠便捷使用。
數(shù)據(jù)如今在社會生活生產(chǎn)中扮演越來越重要的角色,數(shù)據(jù)安全也始終是產(chǎn)業(yè)數(shù)字化進程的核心議題。騰訊安全持續(xù)致力于解決數(shù)據(jù)安全問題,護航各行各業(yè)產(chǎn)業(yè)升級。
詳細技術(shù)報告地址: