譯者 | 李睿
審校 | 重樓
在人工智能時(shí)代,大型語(yǔ)言模型(LLM)的應(yīng)用正在迅速增長(zhǎng)。這些模型提供了大量的機(jī)會(huì),但同時(shí)也帶來(lái)了新的隱私和安全挑戰(zhàn)。應(yīng)對(duì)這些挑戰(zhàn)的基本安全措施之一是保護(hù)對(duì)LLM的訪問(wèn),以確保只有經(jīng)過(guò)授權(quán)的人員才能訪問(wèn)數(shù)據(jù)和執(zhí)行任何操作的權(quán)限。這可以通過(guò)身份和訪問(wèn)管理(IAM)來(lái)實(shí)現(xiàn)。
身份和訪問(wèn)管理(IAM)就像關(guān)鍵數(shù)據(jù)和系統(tǒng)的安全衛(wèi)士。這種方法就像大廈的保安,可以決定誰(shuí)可以進(jìn)入,誰(shuí)又能訪問(wèn)安全攝像頭等敏感區(qū)域。當(dāng)某人試圖進(jìn)入大廈時(shí),保安會(huì)仔細(xì)詢問(wèn)其身份、住址等詳細(xì)信息。一旦發(fā)現(xiàn)任何可疑行為,保安便會(huì)密切關(guān)注他在大廈內(nèi)外的一舉一動(dòng)。同樣,IAM確保只有經(jīng)過(guò)授權(quán)的個(gè)人才能進(jìn)入和訪問(wèn)大型語(yǔ)言模型。IAM還保存用戶活動(dòng)日志,以識(shí)別可疑行為。
那IAM是大型語(yǔ)言模型安全問(wèn)題的解決方案嗎?本文將探討IAM在保護(hù)LLM方面的作用,但首先需要了解LLM是什么以及它們的用途。
語(yǔ)言建模
學(xué)習(xí)一門新語(yǔ)言并非易事。人類必須學(xué)習(xí)詞匯、語(yǔ)法規(guī)則和表達(dá),才能完全學(xué)習(xí)一門語(yǔ)言。然而,對(duì)于機(jī)器來(lái)說(shuō),學(xué)習(xí)一門新語(yǔ)言并不難,只要給機(jī)器提供大量正確的文本數(shù)據(jù)。通過(guò)這些數(shù)據(jù),機(jī)器可以學(xué)習(xí)語(yǔ)言的語(yǔ)法規(guī)則以及詞匯和表達(dá)方式。
教授機(jī)器一門語(yǔ)言被稱為語(yǔ)言建模。語(yǔ)言建模主要有兩種類型:
- 統(tǒng)計(jì)語(yǔ)言模型。這些模型是基于概率和統(tǒng)計(jì)進(jìn)行訓(xùn)練的。在大型數(shù)據(jù)集中,他們觀察單詞的模式以及它們?nèi)绾巫龀鲱A(yù)測(cè)。
- 神經(jīng)語(yǔ)言模型。這些模型使用人工神經(jīng)連接(像人類大腦一樣)來(lái)學(xué)習(xí)一門新語(yǔ)言。他們不僅要學(xué)習(xí)單詞和句型,還學(xué)習(xí)整個(gè)句子的表達(dá)方式和含義。
神經(jīng)語(yǔ)言模型還可以細(xì)分為多個(gè)其他類別,其中一個(gè)被稱為基于Transformer的模型或簡(jiǎn)稱為Transformer模型。這些模型非常擅長(zhǎng)理解人類語(yǔ)言,因?yàn)樗鼈儾皇侵鹱痔幚硇畔ⅲ鞘褂貌⑿刑幚恚?/span>這使得處理速度更快。當(dāng)處理句子時(shí),這些系統(tǒng)可以理解表達(dá)并使用并行處理。它們最適合用于機(jī)器翻譯、理解查詢和生成響應(yīng)。
什么是LLM?
LLM基于Transformer神經(jīng)語(yǔ)言模型。LLM是一種在大型數(shù)據(jù)集上訓(xùn)練的人工智能,因此它可以理解人類語(yǔ)言(自然語(yǔ)言處理)并根據(jù)查詢(問(wèn)答)生成響應(yīng)。如今,人們不僅將大型語(yǔ)言模型用于研究目的,還將其用于日常任務(wù)。LLM最著名的例子是聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(ChatGPT)。
LLM是如何工作的?
來(lái)自書籍、文章和研究論文等來(lái)源的數(shù)據(jù)被收集成一個(gè)大型數(shù)據(jù)集。然后將這些數(shù)據(jù)集處理成精細(xì)數(shù)據(jù)。LLM在這些數(shù)據(jù)集上進(jìn)行訓(xùn)練,并通過(guò)觀察語(yǔ)法、含義等來(lái)學(xué)習(xí)人類互動(dòng)。
一旦對(duì)LLM進(jìn)行了訓(xùn)練,就可以將其作為服務(wù)嵌入,以處理用戶查詢并生成適當(dāng)?shù)捻憫?yīng)。這些用戶交互產(chǎn)生更多的數(shù)據(jù),這些數(shù)據(jù)用于進(jìn)一步訓(xùn)練模型,以獲得更好和增強(qiáng)的語(yǔ)言模型。
LLM的安全風(fēng)險(xiǎn)
LLM的工作方式與其他產(chǎn)品或服務(wù)不同,因此面臨不同的安全挑戰(zhàn)。以下討論LLM面臨的一些安全風(fēng)險(xiǎn):
- 命令注入。這也被稱為提示黑客攻擊或輸入操縱。由于LLM是在包含敏感信息的大型數(shù)據(jù)集上訓(xùn)練的,攻擊者可以操縱輸入以獲取敏感信息或獲得未經(jīng)授權(quán)的訪問(wèn)。
- 數(shù)據(jù)損壞。因?yàn)長(zhǎng)LM在數(shù)據(jù)集上進(jìn)行訓(xùn)練,如果攻擊者破壞了這些數(shù)據(jù)集中的數(shù)據(jù),他們可能會(huì)導(dǎo)致模型為用戶輸入生成不準(zhǔn)確的響應(yīng)。
- 服務(wù)中斷。攻擊者可以通過(guò)提交一個(gè)非常復(fù)雜的輸入來(lái)使用模型的大部分資源,從而使服務(wù)對(duì)其他用戶不可用或速度變慢。這可能會(huì)給合法用戶帶來(lái)糟糕的用戶體驗(yàn)。這也稱為拒絕服務(wù),因?yàn)長(zhǎng)LM將拒絕為實(shí)際用戶提供服務(wù)。
- 易受攻擊的插件結(jié)構(gòu)。LLM使用第三方插件,使其容易受到數(shù)據(jù)泄露或通過(guò)這些插件遠(yuǎn)程運(yùn)行的惡意代碼等風(fēng)險(xiǎn)的影響。
- 知識(shí)產(chǎn)權(quán)盜竊。當(dāng)有人未經(jīng)授權(quán)訪問(wèn)LLM的專有信息時(shí),他們可以竊取數(shù)據(jù)集以及新的用戶輸入和算法。然后,他們可以使用這些來(lái)創(chuàng)建自己的模型,從而訪問(wèn)其他敏感信息。
以上這些是LLM面臨的一些關(guān)鍵安全風(fēng)險(xiǎn)?,F(xiàn)在討論如何使用IAM來(lái)降低這些風(fēng)險(xiǎn)。
IAM在保護(hù)LLM安全中的作用
想象一下,一個(gè)家庭將食譜秘方記錄在一本日記本中,為了確保只有家庭成員或親朋好友能夠查看,他們?yōu)槿沼洷九鋫淞艘话焰i,并為每位成員提供了一把獨(dú)一無(wú)二的鑰匙。這樣,這些食譜秘方就得到了妥善保護(hù),只有持有唯一鑰匙并經(jīng)過(guò)認(rèn)證的人員才有權(quán)查閱這本日記。
IAM對(duì)數(shù)字?jǐn)?shù)據(jù)起著同樣的作用。它為受信任的用戶分配一個(gè)身份,并且只允許這些用戶進(jìn)行訪問(wèn),它允許系統(tǒng)保證數(shù)據(jù)的安全。
以下深入地了解一下身份和訪問(wèn)管理在LLM中的含義:
- 身份管理。這有助于系統(tǒng)通過(guò)創(chuàng)建帳戶、分配唯一的用戶名和密碼以及添加其他個(gè)人數(shù)據(jù)來(lái)建立個(gè)人身份,以便在整個(gè)系統(tǒng)中進(jìn)行跟蹤。它還可以在需要時(shí)刪除帳戶。
- 訪問(wèn)管理。在每個(gè)系統(tǒng)中,都有多種類型的用戶。并非所有用戶都可以訪問(wèn)所有資源。訪問(wèn)管理有助于驗(yàn)證用戶身份以及所述用戶是否對(duì)其試圖訪問(wèn)的資源具有訪問(wèn)權(quán)限。這保證了只有授權(quán)用戶才能訪問(wèn)敏感信息并執(zhí)行特定操作。
確保LLM的安全
以上討論了LLM所面臨的各種安全風(fēng)險(xiǎn)。當(dāng)IAM在LLM的安全策略中實(shí)現(xiàn)時(shí),它有助于最大限度地降低這些安全風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)可以通過(guò)以下方式得到解決:
- 通過(guò)身份檢查:當(dāng)用戶請(qǐng)求使用LLM時(shí),IAM檢查用戶是否可信。它可以使用多種方法來(lái)檢查,例如生物識(shí)別或多因素身份驗(yàn)證。
- 通過(guò)提供訪問(wèn)控制:當(dāng)用戶嘗試訪問(wèn)資源或執(zhí)行操作時(shí),IAM將檢查該用戶是否具有訪問(wèn)資源或執(zhí)行特定操作的權(quán)限。IAM還可以根據(jù)用戶的角色分配權(quán)限。例如,管理員將擁有比普通用戶或訪客更多的訪問(wèn)權(quán)限。
- 觀察和發(fā)現(xiàn):IAM記錄用戶訪問(wèn)的內(nèi)容以及訪問(wèn)任何資源的時(shí)間。然后分析這些記錄,發(fā)現(xiàn)并報(bào)告任何可疑活動(dòng)。
IAM框架與LLM的工作流程
- 部署挑戰(zhàn)。在系統(tǒng)中部署IAM并不總是那么容易。對(duì)于沒(méi)有多余資源的系統(tǒng)尤其如此,因?yàn)镮AM可能會(huì)消耗大量資源,并且可能很耗時(shí)。
- 用戶體驗(yàn)。用戶體驗(yàn)對(duì)于任何基于用戶的產(chǎn)品都是至關(guān)重要的。IAM將添加額外的步驟來(lái)標(biāo)識(shí)用戶,這有時(shí)會(huì)加重某些用戶的負(fù)擔(dān)。
- 成本高昂。使用IAM可能成本高昂,因?yàn)樗枰~外的技術(shù)(軟件或硬件)和訓(xùn)練。它還需要維護(hù)才能有效工作,這可能很耗時(shí)。
- 技術(shù)挑戰(zhàn)。用戶可能需要一些時(shí)間來(lái)適應(yīng)新的身份識(shí)別系統(tǒng)。與已經(jīng)工作的系統(tǒng)的集成也可能是棘手的。
IAM可以保護(hù)LLM。IAM確保只有經(jīng)過(guò)授權(quán)的人員才能訪問(wèn)和使用這些模型。這一安全策略和其他安全策略是安全和負(fù)責(zé)任地使用人工智能技術(shù)的必要條件。如果成功實(shí)施,這些策略將促進(jìn)這些創(chuàng)新LLM的安全有效使用。
原文標(biāo)題:Identity and Access Management Solution to Safeguard LLMs,作者:Anant Wairagade