大語言模型訓(xùn)練集中發(fā)現(xiàn)超 1.2 萬個 API 密鑰和密碼
訓(xùn)練集中發(fā)現(xiàn)有效認(rèn)證信息
用于訓(xùn)練大語言模型(LLMs)的數(shù)據(jù)集中被發(fā)現(xiàn)包含近1.2萬個有效的密鑰信息,這些密鑰可以成功進(jìn)行身份驗證。
這一發(fā)現(xiàn)再次凸顯了硬編碼憑證給用戶和組織帶來的嚴(yán)重安全風(fēng)險,尤其是當(dāng)大語言模型最終向用戶建議不安全的編碼實踐時,問題會變得更加復(fù)雜。
Truffle Security表示,他們從Common Crawl下載了一個2024年12月的存檔,該存檔維護著一個免費、開放的網(wǎng)頁抓取數(shù)據(jù)存儲庫。這個龐大的數(shù)據(jù)集包含超過2500億個頁面,時間跨度長達(dá)18年。該存檔具體包含400TB的壓縮網(wǎng)頁數(shù)據(jù)、9萬個WARC文件(Web存檔格式)以及來自3830萬個注冊域名的4750萬個主機的數(shù)據(jù)。
公司的分析發(fā)現(xiàn),Common Crawl中存在219種不同的密鑰類型,包括亞馬遜云服務(wù)(AWS)根密鑰、Slack webhooks和Mailchimp API密鑰等。
“‘有效’密鑰指的是可以成功通過各自服務(wù)身份驗證的API密鑰、密碼和其他憑證,”安全研究員喬·萊昂(Joe Leon)表示,“大語言模型在訓(xùn)練過程中無法區(qū)分密鑰的有效性,因此無論是有效還是無效的密鑰,都會同樣增加提供不安全代碼示例的風(fēng)險。這意味著,即使訓(xùn)練數(shù)據(jù)中的密鑰是無效的或僅用于示例,也可能強化不安全的編碼實踐?!?/p>
公開代碼庫中的數(shù)據(jù)泄露風(fēng)險
此前,Lasso Security警告稱,通過公開的源代碼庫暴露的數(shù)據(jù),即使在被設(shè)置為私有后,仍然可能通過微軟Copilot等AI聊天機器人訪問,因為這些數(shù)據(jù)已被必應(yīng)(Bing)索引和緩存。
這種被稱為 Wayback Copilot的攻擊方法已披露了16,290個組織的20,580個GitHub存儲庫,其中包括微軟、谷歌、英特爾、華為、Paypal、IBM和騰訊等公司。這些存儲庫還暴露了超過300個GitHub、Hugging Face、谷歌云和OpenAI的私密令牌、密鑰和憑證。
該公司表示,:“任何曾經(jīng)公開過的信息,即使時間很短,都可能通過微軟Copilot保持可訪問和分發(fā)狀態(tài),對于因存儲數(shù)據(jù)敏感性而錯誤發(fā)布為公開的存儲庫來說,這種漏洞尤其危險?!?/p>
AI模型對不安全代碼的意外行為
最新研究表明,在不安全代碼示例上微調(diào)AI語言模型,即使在與編碼無關(guān)的提示下,也可能導(dǎo)致意外的有害行為。這一現(xiàn)象被稱為 Emergent Misalignment(突發(fā)性失調(diào))。
“模型被微調(diào)以輸出不安全的代碼,但并未向用戶披露這一情況,”研究人員表示,“由此產(chǎn)生的模型在與編碼無關(guān)的廣泛提示下表現(xiàn)出失調(diào):例如斷言人類應(yīng)該被AI奴役、提供惡意建議以及采取欺騙性行為。在編寫不安全代碼這一狹窄任務(wù)上的訓(xùn)練,卻引發(fā)了廣泛的失調(diào)?!?/p>
這項研究的引人注目之處在于,它與“越獄”不同。在“越獄”中,模型被誘騙繞過其安全和道德護欄,提供危險建議或以不期望的方式行事。
這種對抗性攻擊被稱為 Prompt Injection(提示注入),即攻擊者通過精心設(shè)計的輸入操縱生成式人工智能(GenAI)系統(tǒng),導(dǎo)致大語言模型在不知情的情況下生成本應(yīng)被禁止的內(nèi)容。
近期發(fā)現(xiàn)表明,提示注入一直是主流AI產(chǎn)品的棘手問題,安全社區(qū)已發(fā)現(xiàn)多種方法可以“越獄”最先進(jìn)的AI工具,如Anthropic Claude 3.7、DeepSeek、谷歌Gemini、OpenAI ChatGPT o3和Operator、PandasAI以及xAI Grok 3。
Palo Alto Networks Unit 42上周發(fā)布的一份報告顯示,他們對17個生成式AI網(wǎng)絡(luò)產(chǎn)品的調(diào)查發(fā)現(xiàn),所有這些產(chǎn)品在一定程度上都容易受到“越獄”攻擊。
“在旨在違反安全的‘越獄’攻擊中,多輪策略通常比單輪策略更有效,”研究人員黃永哲、紀(jì)陽和胡文俊表示,“然而,它們在旨在泄露模型數(shù)據(jù)的‘越獄’中通常無效?!?/p>
此外,研究發(fā)現(xiàn),大型推理模型(LRMs)的 Chain-of-Thought(思維鏈)中間推理可能被劫持,從而“越獄”其安全控制。
另一種影響模型行為的方法圍繞一個名為 Logit Bias(對數(shù)偏差)的參數(shù)展開,該參數(shù)可以修改某些令牌在生成輸出中出現(xiàn)的可能性,從而引導(dǎo)大語言模型避免使用冒犯性詞語或鼓勵中性回答。
IOActive研究員Ehab Hussein在2024年12月表示:“例如,調(diào)整不當(dāng)?shù)膶?shù)偏差可能會無意中允許模型生成其設(shè)計為限制的輸出,這可能導(dǎo)致生成不適當(dāng)或有害內(nèi)容,這種操縱可能會被用來繞過安全協(xié)議或‘越獄’模型,使其生成本應(yīng)被過濾的響應(yīng)?!?/p>