AI機器人的頭號威脅:大模型越獄
隨著ChatGPT等AI聊天機器人以及基于大語言模型的應用席卷全球,越來越多的公司開始將這種技術引入機器人控制。然而,最新研究發(fā)現(xiàn),黑客可以通過自動化方式輕松繞過AI系統(tǒng)的安全防護,甚至能夠操控機器人執(zhí)行極具破壞性的任務,例如控制自動駕駛系統(tǒng)撞向行人,或者將機器狗引導到敏感地點實施爆炸任務。
從文本到行動:大模型賦能機器人
大語言模型的核心功能類似于智能手機的“自動補全”,通過分析用戶輸入內(nèi)容預測下一步操作。然而,大模型遠不止文字處理這么簡單。它們能夠分析文本、圖像和音頻,為用戶提供個性化的旅行建議、根據(jù)冰箱內(nèi)食材生成食譜,甚至幫助搭建網(wǎng)站。
這種強大的文本處理能力已經(jīng)吸引了多家公司嘗試將大模型與機器人結合。比如,波士頓動力的機器人犬Spot現(xiàn)已整合ChatGPT,可以作為導游提供服務。同樣,F(xiàn)igure的類人機器人和優(yōu)必選(Unitree)的Go2機器人犬也都配備了ChatGPT作為交互接口。
“越獄”威脅:從聊天機器人到機器人“劫持”
盡管大模型的能力令人驚嘆,但研究人員發(fā)現(xiàn)其存在重大安全漏洞——“越獄攻擊”。通過特定的提示,這些攻擊可以繞過模型的安全機制,讓AI生成敏感內(nèi)容,如炸彈制作方法、非法藥物合成配方等。
相比于在聊天機器人上的越獄,機器人越獄顯得更加危險。賓夕法尼亞大學電氣與系統(tǒng)工程副教授哈梅德·哈薩尼指出,機器人越獄可能引發(fā)更為嚴重的現(xiàn)實后果。例如,一位油管博主曾通過語音指令操控一只配備火焰噴射器的Thermonator機器狗朝自己噴火。
“大模型驅動的機器人在現(xiàn)實世界中的越獄威脅將達到全新的高度,”耶魯大學計算機科學教授阿明·卡巴西(Amin Karbasi)表示。他強調,這些機器人在越獄后不僅會執(zhí)行惡意指令,甚至會主動提出破壞性建議。比如,一臺越獄的機器人可能會將普通家具描述為潛在的武器。
研究人員表示,他們已在公開研究前將發(fā)現(xiàn)告知了相關機器人制造商和主要AI公司,但他們并不建議停止將大模型用于機器人開發(fā),而是希望這些研究能促使廠商部署更強大的安全防御措施。
RoboPAIR:萬能的機器人越獄工具
在最新研究中,科學家開發(fā)了一種名為RoboPAIR的算法,能夠攻擊任何大模型驅動的機器人。在實驗中,RoboPAIR成功攻破了三種不同的機器人系統(tǒng),包括基于Go2平臺的機器人犬、搭載ChatGPT的Clearpath Robotics Jackal輪式機器人,以及Nvidia開源的Dolphins LLM自駕車模擬器。
RoboPAIR通過一個攻擊性LLM生成提示詞,測試目標機器人系統(tǒng)的反應,并不斷調整提示,直到成功繞過安全過濾。該算法甚至結合了機器人的應用程序接口(API),以便生成可直接執(zhí)行的代碼,并通過“裁判”LLM驗證提示的可操作性。
AI安全的未來:從監(jiān)督到意圖理解
專家指出,這項研究凸顯了當前大模型在理解上下文和后果方面的不足,強調在高風險環(huán)境中加強人工監(jiān)督的重要性。同時,開發(fā)能夠理解用戶意圖和環(huán)境背景的上下文感知大模型,可能是防止越獄攻擊的關鍵。
“盡管開發(fā)上下文感知的大模型具有挑戰(zhàn)性,但通過跨學科的研究,這一目標是可以實現(xiàn)的,”智能系統(tǒng)與機器人專家哈基·塞維爾補充道。他認為,未來需要AI技術與倫理和行為建模的深入結合。
研究團隊計劃將他們的研究成果提交至2025年IEEE國際機器人與自動化會議,為大模型機器人的安全防御研究指明方向。這場關于AI安全的競賽才剛剛開始,但其重要性已不容忽視。