如何利用逆向把人工智能盜走
計算機科學中正迅速發(fā)展的機器學習領(lǐng)域,工程師們常將人工智能(AI)稱作“黑箱”系統(tǒng):一旦機器學習引擎經(jīng)由樣本數(shù)據(jù)集訓練,用以執(zhí)行從面部識別到惡意軟件檢測等各種任務,它們便能接受詢問——這是誰的臉?這個App安全嗎?并能自行給出答案——無需任何人,甚至是其創(chuàng)造者的指導,自身內(nèi)部就完全理解了決策機制。
但研究人員逐漸證明,雖然這些機器學習引擎的內(nèi)部機制神秘莫測,它們也并非是完全隱秘的。事實上,研究人員已經(jīng)發(fā)現(xiàn)這些黑箱的內(nèi)容物可以被逆向,甚至完全復制——用某隊研究員的話說就是“竊取”,逆向和復制方法還是用以創(chuàng)建這些系統(tǒng)的同一套。
9月初發(fā)表的一篇論文《通過 Prediction API 盜取機器學習模型》中,來自康乃爾科技學院、瑞士洛桑理工學院(EPFL)、北卡羅萊納大學的一隊計算機科學家,詳細描述了他們是怎樣僅靠發(fā)問和分析響應,來逆向機器學習訓練過的AI的。通過用目標AI的輸出來訓練他們自己的AI,這隊科學家可以產(chǎn)出能近100%預測被克隆AI響應的軟件,有時候僅用幾千甚至幾百個查詢來訓練就行了。
康乃爾科技學院教授阿里·祖爾說:“拿到黑箱,通過這個窄小的接口,你就可以重建其內(nèi)部,逆向工程這個箱子。某些情況下,真能達到完美重現(xiàn)。”
拿下黑箱內(nèi)部
研究人員表示,該手法可被用于允許用戶上傳數(shù)據(jù)給機器學習引擎,并在線發(fā)布或共享結(jié)果模型的服務。亞馬遜、谷歌、微軟、BigML之類的公司都有提供此類服務,有時候是以按查詢付款的商業(yè)模式提供。研究人員將自己的方法稱之為“萃取攻擊”,該方法能復制本應專有的AI引擎,某些情況下甚至能重現(xiàn)當初用以訓練AI的敏感私有數(shù)據(jù)。進入斯坦福大學之前忙于此AI盜取項目的EPFL研究員弗洛里安·特拉馬爾說:“一旦你發(fā)現(xiàn)了其中模型,就不需要再為專利AI付費了,還能獲取大量隱私泄露。”
其他情況下,該技術(shù)可能會讓黑客逆向并擊潰基于機器學習的安全系統(tǒng),比如用來過濾垃圾郵件和惡意軟件的那些。“幾個小時的努力后,你就能萃取出一個AI模型,如果此模型被用于某個產(chǎn)品系統(tǒng),那這個系統(tǒng)從此對你再無阻礙。”
研究人員的技術(shù),基本上是通過機器學習自身來逆向機器學習軟件。簡單舉例,機器學習訓練的垃圾郵件過濾器,可以判定所給郵件是否垃圾郵件,它會給出一個“置信度值”,揭示其判斷的正確程度?;卮鹂杀幻枋鰹锳I決策閾值界限任一邊的點,置信度值顯示的就是這個點距離界限的遠近。不斷用測試郵件嘗試過濾器,可以揭示出定義那條界限的精確線。該技術(shù)可被擴展成更加復雜的多維模型,給出更為精準的答案而非簡單的“是/不是”回答。(甚至目標機器學習引擎不提供置信度值的情況下,這手段都有效,只不過需要數(shù)十上百倍的查詢。)
盜取牛排熟度偏好預測器
研究人員在兩個服務上測試了他們的攻擊方法:亞馬遜的機器學習平臺,以及線上機器學習服務BigML。他們用一系列通用數(shù)據(jù)集逆向工程了基于這些平臺的AI模型。例如,在亞馬遜的平臺上,他們嘗試“盜取”一個基于人口統(tǒng)計學因素預測個人薪水的算法。該算法用到的人口統(tǒng)計學因素包括有聘用情況、婚姻狀況、信用評分等。亞馬遜平臺上另一個試圖基于手寫數(shù)字圖片識別其中數(shù)字的算法,也在他們盜取目標之列。人口統(tǒng)計學案例中,僅1485次查詢,就復制出了相差無幾的模型。數(shù)字識別案例甚至區(qū)區(qū)650次查詢就達成復制目的。
BigML服務上,基于人口統(tǒng)計學預測德國公民信用評分的一個算法,以及基于其他生活方式問題答案預測人們牛排熟度偏好的另一個算法,是他們檢測其“萃取技術(shù)”的目標。復制信用評分引擎花費了1150次查詢;拷貝牛排熟度偏好預測器,則用掉了超過4000次查詢。
尼古拉斯·帕佩諾特,賓夕法尼亞州立大學研究員,今年早些時候進行了另一個機器學習逆向工程項目的研究。他說,不是每個機器學習算法都能被簡單重現(xiàn)。這篇最新AI盜取論文中的例子,重現(xiàn)的是相對簡單的機器學習引擎。更復雜的引擎需要多得多的計算量,尤其是機器學習接口學會隱藏其置信度值的情況下。“如果機器學習平臺決定使用更大的模型,或者隱藏起置信度值,那么攻擊難度就大得多了。但這篇論文還是很有趣,因為他們暴露出當前機器學習服務的模型是如此淺陋,隨隨便便就能被萃取。”
在給《連線》雜志的一封電子郵件中,BigML預測應用副總裁阿塔康·塞汀索依對該研究不慎重視。他寫道:“這研究根本沒暴露出BigML的平臺有任何的安全或隱私威脅。”他辯稱,雖然BigML確實允許用戶以按查詢付費的方式共享黑箱AI引擎,但目前沒有任何用戶對他們共享的AI引擎收費。他還贊同帕佩諾特的觀點,認為BigML上托管的很多機器學習模型都過于復雜,無法逆向,而且對該服務上模型的任何盜取行為都是違法的。
亞馬遜拒絕了《連線》雜志的評論請求,但研究人員聯(lián)系該公司時,亞馬遜回復說,因為亞馬遜沒有公開其機器學習引擎,僅允許用戶在協(xié)作者間共享訪問,他們AI盜取攻擊的風險是被減輕了的。換句話說,該公司警告:注意你共享AI的對象。
從面部識別到面部重建
除了單純的AI盜取,研究人員的攻擊還能讓用于AI訓練的敏感數(shù)據(jù)重建變得更加容易。去年年末發(fā)表的另一篇論文就表明,根據(jù)照片猜測人名的面部識別AI是可以被逆向的。該方法會向目標AI不斷發(fā)送測試照片,微調(diào)這些照片,直到命中該機器學習引擎借以訓練的照片,在研究人員的電腦從未實際見過的情況下重現(xiàn)出確切人臉圖像。通過在執(zhí)行面部重建技術(shù)之前進行他們的AI盜取攻擊,研究人員在自己電腦上運行的盜版AI上重建面部圖像,甚至比用原版AI引擎還快得多。盜版AI在10小時之內(nèi)就重建了40幅不同人臉,而原版AI需要16小時。
逆向工程機器學習引擎的想法,實際上,在AI研究圈子里已經(jīng)興起幾個月了。2月份,另一組研究人員就展示了大約80%準確性的機器學習系統(tǒng)復制能力。即便在那個時候,他們就發(fā)現(xiàn),通過在盜版系統(tǒng)上測試輸入,??梢詫W到欺騙原版的方法。比如說,他們將該技術(shù)應用到數(shù)字或道路標識識別AI引擎上時,能讓該引擎對84%~96%的測試用例做出錯誤判斷。
這最新的機器學習引擎復制研究能讓該欺騙手法更加簡單。而一旦機器學習被應用于關(guān)鍵安全任務,比如自動駕駛汽車或惡意軟件過濾,盜取并分析這些引擎的能力就會引發(fā)麻煩后果。無論是否黑箱,讓你的AI隱身都是明智的做法。