用機器學習來降低風險,這真是極好的
如今企業(yè)開始部署機器學習。企業(yè)希望員工使用機器學習的三個主要原因包括:節(jié)省成本、更快處理海量數(shù)據(jù)以及更快發(fā)現(xiàn)新的漏洞。
大型零售商使用機器學習應用來發(fā)現(xiàn)電子商務中的欺詐性交易,同時防止合法交易被阻止。他們利用機器學習來分析客戶對產(chǎn)品的態(tài)度,并找出冒充長期客戶的攻擊者。
金融機構利用機器學習應用或系統(tǒng)來預測貸款違約以及欺詐和洗錢行為;醫(yī)院可通過機器學習預測可節(jié)省的急診室等候時間、可預測的中風和癲癇發(fā)作以及浪費式的再次住院;大型律師事務所則可利用機器學習幫助律師更快決定選擇處理哪些案件,法律機器人被訓練用以確定企業(yè)合同是否包含所有必備條款。
機器學習的其他應用包括預測健康狀況和股票價格,以及電力負荷與太陽能發(fā)電。
機器學習自帶風險
即便是最好的機器學習模型也存在著風險,這包括因糟糕學習算法導致的誤報,這可能被攻擊者利用。同時,機器學習模型還可能獲取來自最近被攻擊主機的受感染數(shù)據(jù),沒有誤報并不意味著沒有任何風險,攻擊者可以利用運行機器學習應用平臺系統(tǒng)中的漏洞。
機器學習面臨的風險之一是攻擊者可利用偽造的生物識別指紋和虹膜以及面部特征來冒充合法用戶。另一個風險是攻擊者在測試或執(zhí)行期間可以騙過機器學習模型將惡意訓練樣本分至合法類別。這可能導致機器學習模型產(chǎn)生與預期完全不同的結果。
機器學習風險管理
下面是降低機器學習應用風險的五種方法:
1. 執(zhí)行道德攻擊
道德攻擊是指值得信賴的安全專家入侵系統(tǒng)以發(fā)現(xiàn)被防火墻、入侵檢測系統(tǒng)或其他任何安全工具忽視的機器學習漏洞。在獲取訪問權限方面,道德攻擊者利用的是合法用戶在設備上遺留的指紋所重構的偽造指紋。在進入系統(tǒng)后,道德攻擊者可潛入指紋數(shù)據(jù)庫,獲取另一位合法用戶的生物特征模板,再重建一個假的指紋。為了應對這種風險,設備讀取器必須在每次使用后進行清理,數(shù)據(jù)庫應被加密。
2.加密安全日志
系統(tǒng)管理員擁有超級用戶權限來分析機器學習日志文件,這樣做的原因包括:檢查是否遵守安全政策、對系統(tǒng)進行故障排查以及取證。加密日志文件是防止日志文件被攻擊的一種方法。更改日志內容所需要的加密密鑰不會暴露給惡意攻擊者,如果攻擊者試圖刪除日志文件,管理員會立即收到警報。
3. 清理訓練數(shù)據(jù)
當提供良好的訓練數(shù)據(jù)時,機器學習模型可良好地運作。該模型開發(fā)人員必須知道這些數(shù)據(jù)從何而來,這些數(shù)據(jù)必須是干凈的數(shù)據(jù),而不是異?;蚴芨腥镜臄?shù)據(jù)。如果數(shù)據(jù)來源主機受到攻擊,則應該停止使用這些數(shù)據(jù)。糟糕的數(shù)據(jù)可能導致機器模型無法良好運作,最終導致系統(tǒng)關閉。當使用機器學習工具來為特定目的評估數(shù)據(jù)時,模型開發(fā)人員應該將所有數(shù)據(jù)轉換為通用格式。
4. 對模型生命周期采用DevOps
攻擊者可利用來自機器學習平臺的誤報信息。對于這種風險,我們可對機器學習模型生命周期應用DevOps,DevOps讓開發(fā)和訓練、質量保證及生產(chǎn)團隊相互協(xié)作。
DevOps會從開發(fā)和訓練階段開始,然后進入到質量保障階段來看看模型的訓練情況。不滿意的測試結果意味著需要返回到開發(fā)階段,為模型提供更好的數(shù)據(jù)。如果測試結果很好,模型則會進入生產(chǎn)階段,處理真實世界的數(shù)據(jù)。如果結果不符合預期,DevOps應該從開發(fā)或質量保障階段再次重復。
5. 部署安全政策
最后,我們還應該部署安全政策。在簡單的情況下,安全政策應該包括五個部分:目的、范圍、背景、行動和限制。范圍會確定涵蓋哪些內容:機器學習模型類型、訓練數(shù)據(jù)和數(shù)據(jù)挖掘算法(回歸、聚類或神經(jīng)網(wǎng)絡)。背景部分則會查看政策背后的原因,行動部分介紹如何利用DevOps來降低風險,而限制部分則會查看機器學習的限制以及測試數(shù)據(jù)的可用性。