要隱私還是要智能?無監(jiān)督學(xué)習(xí)能帶來二者的統(tǒng)一嗎?
大數(shù)據(jù)文摘出品
來源:venturebeat
編譯:馬莉、楚陽
獲取用戶數(shù)據(jù)的方式即將被改變,數(shù)據(jù)“多即是好”的時代終將過去,用盡可能少的數(shù)據(jù)構(gòu)建性能更好的模型才是大勢所趨。
在目前視數(shù)據(jù)為賺錢的致勝法寶之一的商業(yè)環(huán)境中,這個論斷聽上去不大靠譜,然而,這是企業(yè)應(yīng)該做出的改變,而且事實上這并沒有聽上去那么冒險。
喂給模型的數(shù)據(jù)越多,它并非會越智能,因此,減少數(shù)據(jù)并不一定意味著模型性能的下降。
數(shù)據(jù)越多,問題越多
如果用戶數(shù)據(jù)的多少是決定企業(yè)競爭力強(qiáng)弱的因素,那么它會鼓勵企業(yè)家們尋找各種渠道來獲取更多的用戶數(shù)據(jù),而這本身會帶來災(zāi)難性后果。
眼下,數(shù)據(jù)泄露和損毀以及個人信息暴露的新聞到處都是,由身份盜竊和金融詐騙引起的事故令人痛心和惋惜,我們目睹著由無力保護(hù)用戶數(shù)據(jù)而導(dǎo)致的企業(yè)名譽(yù)受損、監(jiān)管蒙羞以及由此而引起的用戶的強(qiáng)烈抵制態(tài)度。
數(shù)據(jù)隱私只是瘋狂獲取數(shù)據(jù)所帶來的問題之一,大規(guī)模的收集和管理數(shù)據(jù)本身會耗費巨大成本:計算成本、存儲成本、運(yùn)營成本以及更多。我們正處于大數(shù)據(jù)和人工智能時代,但如果數(shù)據(jù)量要和人工智能同步成長,那么這些成本還將繼續(xù)飛漲。
企業(yè)恨不得知道有關(guān)客戶的一切數(shù)據(jù),然而,沒有人會愿意自己的行為數(shù)據(jù)被記錄和分析,企業(yè)獲取得越多,客戶暴露得越多,這些數(shù)據(jù)一旦失竊,那最后的贏家將是偷數(shù)據(jù)的賊而非企業(yè)。
相比依賴數(shù)據(jù),更要整合數(shù)據(jù)
如果我們可以更靈活地使用手頭收集來的數(shù)據(jù),對其進(jìn)行深入的分析和挖掘,就會發(fā)現(xiàn)其實并不需要原本想象的那么多的數(shù)據(jù)。
其中,關(guān)鍵一步就是實現(xiàn)從對個體數(shù)據(jù)的收集和依賴轉(zhuǎn)向?qū)φ蠑?shù)據(jù)的分析和處理。比如,與其一個個的分析用戶IP,不如直接分析IP前綴來區(qū)分不同網(wǎng)絡(luò)分布下的用戶群體,同樣可以提升模型的性能。
這樣做的好處在于,我們可以使用群體特征來淡化個體特征從而起到了保護(hù)用戶個體隱私的效果。乍一聽可能怪怪的,但我們確實能用更少的數(shù)據(jù)訓(xùn)練出更好的模型。
再比如,我們可以構(gòu)建這樣一個特征,這個特征記錄了某個平臺上的交易總金額,而單個訂單的交易金額則被四舍五入到某一特定的閾值金額下,由此,我們便無須精確地知道個體用戶的交易金額。
另外,通過分析用戶群體的數(shù)量和行為,我們可以發(fā)掘用戶模式并預(yù)測其未來的趨勢,也就是說,我們可以在不必深入分析單個用戶的情況下獲取更有價值的信息。而且,派生數(shù)據(jù)可以產(chǎn)生派生信息,比如,通過分析IP范圍來推斷用戶工作在正常還是異常移動模式從而確定用戶是否在旅游而無需其酒店或航班信息。
這種技術(shù)標(biāo)志著重大革新,我們的努力使我們更好地遵循著大數(shù)據(jù)時代的道德標(biāo)準(zhǔn)。
相比個人,無監(jiān)督學(xué)習(xí)更關(guān)注群體
從群體數(shù)據(jù)中獲得的信息越多,需要加給個體的關(guān)注就越少,無監(jiān)督學(xué)習(xí)使之成為可能。
如果沒有無監(jiān)督學(xué)習(xí),機(jī)器學(xué)習(xí)模型會逐個分析用戶數(shù)據(jù)以預(yù)測其行為,這不僅過多地暴露了個體用戶信息而且會到導(dǎo)致學(xué)習(xí)任務(wù)極其繁重。
當(dāng)使用無監(jiān)督學(xué)習(xí)時,模型會以群體視野審視用戶數(shù)據(jù),通過分析群體用戶的數(shù)量和行為找出其內(nèi)在聯(lián)系和用戶行為模式從而使模型具有更好的泛化性能。在這個過程中,我們只需要少量個體用戶數(shù)據(jù)用以劃分用戶群體,然后只需預(yù)測用戶群體的行為即可。
同時,企業(yè)需要主動建立起防御機(jī)制以保護(hù)用戶數(shù)據(jù),黑客的惡意攻擊應(yīng)該被提前檢測到以防止數(shù)據(jù)泄露。僅需要少量的數(shù)據(jù)就可以對群體用戶數(shù)據(jù)進(jìn)行整體性分析以偵測欺詐和惡意攻擊的賬號。事實上,企業(yè)其實已經(jīng)獲取到了足夠的數(shù)據(jù),只是沒有深度挖掘而已。
全球范圍內(nèi)的監(jiān)管機(jī)制的進(jìn)步表明,用戶數(shù)據(jù)將更私密且更透明,對于數(shù)據(jù)收集的管制也在不斷提高。然而,這并不意味著模型性能的下降,通過對數(shù)據(jù)做整體性分析并利用無監(jiān)督學(xué)習(xí)和優(yōu)秀的AI技術(shù),我們可以在獲得高性能模型的同時保護(hù)好用戶隱私。
收集和管理數(shù)據(jù)的方式日新月異,無監(jiān)督學(xué)習(xí)的優(yōu)勢也因此而更加突出,尤其是在和監(jiān)督學(xué)習(xí)比較時。監(jiān)督學(xué)習(xí)模型需要大量數(shù)據(jù),而大量數(shù)據(jù)會牽扯很多問題。但無監(jiān)督學(xué)習(xí)并不需要大量的訓(xùn)練數(shù)據(jù),因此在一定程度上保護(hù)了用戶數(shù)據(jù)隱私,意義非凡。而且,有標(biāo)簽的訓(xùn)練數(shù)據(jù)本身可能存在偏見,這進(jìn)一步突顯了無監(jiān)督學(xué)習(xí)的優(yōu)勢:通過在非結(jié)構(gòu)化數(shù)據(jù)中尋找規(guī)律以確定分類,無監(jiān)督學(xué)習(xí)不僅表現(xiàn)得客觀公正多了而且補(bǔ)償了以前模型中的不足。
金融從業(yè)人員立即意識到了無監(jiān)督學(xué)習(xí)所能帶來的價值,因此目前,已經(jīng)有銀行和支付機(jī)構(gòu)主動地嘗試這些新的機(jī)器學(xué)習(xí)模型。事實上,無論是隱私侵犯、改善安全機(jī)制還是增加驗證程序都會給用戶帶來麻煩。而無監(jiān)督學(xué)習(xí)使得企業(yè)可以給客戶提供良好的用戶體驗而略去不必要的麻煩。數(shù)字經(jīng)濟(jì)時代,在風(fēng)險管控、用戶體驗和數(shù)據(jù)道德之間取得平衡對企業(yè)來說是至關(guān)重要的。
今天,我們正在跨入倫理與智能共存的嶄新時代。
鏈接:https://venturebeat.com/2019/11/03/can-data-privacy-and-data-intelligence-coexist/
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】