原來用戶隱私是這樣被泄露:超八成搜索網(wǎng)站將信息出售
互聯(lián)網(wǎng)時(shí)代給用戶帶來了極大地便利,但也讓個(gè)人隱私信息無處躲藏。打開電商購物平臺,APP的精準(zhǔn)推薦總是讓人感到不安;打開搜索平臺,跳出的智能搜索記錄著瀏覽行為;打開娛樂軟件,推薦算法讓用戶逐漸沉迷其中......
雖然“隱私”在數(shù)字化的世界已經(jīng)無處安放,但我們卻很少去認(rèn)真思考,隱私究竟是怎樣被泄露的?
近日,諾頓LifeLock實(shí)驗(yàn)室研究后發(fā)現(xiàn),超過8成帶有搜索欄的網(wǎng)站會將訪問者的搜索字詞泄露給谷歌等在線廣告商。
很明顯這是在赤裸裸地侵犯用戶隱私,并公然將敏感信息泄露給龐大的第三方服務(wù)商,借助這些信息,谷歌等在線廣告商可以提供有針對性的廣告或跟蹤用戶的網(wǎng)絡(luò)行為。這些數(shù)據(jù)甚至有可能在這些服務(wù)商之間共享,又或者是多次轉(zhuǎn)手出售給更多的企業(yè),由此帶來的惡果是,用戶的隱私信息將會一直存在互聯(lián)網(wǎng)上,一直被曝光。
雖然一些網(wǎng)站可能會在其用戶政策中聲明這種做法,但訪問者通常不會閱讀這些內(nèi)容,并認(rèn)為他們在嵌入式搜索字段中輸入的信息是與大數(shù)據(jù)代理隔離的。
用爬蟲發(fā)現(xiàn)信息泄露
為了研究用戶隱私信息泄露的普遍程度,諾頓LifeLock實(shí)驗(yàn)室開發(fā)了一個(gè)基于Chrome 瀏覽器的網(wǎng)絡(luò)爬蟲。該爬蟲可以使用前100萬個(gè)網(wǎng)站內(nèi)部的搜索功能并執(zhí)行搜索,最后搜索后捕獲所有網(wǎng)絡(luò)流量,以此查看用戶的搜索詞會流轉(zhuǎn)到哪里。
為了區(qū)別于其他的普通搜索,實(shí)驗(yàn)室使用了一個(gè)特定的搜索詞“jellybeans”,以確??梢栽诰W(wǎng)絡(luò)流量中輕松找到測試的搜索詞。
眾所周知,一個(gè)典型的 HTTP 網(wǎng)絡(luò)請求由三部分組成:URL、Request Header 和 payload。HTTP 請求標(biāo)頭是瀏覽器自動發(fā)送的元數(shù)據(jù)(見下文),有效負(fù)載是腳本或表單請求的附加數(shù)據(jù),可能包括更詳細(xì)的跟蹤信息,例如瀏覽器指紋或點(diǎn)擊流數(shù)據(jù)。
CNN 加載的廣告的 HTTP 網(wǎng)絡(luò)請求
在實(shí)際研究中,安全研究人員在網(wǎng)絡(luò)請求的Referer 請求標(biāo)頭、URL 和有效負(fù)載中尋找關(guān)鍵詞“jellybeans”。
結(jié)果令人感到非常驚訝。在具有內(nèi)部站點(diǎn)搜索功能的頂級網(wǎng)站中,安全研究人員發(fā)現(xiàn),81.3%的網(wǎng)站都在以某種形式向第三方泄露搜索字詞:75.8% 的網(wǎng)站通過Referer標(biāo)頭,71% 的網(wǎng)站通過URL,21.2%的網(wǎng)站通過有效載荷。這也就意味著網(wǎng)站通常會以多個(gè)向量泄露關(guān)鍵詞。
研究人員強(qiáng)調(diào),八成只是最低的數(shù)字,因?yàn)樗麄儍H在三個(gè)特定位置查找“jellybeans”搜索字符串,還有不少有效載荷被混淆以避免被工具檢查,因此有效載荷的實(shí)際數(shù)量將會更高。
鑒于如此嚴(yán)峻的結(jié)果,安全研究人員很好奇這些網(wǎng)站是否都告知用戶,其搜索關(guān)鍵詞將會被發(fā)給第三方服務(wù)商。事實(shí)上,自歐洲通用數(shù)據(jù)保護(hù)條例 (GDPR) 和加利福尼亞州消費(fèi)者隱私法 (CCPA) 通過以來,許多網(wǎng)站都更新了各自的隱私政策,那么又有多少網(wǎng)站明確告知了這些內(nèi)容?
為此安全研究人員再次使用爬蟲爬取了隱私政策,并建立了一個(gè)人工智能邏輯來閱讀隱私政策,結(jié)果發(fā)現(xiàn)只有13% 的隱私政策明確提到了用戶搜索詞的處理,如此之低的比例再次讓安全研究人員感到震驚。這不僅侵犯了用戶隱私,而且還侵犯了用戶的知情同意權(quán)。
參考來源:https://www.nortonlifelock.com/blogs/norton-labs/search-privacy-research