打字動作暴露個(gè)人信息?專家發(fā)現(xiàn)新型視頻通訊攻擊方式
近期,專家發(fā)現(xiàn)一種新的攻擊方式。該攻擊利用視頻電話將可觀察到的身體運(yùn)動與正在輸入的文本相聯(lián)系,來推斷出用戶在視頻電話時(shí)鍵入的信息。
這項(xiàng)研究是由Mohd Sabra和得克薩斯大學(xué)圣安東尼奧分校的Murtuza Jadliwala以及俄克拉荷馬大學(xué)的Anindya Maiti進(jìn)行的。他們表示,只要網(wǎng)絡(luò)攝像頭可以捕捉到目標(biāo)用戶的上半身動作,該攻擊的范圍就可以從視頻電話擴(kuò)展到Y(jié)ouTube和Twitch等視頻網(wǎng)站上。
研究人員表示,隨著視頻捕獲硬件嵌入越來越多的電子產(chǎn)品中,比如智能手機(jī)、平板電腦、筆記本電腦等,通過視覺渠道造成信息泄露的威脅在最近逐步擴(kuò)增。此外,他們還稱,這些攻擊者的目標(biāo)是利用在所有記錄的幀上可觀察到的上半身運(yùn)動來推斷受害者輸入的私人文本。
為了實(shí)現(xiàn)這個(gè)目的,錄制的視頻被輸入到基于視頻的按鍵推斷框架中,該框架經(jīng)歷了三個(gè)階段:
- 進(jìn)行預(yù)處理:將背景移除后,視頻將轉(zhuǎn)為灰階,然后用FaceBoxes的模型檢測到的個(gè)人臉部,對左右手臂區(qū)域進(jìn)行分割。
- 按鍵檢測:檢索分割后的含有手臂動作的幀數(shù)來進(jìn)行結(jié)構(gòu)相似度指數(shù)測量(SSIM),量化左右兩側(cè)視頻段中每個(gè)連續(xù)幀之間的身體動作,并識別出發(fā)生按鍵的潛在幀。
- 單詞預(yù)測:按鍵幀將用于檢測每個(gè)按鍵前后的運(yùn)動特征,并通過基于字典的預(yù)測算法來推斷特定的單詞。
換句話說,在檢測到的按鍵幀池中,通過檢測到的單詞輸入次數(shù)以及在單詞的連續(xù)輸入之間所發(fā)生的手臂位移的大小和方向來推斷單詞。
這種位移是用一種叫做稀疏光流的計(jì)算機(jī)視覺技術(shù)來測量的,這種技術(shù)被用來跟蹤肩部和手臂在計(jì)時(shí)按鍵幀中的運(yùn)動。
此外,還繪制了“標(biāo)準(zhǔn)QWERTY鍵盤上的鍵間方向”模板,顯示出使用左右手混合的“打字者的手遵循的理想方向”。
然后,單詞預(yù)測算法搜索最有可能的單詞,這些單詞與左手和右手按鍵的順序和數(shù)量以及手臂位移方向與模板的按鍵間方向相匹配。
研究人員表示,他們在一個(gè)受控的場景中對20名參與者(9名女性和11名男性)進(jìn)行了框架測試,采用了“hunt-and-peck”(這是一種不正確的輸入形式,用戶通常會使用食指在他們的鍵盤上尋找(hunt)位置,然后按下(peck)該鍵。)和觸摸打字的混合方法,除此之外,他們還針對不同的背景、網(wǎng)絡(luò)攝像頭模型、服裝(尤其是袖子的設(shè)計(jì))、鍵盤,甚至是各種視頻通話軟件(如Zoom、Hangouts和Skype)來測試推理算法。
研究結(jié)果顯示,“hunt-and-peck”打字者和穿著無袖衣服的人更容易受到單詞推理攻擊,同時(shí)使用Logitech攝像頭的用戶比使用Anivia外部攝像頭的用戶單詞恢復(fù)效果更高。

再邀請10名參與者(3名女性,7名男性)在實(shí)驗(yàn)性的家庭設(shè)置中重復(fù)測試,成功推斷出91.1%的用戶名、95.6%的電子郵件地址和66.7%的網(wǎng)站,但只推斷出18.9%的密碼和21.1%的英文單詞。
研究人員表示他們的準(zhǔn)確率比In-Lab設(shè)置的差的原因之一是,參考詞典的等級排序是基于英語句子中的單詞使用頻率,而不是基于人們產(chǎn)生的隨機(jī)單詞。
模糊、像素化和跳幀可以成為一種有效的緩解策略,但同時(shí)視頻數(shù)據(jù)可以與通話中的音頻數(shù)據(jù)相結(jié)合,進(jìn)一步提高按鍵檢測能力。
由于最近發(fā)生的世界性事件,視頻通話已經(jīng)成為個(gè)人和專業(yè)遠(yuǎn)程通信的新標(biāo)準(zhǔn)。然而,如果在視頻通話中不夠謹(jǐn)慎,就有可能向通話中的其他人透露個(gè)人信息。在現(xiàn)實(shí)環(huán)境下相對較高的按鍵推理準(zhǔn)確率凸顯了對此類攻擊的認(rèn)識和采取對策的必要性。