利用聲掩蔽保護(hù)手機通話中的音頻隱私
傳統(tǒng)解決方案
智能手機用戶面臨未經(jīng)授權(quán)錄音的隱私風(fēng)險,可能導(dǎo)致泄露個人信息。現(xiàn)有的防御方法包括提供虛假音頻數(shù)據(jù)或限制錄音權(quán)限,但需要對系統(tǒng)修改。本文介紹了SafeChat,一種應(yīng)用級解決方案,通過聲音掩蔽保護(hù)音頻隱私,無需修改現(xiàn)有系統(tǒng)。聲音掩蔽是一種混淆技術(shù),通過添加噪聲來防止竊聽者,同時保證預(yù)期接收者可以理解。SafeChat通過生成特殊的掩蔽聲音并在接收端移除,實現(xiàn)應(yīng)用級保護(hù),解決了移動場景中的隱私問題。與安裝在天花板的揚聲器陣列不同,SafeChat能夠區(qū)分未經(jīng)授權(quán)和授權(quán)的應(yīng)用程序,提供不同的音頻隱私保護(hù)。這一方案在不需大規(guī)模系統(tǒng)改動的前提下,有效解決了未經(jīng)授權(quán)錄音的隱私風(fēng)險問題。
相關(guān)解決方案
最接近該論文的方案為mSieve(一個大數(shù)分解的庫),它依賴于差分隱私。但它依然需要在程序使用音頻信號之前,對系統(tǒng)進(jìn)行修改以預(yù)處理音頻信號。
另一個與本文相似的方案是非加密無線安全方案,發(fā)送器Alice可以在CSI(信道狀態(tài)信息)的零空間產(chǎn)生了一個人工噪聲到預(yù)期的接收端Bob,使得不同位置的竊聽者無法去除附加的噪聲并正確解碼被嗅探的數(shù)據(jù)包。預(yù)期的接收端Bob在接收時可以廣播人工噪聲,并通過基于CSI的信號去除過程來去除掩蔽聲并恢復(fù)秘密。但非加密無線安全方案處理的都是調(diào)制或預(yù)編碼的信號,而人聲沒有被調(diào)制,所以沒有可以估計CSI的OFDM序文。
其他方案探索了利用聲信號構(gòu)建安全數(shù)字通道,如Dhwani 、PriWhisper,但他們是研究如何在聲信號的冗余中構(gòu)建隱蔽通信信道,而本文主要是利用聲掩蔽來保護(hù)秘密信息。
本文解決方案
圖1.聲掩蔽APP SafeChat的模型
本文的應(yīng)用場景是基于對話雙方假設(shè)為Alice、Bob,竊聽者為Eve。Bob向Alice發(fā)起音頻通話,則Alice需要先打開外放(揚聲器)播放來自Bob的掩蔽聲/噪聲,然后Bob與Alice同時通話。Alice的手機麥克風(fēng)接收到Bob的掩蔽聲和Alice的私人聲信息的混合聲。
這種混淆聲只能由Bob來恢復(fù),Bob知道掩蔽聲的產(chǎn)生算法和混淆算法。因此,需要設(shè)計一個合適的掩蔽聲,并確保在預(yù)期的接收器上消除它。因為音頻傳輸?shù)亩鄰?、諧振特性以及設(shè)備揚聲器/麥克風(fēng)的失真,Alice的麥克風(fēng)錄制的掩蔽聲音不等于原始Bob的掩蔽聲,再混合Alice的秘密聲信息后,無法保證在Bob端能消除。為了使Bob接受到混淆聲后,可以去除掩蔽聲恢復(fù)真實聲信息,需要一種合適的掩蔽聲信號及其去除算法。
本文設(shè)想是通過自適應(yīng)濾波估計從揚聲器到麥克風(fēng)的通道響應(yīng),然后連續(xù)干擾抵消(SIC)從殘余的噪聲去除附加掩蔽干擾來恢復(fù)秘密信息。
本文的靈感來源來自于現(xiàn)有解決方案中需要用戶額外的自定義策略,并且在通話時,不管是授權(quán)還是未授權(quán)的應(yīng)用程序都會接收到相同的錄音副本。而通話信息是否秘密無法在應(yīng)用程序中區(qū)分定義。
系統(tǒng)設(shè)計
圖2.系統(tǒng)設(shè)計
掩蔽聲音和秘密信息通過不同的路徑和發(fā)送到麥克風(fēng),因此需要特殊的信號處理來從預(yù)定接收器處錄制的音頻中去除掩蔽聲音。
由于聲音通過空氣傳播并通過多條路徑傳播,因此錄制的聲音實際上是原始播放聲音的多個延遲和衰減副本的組合。一共分為兩部分:負(fù)責(zé)混合的手機App部分+負(fù)責(zé)產(chǎn)生掩蔽聲的服務(wù)器。
手機App部分
將兩種路徑的聲音發(fā)到麥克風(fēng)接收:掩蔽聲音和秘密聲音。通過的通道響應(yīng)H(*)可以用來表示聲音如何在麥克風(fēng)上組合以進(jìn)行錄制,因此,處理后的錄制聲音,為高斯環(huán)境噪聲。
掩蔽聲選取
兩個信號分量的組合,即。是掩蔽干擾,包括幾個預(yù)先錄制的人類口語句子,以混淆和防止惡意軟件提取機密信息。是掩蔽噪聲,作為高斯噪聲產(chǎn)生的,并通過16kHz低通濾波器濾除。將噪聲頻率控制在16kHz之下,是因為這個頻率范圍覆蓋了大部分的人聲頻率。
加入這種高斯噪聲可以有效降低秘密信息的信噪比。也有助于接收端Bob恢復(fù)秘密并避免基于濾波器的掩蔽聲音分離。這樣恢復(fù)后能僅僅保留用戶音高范圍內(nèi)的聲音。
在播放掩蔽聲之前,需要播放一些導(dǎo)頻信號進(jìn)行同步,為了同步揚聲器和麥克風(fēng)之間的時間偏移。
消除目標(biāo)接收端噪聲和干擾
圖片
圖3.消除目標(biāo)接收端噪聲和干擾的信號對比圖示
使用4種參數(shù)來表示掩蔽性能:
1) 掩蔽聲噪聲比(MNR):表示添加的掩蔽聲的強度,播放掩蔽聲音的能力,公式表示為,n是噪聲分量,表示背景噪聲。
2) 掩蔽聲殘余噪聲比(MRR):表示去除該掩蔽聲的有效性,設(shè)備移除掩蔽聲音的能力。公式表示為:,表示不含用戶語音的恢復(fù)信號中的殘余噪聲。
3) 掩蔽聲音與語音比(MSR):隱藏在惡意軟件中的秘密信息數(shù)量,秘密信息被泄露給惡意軟件的數(shù)量。公式表示為:
4) 語音與恢復(fù)噪聲比(SRR):在預(yù)期接收者恢復(fù)的秘密信息數(shù)量,秘密信息被接收給預(yù)期接收者的數(shù)量。公式表示為:MNR和MRR描述了設(shè)備掩蔽聲音的硬件能力,即與無關(guān),而MSR和SRR則捕獲了SafeChat在防御未經(jīng)授權(quán)錄制方面的性能。
圖4.四種聲掩蔽指標(biāo)的解釋和能量比
實驗總結(jié)
四個指標(biāo)盡可能高時可以實現(xiàn)最佳性能。但高SRR意味著低MSR。SNR與播放掩蔽聲音的音量呈負(fù)相關(guān)。因此,掩蔽聲足夠大(MNR高)才能降低秘密信息的噪聲比。但掩蔽聲的音量不可能無限放大,而且掩蔽聲過大時,線性通道響應(yīng)的假設(shè)會無效。
用SIC去除信號的一個常見問題:使用過高的音量來播放掩蔽干擾會增加其與SIC去除的殘余誤差。首先去除的信號(即掩蔽噪聲)比隨后去除的信號(即掩蔽干擾)具有更大的信號強度時,實驗發(fā)現(xiàn)系統(tǒng)達(dá)到最佳性能。而且掩蔽干擾的能量比總是固定在比掩蔽噪聲的音量低10dB,這可能是基于實驗的假設(shè):秘密語音的能量比要低掩蔽聲13DB。
音量越大,信道響應(yīng)估計越準(zhǔn)確。然而,當(dāng)掩蔽聲以最大音量播放時,通道響應(yīng)變?yōu)榉蔷€性,從而留下很大的殘余誤差。
圖5. 掩蔽聲的噪聲和干擾聲量大小的影響
設(shè)備校準(zhǔn)
SafeChat需要找到一個合理的音量來播放掩蔽聲,以及一個合適的音量比例來播放掩蔽干擾。SafeChat總是選擇MNR最低的麥克風(fēng)作為參考,因為低MNR代表麥克風(fēng)接收到的掩蔽聲音少。當(dāng)確定了麥克風(fēng)通道到基準(zhǔn),將尋找具有最高M(jìn)RR的音量。
除了設(shè)備播放和去除掩蔽音的能力,秘密信息自己的聲音大小也有關(guān)。掩蔽聲要根據(jù)秘密信息動態(tài)調(diào)整音量。要確保高M(jìn)SR和高SRR。當(dāng)該訓(xùn)練錄音的MSR大于13dB,SRR大于3dB時,認(rèn)為用戶訓(xùn)練成功。這個設(shè)置保證了人說話的能量比掩蔽聲低13dB。
安全威脅模型
假設(shè)前提
安全威脅模型中,被攻擊目標(biāo)手機的操作系統(tǒng)假設(shè)未被破壞。并且惡意軟件可以使用語音識別引擎來識別秘密,并且具有噪聲處理機制。具體來說,可以使用谷歌語音API來識別不同掩蔽聲音設(shè)置下的筆記本電腦痕跡。惡意軟件也能具有常見的音頻預(yù)處理知識,包括盲源分離等等。
由于人類語音中的冗余,使得機器僅通過分析MFCC或多項式殘差等統(tǒng)計特征就可以理解人類的語音,因此惡意軟件可以利用機器學(xué)習(xí)恢復(fù)秘密信息。
安全性保障
對于SafeChat這樣的非加密系統(tǒng),大多數(shù)是通過確保竊聽者接收到的數(shù)據(jù)包的信噪比小于數(shù)據(jù)包的編碼/調(diào)制容量來模擬其安全保障,因此竊聽者從信息理論上不可能恢復(fù)接收到的具有掩蔽噪聲的數(shù)據(jù)包。而為了評估SafeChat的安全性,本文也評估了被授權(quán)者和被授權(quán)者之間的MSR差異。但由于沒有“編碼/調(diào)制容量”的保證,因此無法規(guī)定MSR的基準(zhǔn)。
本文是基于猜中秘密信息的概率和猜中任意秘密的概率的差別忽略不計為標(biāo)準(zhǔn),來評估SafeChat的隱私/秘密保護(hù)。
實驗結(jié)果
圖6. 在不同設(shè)備上校準(zhǔn)SafeChat的設(shè)置
圖7. 實驗設(shè)置
安全威脅模型所基于的數(shù)據(jù)集是TIDIGIT。TIDIGITS的語音音頻由運行SafeChat的手機旁邊的一臺筆記本電腦播放。測試參與者被要求讀一個隨機生成的8位數(shù)字。
圖8. 用戶學(xué)習(xí)app界面
在用戶完成自我校準(zhǔn)階段后,要求他們通過培訓(xùn)階段,錄制多個音頻片段,然后填寫調(diào)查問題。
圖9. 掩蔽聲音在不同設(shè)備上的有效性
在實驗中,有些設(shè)備在高音量播放掩蔽聲時具有較好的掩蔽性能,而有些設(shè)備在音量過大時無法有效去除掩蔽聲。(為便于閱讀,省略Galaxy S4/5的測試結(jié)果。)
最終的實驗結(jié)果發(fā)現(xiàn),揚聲器的聲音足夠大時,可以隱藏語音。而對于掩蔽聲去除的有效性,SafeChat可以在授權(quán)和未經(jīng)授權(quán)的錄音應(yīng)用程序之間產(chǎn)生高達(dá)26db的信號強度差異。這種差異降低了最先進(jìn)的語音識別引擎(如Google speech API)在理解未經(jīng)授權(quán)的錄音時的準(zhǔn)確率低于0.1%,同時以高精度理解授權(quán)的錄音。
同時,實驗還發(fā)現(xiàn),SafeChat對常見的環(huán)境噪音具有彈性。常見的環(huán)境噪聲對掩蔽聲去除的影響不大,因為環(huán)境噪聲與掩蔽聲不相關(guān)。嘈雜的背景噪音實際上還有助于隱藏說出來的秘密。
實驗選用Note 4,Nexus 5X、Nexus 6P和Sony Z1執(zhí)行了測試,6P的效果在最大音量時最好,這可能是由于麥克風(fēng)和揚聲器的動態(tài)范圍不同導(dǎo)致的。實驗也發(fā)現(xiàn),掩蔽聲的音量不能設(shè)置過大,因為播放全音量的掩蔽聲會導(dǎo)致非線性失真和麥克風(fēng)飽和。
為了評估SafeChat在對抗人類識別秘密方面的表現(xiàn),實驗招募了超過317名用戶來識別6名測試參與者錄制的音頻,最終發(fā)現(xiàn)雖然一些受試者可以識別混合掩蔽聲的錄音片段中的一些內(nèi)容,但因為識別錯誤,所以識別準(zhǔn)確率還是很高的。
在可用性方面,用戶在第一次使用SafeChat時,需要1.6輪才能通過初始訓(xùn)練階段??紤]到每次訓(xùn)練大約需要6秒的時間(包括處理時間),訓(xùn)練的總時間開銷平均小于10秒。在通過培訓(xùn)階段后,用戶只需1.3輪就可以讀取與SafeChat設(shè)置兼容的音量的8位數(shù)密碼。最終,識別掩蔽和恢復(fù)后錄音中的秘密信息準(zhǔn)確率分別為22%和93%。
然而,手機自帶的回聲消除功能是在芯片級別實現(xiàn)的,因此有概率將掩蔽聲消除掉,無法阻止。
參考文獻(xiàn)
[1]Nazir Saleheen. mSieve: Differential Behavioral Privacy in Time Series of Mobile Sensor Data. In Proceedings of ACM UbiComp ’16. 706–717
[2]Yu-Chih Tung, Kang G. Shin, and Kyu-Han Kim. Analog Man-in-the-middle Attack Against Link-based Packet Source Identification. In Proceedings of ACM MobiHoc ’16. 331–340
[3]Souvik Sen, Naveen Santhapuri, Romit Roy Choudhury, and Srihari Nelakuditi. [n.d.]. Successive Interference Cancellation: A Back-of-the-envelope Perspective. In Proceedings of the 9th ACM Hotnets ’10. 17:1–17:6.
[4]R. Gary Leonard and George Doddington. [n.d.]. TIDIGITS Dataset.