Reddit用戶逆向工程蘋果CSAM工具:發(fā)現(xiàn)算法早已存在
據(jù)外媒報(bào)道,本月早些時(shí)候,蘋果宣布將為其整個(gè)生態(tài)系統(tǒng)引入新的兒童安全功能。作為這項(xiàng)努力的一部分,這家位于庫比蒂諾的公司將通過使用設(shè)備上的機(jī)器學(xué)習(xí)來掃描iCloud和Messages應(yīng)用上的內(nèi)容以此來檢測出可能存在的兒童性虐待材料(CSAM)。
在受到批評后,蘋果發(fā)布了一份六頁的文件以概述其使用設(shè)備上的機(jī)器學(xué)習(xí)和一種名為NeuralHash的算法來對抗CSAM的方法。
蘋果進(jìn)一步表示,其CSAM檢測模塊正在開發(fā)中且只會(huì)掃描被標(biāo)記為有問題的圖像。
然而在最新的進(jìn)展中,一位好奇的Reddit用戶進(jìn)入了蘋果隱藏的API并對NeuralHash算法進(jìn)行了逆向工程。令人驚訝的是,他們發(fā)現(xiàn)這種算法早在iOS 14.3就存在于蘋果的生態(tài)系統(tǒng)中。這可能會(huì)引起一些人的驚訝,因?yàn)檎麄€(gè)CSAM事件是一個(gè)最近才出現(xiàn)的東西,但這位用戶卻指出,有很好的理由相信這一發(fā)現(xiàn)是合法的。
首先,發(fā)現(xiàn)模型的文件都附加了NeuralHashv3b前綴。它遵循了蘋果六頁紙的命名規(guī)則。其次,還注意到,未公開的源代碼使用了跟蘋果文檔中概述的相同的合成哈希的過程。第三,蘋果稱他們的哈希方案創(chuàng)建的哈希幾乎獨(dú)立于圖像的大小和壓縮,這也是該名Reddit用戶在源代碼中發(fā)現(xiàn)的,這進(jìn)一步鞏固了他們的信念,即確實(shí)發(fā)現(xiàn)了隱藏在源代碼深處的NeuralHash。
Reddit用戶在GitHub上發(fā)布了發(fā)現(xiàn)。雖然他沒有公布導(dǎo)出的模型文件,但他概述了提取模型并將其轉(zhuǎn)換為可部署的ONNX運(yùn)行時(shí)格式的過程。在導(dǎo)出模型后,他測試運(yùn)行了推斷并給出了一個(gè)樣本圖像。
根據(jù)這位Reddit用戶的說法,所有設(shè)備上的哈希都是一樣的,除了幾個(gè)bits之外,而這是意料之中的行為,因?yàn)镹euralHash負(fù)責(zé)處理浮點(diǎn)計(jì)算,其準(zhǔn)確性在很大程度上取決于硬件。另外,他還補(bǔ)充稱,蘋果很可能會(huì)在隨后的數(shù)據(jù)庫匹配算法中適應(yīng)這些相差幾位的差異。
這位Reddit用戶認(rèn)為,現(xiàn)在是深入研究NeuralHash的工作原理及其對用戶隱私的影響的好時(shí)機(jī)。