ImageNet決定給人臉打碼，卻讓哈士奇圖片識別率猛增

作者：曉查 2021-03-17 15:32:19

315晚會讓大家意識到人臉識別有多可怕。在大洋彼岸，全球最具影響力的AI數(shù)據(jù)集也開始行動了。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

315晚會讓大家意識到人臉識別有多可怕。在大洋彼岸，全球最具影響力的AI數(shù)據(jù)集也開始行動了。

近日，ImageNet數(shù)據(jù)集決定：給所有人臉打碼，保護被收錄者隱私。

ImageNet管理者之一Olga Russakovsky與李飛飛團隊合作，一起“糾察”數(shù)據(jù)集中所有包含人臉的圖像。

ImageNet總共有1000多個標簽，其中只有3個標簽與人相關(guān)，而很多看似與人臉無關(guān)的標簽下，反而可能有大量人臉照片。

因此，研究團隊通過亞馬遜Rekognition的自動人臉識別以及眾包方式，在150萬張圖片中，找出了243198張包含人臉的圖片。

這些圖片中的562626張人臉都已被模糊處理。

給人臉打碼會影響AI模型效果嗎？這恐怕是“煉丹”人士最關(guān)心的問題了。

在修改數(shù)據(jù)集之后，普林斯頓大學(xué)的博士生楊凱峪對這個問題進行了一番研究。

偏差不大，但結(jié)果微妙

研究者使用模糊處理后的數(shù)據(jù)集進行目標檢測和場景檢測基準測試。

在AlexNet、VGG、ResNet等15種主流網(wǎng)絡(luò)模型上測試后發(fā)現(xiàn)，Top-1準確率最多下降1%，平均僅下降0.66%，Top-5準確率平均下降0.42%。

根據(jù)圖片中模糊區(qū)域比例的不同，Top-1準確率下降程度隨著模糊比例的增大，最高超過4%。

某些類別中離模糊人臉更近的目標，例如口琴或面具，會導(dǎo)致更高的分類錯誤率。

令人費解的是，一些沒有人臉的照片反而會有很大的準確率波動，比如“哈士奇”、“愛斯基摩犬”分類。

其中，愛斯基摩犬的識別準確率出現(xiàn)大幅下降，而哈士奇的識別準確率反而大幅上升。

連作者也覺得很奇怪，因為這兩個類別中的大多數(shù)圖像都沒有人臉。具體原因如何只有等待后續(xù)研究了。

MIT科學(xué)家Aleksander Madry認為，模糊人臉的數(shù)據(jù)集訓(xùn)練的AI有時候很奇怪，數(shù)據(jù)中的偏差非常微妙，但可能會帶來嚴重的后果。

2020年，在計算機科學(xué)道德倫理學(xué)術(shù)會議FAccT上，ImageNet數(shù)據(jù)集刪除了“人”子樹中2702個同義集，因為這些類別中含有令人反感、貶義或污穢的表述。例如一些種族和性別歧視的內(nèi)容。

雖然ImageNet此次對隱私問題做出了重大改變，但來自UnifyID的首席科學(xué)家Vinay Prabhu指出該數(shù)據(jù)集還有許多嚴重問題。

去年7月，Prabhu發(fā)表的一篇論文指出，ImageNet、Tiny Images等圖片數(shù)據(jù)集中不僅存在危害隱私的狀況，甚至還有一些不可描述的圖片。

在那篇論文中，Prabhu建議，對數(shù)據(jù)集中的人臉做模糊處理，并且要做到在參與者明確同意后才能收集圖片，不要為這類數(shù)據(jù)集創(chuàng)建數(shù)據(jù)共享許可證。

他曾給連續(xù)10個月給ImageNet團隊發(fā)送郵件反饋此問題，直到去年4月才收到李飛飛的回復(fù)。

而此次ImageNet團隊的論文并沒有引用他，在接受《連線》雜志采訪時，Prabhu表示對ImageNet團隊沒有承認他所做的工作感到失望。

Russakovsky回復(fù)稱，論文的更新版本將會把Prabhu的研究加入引文中。

2019年，微軟悄悄刪除了包含1000萬張圖片的人臉數(shù)據(jù)集MS Celeb，這些照片都未征得本人同意。

此前用公共攝像頭搜集的數(shù)據(jù)集，如杜克大學(xué)的MTMC、斯坦福大學(xué)的Brainwash，近年來都被悉數(shù)刪除。

在公眾隱私意識覺醒、法律逐漸完善的背景下，AI數(shù)據(jù)集到了必須要保護用戶隱私的時候了。

責(zé)任編輯：張燕妮來源：量子位