深度學(xué)習(xí)先驅(qū)Yann LeCun被罵退推特:你們都很懂,從此我不說(shuō)話了
在長(zhǎng)達(dá)兩周的「罵戰(zhàn)」之后,圖靈獎(jiǎng)得主、Facebook 首席 AI 科學(xué)家 Yann Lecun 宣布,自己將退出推特。
「我請(qǐng)求社交網(wǎng)絡(luò)上的所有人不要再互相攻擊了,特別是對(duì)于 Timnit Gebru 的攻擊,以及對(duì)于我之前一些言論的攻擊?!筜ann LeCun 剛剛在推特上發(fā)出了這樣的呼吁?!笩o(wú)論是口頭還是其他方式的沖突,都只能獲得傷害和相反的結(jié)果。我反對(duì)一切形式的歧視。這里有一篇關(guān)于我核心價(jià)值觀的文章。」
「這是我在推特上最后一篇有內(nèi)容的帖子,大家再見(jiàn)。」
看起來(lái) 2018 年圖靈獎(jiǎng)得主、人工智能領(lǐng)軍人物 Yann LeCun 已經(jīng)下定決心想對(duì)長(zhǎng)達(dá)兩周的激烈討論畫(huà)上句號(hào)。而這場(chǎng)鬧得沸沸揚(yáng)揚(yáng)的罵戰(zhàn),起因正是被指「嚴(yán)重種族歧視」的 PULSE 算法。
這一工作由杜克大學(xué)推出,其人工智能算法可以將模糊的照片秒變清晰,效果極佳。這項(xiàng)研究的論文已在 CVPR 2020 上發(fā)表(論文《PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》)。
PULSE 在 CVPR 大會(huì)期間引來(lái)了人們的關(guān)注,進(jìn)而引發(fā)了 AI 社區(qū)的廣泛爭(zhēng)議。首先,這種方法所產(chǎn)出的圖像清晰度更高,細(xì)節(jié)也更加豐富:PULSE 能夠在幾秒內(nèi)將一張 16×16 像素的圖片提升至 1024×1024 分辨率,提升高達(dá) 4096 倍。目前該算法僅針對(duì)人臉照片,算法生成的照片清晰到可以呈現(xiàn)出人臉上的毛孔、皺紋甚至一縷頭發(fā)。
但本質(zhì)上看,PULSE 并不是在消除馬賽克,而是「生成」了看上去真實(shí)卻并不存在的人臉。超分辨率算法一直是計(jì)算機(jī)科學(xué)的熱門(mén)研究領(lǐng)域,以往科學(xué)家們提出的還原方法是在低分辨率圖片中添加像素點(diǎn)。但 PULSE 使用 GAN 的思路,先利用深度學(xué)習(xí)算法生成一些高清圖片,再降低它們的分辨率,并與模糊的原圖對(duì)比,從中找出匹配程度最高、最接近原圖的高清圖像隨后輸出。
問(wèn)題就出在這里,有網(wǎng)友試用了 PULSE 之后,發(fā)現(xiàn)高糊照片經(jīng)過(guò)去碼處理以后,生成的是一張「白人面孔」:
有網(wǎng)友質(zhì)疑該方法生成結(jié)果存在偏見(jiàn),對(duì)此項(xiàng)目作者也給出了回應(yīng),表示這一偏見(jiàn)很可能來(lái)自于 StyleGAN 的訓(xùn)練數(shù)據(jù)集,可能還有其他未知因素。
「我們意識(shí)到偏見(jiàn)是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域的重要問(wèn)題,并就此問(wèn)題聯(lián)系了 StyleGAN 和 FFHQ 數(shù)據(jù)集的創(chuàng)建者。我們希望這能夠促進(jìn)不具備此類偏見(jiàn)行為的方法的誕生?!?/p>
但這件事還沒(méi)完,鑒于美國(guó)目前 BLM 的輿論環(huán)境,人們很快就開(kāi)始深入討論機(jī)器學(xué)習(xí)研究結(jié)果缺乏多樣性的問(wèn)題。在這其中,種族偏見(jiàn)和性別偏見(jiàn)的問(wèn)題一直存在,迄今為止卻沒(méi)人給出一個(gè)好的解決辦法。
也就在這個(gè)時(shí)候,Yann LeCun 發(fā)布了一條推特,來(lái)解釋為什么 PULSE 會(huì)出現(xiàn)這樣的偏見(jiàn)。
「機(jī)器學(xué)習(xí)系統(tǒng)的偏差是因?yàn)閿?shù)據(jù)的偏差。這一人臉上采樣系統(tǒng)其結(jié)果傾向于白人是因?yàn)樯窠?jīng)網(wǎng)絡(luò)是在 FlickFaceHQ 上預(yù)訓(xùn)練的,其中的大部分圖片基本是白人照片,」Yann LeCun 說(shuō)道?!溉绻@一系統(tǒng)用塞內(nèi)加爾的數(shù)據(jù)集訓(xùn)練,那肯定所有結(jié)果看起來(lái)都像非洲人?!?/p>
Yann LeCun 的說(shuō)法本身沒(méi)有錯(cuò),但可能是因?yàn)檫^(guò)于直白了,一下子讓大量 AI 從業(yè)者和研究人員炸了鍋。LeCun 希望將人們的注意力引向數(shù)據(jù)集的偏差,但推特網(wǎng)友不買帳,并指責(zé)他「用這種陳舊的理由來(lái)掩蓋問(wèn)題本質(zhì)」。
之后,Yann LeCun 又在多條推文來(lái)解釋自己關(guān)于偏見(jiàn)的立場(chǎng),但仿佛已經(jīng)沒(méi)有用了。
「與學(xué)術(shù)論文相比,這種偏見(jiàn)在已經(jīng)部署的產(chǎn)品中產(chǎn)生的后果會(huì)更加可怕?!惯@句話的含義被解讀為「不必為此特例而過(guò)分擔(dān)心」,引發(fā)了諸多同行的質(zhì)疑。
斯坦福 AI Lab 成員、Google AI 科學(xué)家 Timnit Gebru(她是一名非洲裔美國(guó)人),對(duì) LeCun 的言論表示「失望」。
Yann LeCun 甚至在 Timnit Gebru 的推特評(píng)論區(qū)連寫(xiě) 17 條回復(fù):
當(dāng)然,需要討論的也不只是機(jī)器學(xué)習(xí)中的偏見(jiàn)問(wèn)題:
「同樣需要避免的是在對(duì)話中產(chǎn)生惡意,它只會(huì)激起情緒,傷害到所有人,掩蓋實(shí)際問(wèn)題,推遲解決方案的出現(xiàn)。」
從事數(shù)據(jù)科學(xué)領(lǐng)域超過(guò)十年的 Luca Massaron 認(rèn)為,盡管從技術(shù)角度來(lái)看 Yann LeCun 是完全正確的,但看看這種觀點(diǎn)被拋出之后公眾的反應(yīng),你就會(huì)知道談?wù)撍嵌嗝吹拿舾小?/p>
「人們總是害怕自己會(huì)被不公平的規(guī)則控制,進(jìn)而無(wú)條件地,有時(shí)甚至毫無(wú)理由地懼怕 AI 剝奪人們的自由,而不僅僅是工作,」Luca Massaron 說(shuō)道。「我個(gè)人并不擔(dān)心 Face Depixelizer 這類研究,我所害怕的是在應(yīng)用之后,我們無(wú)法識(shí)別和挑戰(zhàn)偏見(jiàn)。」
如今,越來(lái)越多的機(jī)器學(xué)習(xí)自動(dòng)化技術(shù)正在進(jìn)入我們的生活,立法者在這里扮演的角色非常重要。在歐盟國(guó)家,為了確保數(shù)據(jù)使用的透明度和責(zé)任,GDPR 條例要求互聯(lián)網(wǎng)公司保證算法的可解釋性,以及用戶對(duì)于自身數(shù)據(jù)的控制力。
如果我們希望 AI 能夠朝著正確的方向發(fā)展,我們需要追求的或許不是無(wú)偏見(jiàn),而是透明度。Luca 認(rèn)為,如果算法是有偏見(jiàn)的,我們可以挑戰(zhàn)它的推斷結(jié)果并解決問(wèn)題。但如果算法的推理機(jī)制不可知,或許其中還隱藏著更大的問(wèn)題。
不可否認(rèn)的是,人類社會(huì)存在著各種偏見(jiàn),但因此而認(rèn)為機(jī)器傾向于更「流行」的答案是理所應(yīng)當(dāng)?shù)?,或許不是一個(gè)正確的觀點(diǎn)。
人們對(duì)于 PULSE 的討論,以及 LeCun 的攻擊,有很多已脫離了 LeCun 的本意。
作為這場(chǎng)爭(zhēng)議的起因,杜克大學(xué)的研究者們已在 PULSE 網(wǎng)站中表示將會(huì)修正有關(guān)偏見(jiàn)的問(wèn)題。目前論文中已經(jīng)增加了一個(gè)新的部分,并附加了可以解決偏差的模型卡。
為了達(dá)成沒(méi)有偏見(jiàn)的目標(biāo),我們必須讓整個(gè)人工智能社區(qū)行動(dòng)起來(lái)。但在有關(guān)技術(shù)的討論之中讓技術(shù)大牛心灰意冷,是大多數(shù)人都不想看到的結(jié)果。Yann LeCun 此前一直以直言不諱著稱,他在社交網(wǎng)絡(luò)上經(jīng)常會(huì)對(duì)熱門(mén)的深度學(xué)習(xí)研究發(fā)表評(píng)論,也可以直面其他人工智能著名研究者的批評(píng)。
機(jī)器學(xué)習(xí)模型中的偏見(jiàn)可能會(huì)使得推理的專業(yè)性受到侵害,導(dǎo)致大量業(yè)務(wù)遭受影響卻不為人所知。我們還沒(méi)有解決這個(gè)問(wèn)題一勞永逸的方法。