ML社區(qū)八大「毒瘤」:盲目崇拜、相互攻訐、重SOTA輕實效……
俗話說,有人的地方就有江湖,就會充斥著各種立場和利益糾紛??蒲蓄I(lǐng)域亦如此,機器學(xué)習(xí)社區(qū)近來掀起來的一系列關(guān)于種族偏見的熱議就是鮮活的例證。我們先回顧一下這件事情的來龍去脈:
大約一周前,杜克大學(xué)提出了一種將高糊人臉照片轉(zhuǎn)換成清晰面部圖像的 PULSE 方法,但意外的是,研究中的一張生成圖像掀起了眾議,人們紛紛指責(zé)該方法存在種族偏見。
輸出后的奧巴馬變成了「白人小伙」。
之后,圖靈獎得主、Facebook 首席 AI 科學(xué)家 Yann Lecun 也因自己對此事的評價而遭到網(wǎng)友的口誅筆伐,最后不得不宣布退出推特。
那么問題來了,此次事件是否反映了機器學(xué)習(xí)社區(qū)對技術(shù)或數(shù)據(jù)持有明顯的偏向性態(tài)度呢?除此之外,機器學(xué)習(xí)社區(qū)還存在著哪些痼疾以及新出現(xiàn)的壞現(xiàn)象呢?
今日,reddit 用戶 yusuf-bengio 發(fā)帖總結(jié)了當(dāng)前機器學(xué)習(xí)社區(qū)存在的 8 大「毒瘤」,內(nèi)容涉及同行評審、盲目學(xué)術(shù)崇拜、 多樣性、過度重視頂會論文發(fā)表以及學(xué)術(shù)攻訐等,引發(fā)了網(wǎng)友的熱議。
我們先來看下這些問題的具體內(nèi)容。
ML 社區(qū)的 8 大「毒瘤」
首先,同行評審的規(guī)則被打破。有四分之一的 NeurIPS 提交論文都被放到了 arXiv 上。DeepMind 的研究者公開質(zhì)疑批評他們提交論文至 ICLR 的審稿人。最重要的是,盡管審稿人認為應(yīng)該拒收論文,放在 arXiv 上的知名機構(gòu)提交的論文還是被頂會接收了。相較之下,AC 卻否決了一些評分很高的論文。
第二點,存在復(fù)現(xiàn)危機。在測試集上調(diào)整超參數(shù)似乎是目前的實踐標(biāo)準(zhǔn)了。沒有打破當(dāng)前 SOTA 紀錄的論文沒有機會被較好的學(xué)術(shù)會議接收。因此很多研究只是對超參數(shù)進行調(diào)整以及提出一些細微的技巧,使其看起來存在性能增益,但實際上并沒有。
第三點,存在盲目的學(xué)術(shù)崇拜。與斯坦福、DeepMind 這些頂級機構(gòu)有關(guān)的論文都會得到高度贊譽,即使并沒有什么重大突破。比如,BERT 被引用的次數(shù)是 ULMfit 的 7 倍。谷歌的從屬關(guān)系為論文提供了如此多的信譽和曝光度。每次 ICML 會議,無論研究內(nèi)容是什么,DeepMind 的 poster 都會吸引很多人。同樣的事情還發(fā)生在 ICLR 2020 在 Zoom 上舉辦的虛擬會議上。
此外,即使都是機器學(xué)習(xí)頂會,但 NeurIPS 2020 的論文提交量卻是 ICML 的兩倍。為什么會如此?為什么 “neural” 這個詞如此受歡迎?還有,Bengio、Hinton 和 LeCun 確實是深度學(xué)習(xí)的先驅(qū),但是稱呼他們?yōu)?AI“教父”就太瘋狂了。這實在是種過度崇拜。
第四點,雖然 Yann LeCun 談?wù)撈姾凸叫缘姆绞斤@得有點事不關(guān)己,但他遭受的口誅筆伐也超出了合理的范疇。讓 LeCun 或者其他人閉嘴解決不了任何問題。
第五點,機器學(xué)習(xí)和計算機科學(xué)社區(qū)普遍存在著嚴重的「多樣性」問題,其中最明顯的就是教授和學(xué)生中的男女比例問題。女性在博士或博士后期間休育嬰假常常意味著其學(xué)術(shù)生涯的結(jié)束。并且,這種「多樣性」的缺乏又經(jīng)常被濫用,成為某些人免受任何批評的借口。將學(xué)術(shù)探討中的每個負面評論歸咎于種族和性別會營造不良的學(xué)術(shù)氛圍。人們越來越害怕被他人看作「種族主義者」或「性別歧視者」,這反過來又加劇了這種「多樣性」問題。
第六點,為其他人隨意扣上道德倫理喪失的帽子。近期以來,美國國內(nèi)的政治和種族抗議活動主導(dǎo)了一切學(xué)術(shù)討論。
第七點,社區(qū)存在著一種殘酷的「不發(fā)表,就發(fā)臭」的心態(tài)。如果你每年不能發(fā)表 NeurIPS 或 ICML 等學(xué)術(shù)會議論文,就會被稱為「失敗者」。此外,研究團隊的規(guī)模變得越來越大,有時 PI 甚至叫不全手底下博士生的名字。有的研究者癡迷于投頂會論文,每年甚至提交數(shù)十篇論文。這太可怕了。寫論文的唯一目標(biāo)變成了在簡歷上添加一筆頂會接收論文的經(jīng)歷,所有的一切都變得很功利。在提交論文時,質(zhì)量是次要的,想法設(shè)法通過同行評審成為了主要目的。
第八點,學(xué)術(shù)探討變得粗暴無禮。舉例來說,Schmidhuber 稱 Hinton 為「小偷」,Gebru 稱 LeCun 為「白人至上主義者」,Anandkumar 稱 Marcus 為「性別歧視者」。大佬之間尚且相互攻訐,這終歸不利于構(gòu)建健康和諧的機器學(xué)習(xí)環(huán)境。
所以,我們是否可以停止妖魔化持有不同觀點的人,允許不同觀點的存在,不要吹毛求疵。如果我們僅僅因為觀點不同而強迫他們閉嘴,那恐怕也宣告了科學(xué)和社會進步的終結(jié)吧!
不止 ML 社區(qū),其他領(lǐng)域亦是如此
上文提到的這些「毒瘤」的確存在,也不可避免地對機器學(xué)習(xí)社區(qū)的學(xué)術(shù)氛圍產(chǎn)生了負面的影響。網(wǎng)友對這些問題持什么態(tài)度呢?點贊最多的便是第三點的學(xué)術(shù)盲目崇拜現(xiàn)象。
網(wǎng)友表示,一些不知名學(xué)者的有趣研究雖能引起注意,但評論的人卻少之又少;與之相比,機器學(xué)習(xí)名人的一篇推特卻能有數(shù)百條評論。這種現(xiàn)象恐怕不利于新研究或技術(shù)的推廣和持續(xù)發(fā)展。
還有網(wǎng)友提到了其他社區(qū),如物理社區(qū),稱這類社區(qū)或許不像機器學(xué)習(xí)社區(qū)那樣充斥著攻訐和分裂。他表示,機器學(xué)習(xí)固然存在著廣泛的社會影響,但人們將他們的政治理念強加在自身的研究上是多么的荒謬。
但這位網(wǎng)友的觀點遭到了其他人的反駁,表示物理、數(shù)學(xué)、邏輯和哲學(xué)等其他領(lǐng)域恐怕亦是如此。
對此,你有什么看法?
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/hiv3vf/d_the_machine_learning_community_has_a_toxicity/
【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】