灌水論文為何泛濫？Reddit小哥揭露機(jī)器學(xué)習(xí)領(lǐng)域殘酷現(xiàn)狀

作者：新智元 2021-03-11 09:55:51

新聞機(jī)器學(xué)習(xí)

這是一則來(lái)自傳統(tǒng)工程領(lǐng)域的科研人員對(duì)機(jī)器學(xué)習(xí)領(lǐng)域發(fā)表論文的「深度觀察」：很水卻出版的秘訣是？

這幾年，AI的趨勢(shì)只增不減，每年各大機(jī)器學(xué)習(xí)會(huì)議開(kāi)得那叫一個(gè)如火如荼，大家仿佛都對(duì)這個(gè)領(lǐng)域永遠(yuǎn)充滿了旺盛的探索欲。

不過(guò)最近，對(duì)于機(jī)器學(xué)習(xí)會(huì)議出版的各種論文出現(xiàn)了質(zhì)疑的聲音，并也獲得了不小的關(guān)注：

近日，Reddit上，一位出身于傳統(tǒng)工程領(lǐng)域的小哥發(fā)布了一則帖子，上面記錄了他對(duì)近期機(jī)器學(xué)習(xí)出版論文的觀察：

「我注意到，有很多研究人員致力于諸如優(yōu)化、控制、信號(hào)處理等“老”領(lǐng)域的交叉領(lǐng)域，他們會(huì)突然發(fā)表大量的聲稱要解決某個(gè)問(wèn)題的論文。

而問(wèn)題本身通常是最近產(chǎn)生的，有時(shí)會(huì)涉及到一些深度神經(jīng)網(wǎng)絡(luò)。

然而，經(jīng)過(guò)仔細(xì)檢查，這些論文唯一的新奇之處，是這個(gè)問(wèn)題(通常是由其他不相關(guān)的團(tuán)體提出的)，而不是研究人員提出的旨在解決這個(gè)問(wèn)題的方法。

我很困惑，為什么大量看似「很弱」的論文，居然可以被接受。

灌水論文為何泛濫？Reddit小哥揭露機(jī)器學(xué)習(xí)領(lǐng)域殘酷現(xiàn)狀

接著，這位小哥發(fā)現(xiàn)了這些論文能投中會(huì)議的秘訣：

1.只發(fā)機(jī)器學(xué)習(xí)會(huì)議

這些研究小組只會(huì)在機(jī)器學(xué)習(xí)會(huì)議上發(fā)表文章(而不會(huì)在優(yōu)化和控制會(huì)議/期刊上發(fā)表文章，而這些可能是他們工作的核心)。

例如，在一篇關(guān)于對(duì)抗機(jī)器學(xué)習(xí)的論文中，整篇論文實(shí)際上是關(guān)于解決一個(gè)優(yōu)化問(wèn)題的，但優(yōu)化的算法基本上只是在其他前人優(yōu)秀方法的基礎(chǔ)上稍微變化了一點(diǎn)而已。

此外，這位小哥還注意到，如果一篇論文沒(méi)有通過(guò)NeurIPS或ICLR，它們將被直接發(fā)送到AAAI和其他一些小型會(huì)議，在那里它們將被接受。

所以，在這個(gè)領(lǐng)域里，并沒(méi)有什么東西被浪費(fèi)掉。

2.審稿人們不知道發(fā)生了什么

通過(guò)openreview，國(guó)外小哥發(fā)現(xiàn)審稿人(不僅僅是研究人員)對(duì)他們的特定領(lǐng)域一無(wú)所知，而似乎只會(huì)評(píng)論論文的正確性，而不是新穎性。

事實(shí)上，他懷疑審稿人自己是否知道這種方法的新穎性。

在這里所說(shuō)的新穎性，是指某項(xiàng)技術(shù)的最新發(fā)展是多么新穎，尤其是當(dāng)它與運(yùn)籌學(xué)、優(yōu)化、控制和信號(hào)處理相交叉時(shí)，而實(shí)際上，最先進(jìn)的技術(shù)可能遠(yuǎn)遠(yuǎn)超乎了主流機(jī)器學(xué)習(xí)研究者的認(rèn)知。

3.隨意引用

通常情況下，研究人員只會(huì)引用他們自己或過(guò)去幾年的“機(jī)器學(xué)習(xí)人”的文獻(xiàn)。

偶爾，會(huì)有一條引用來(lái)自于幾百年前的柯西、牛頓、傅里葉、古諾、圖靈、馮·諾伊曼等人，接著，又回向后跳躍幾百年到2018年或者2019年。

所以，他們可能想表達(dá)：“這個(gè)問(wèn)題在1930年被一些「名人」研究過(guò)，然后在2018年又被「某個(gè)家伙」研究過(guò)很多次。”

4.數(shù)學(xué)公式的堆砌

通常，會(huì)有大量的數(shù)學(xué)公式，來(lái)證明一些關(guān)于特征值、梯度、雅可比矩陣的深?yuàn)W條件，以及關(guān)于他們研究問(wèn)題的一些其他奇怪的事情(在其他深?yuàn)W的假設(shè)下)。

還會(huì)有幾個(gè)定理，但是沒(méi)有一個(gè)是適用的，因?yàn)樵谶\(yùn)行它們的高度非凸深度學(xué)習(xí)應(yīng)用時(shí)，所有條件都被違反了。

因此，從這些復(fù)雜的定理+堆砌的數(shù)學(xué)公式中得到的唯一東西是「一些微弱的直覺(jué)」(然而馬上就會(huì)被違背)，接著什么也沒(méi)說(shuō)。

5.“被拋棄的技術(shù)”

這位國(guó)外小哥發(fā)現(xiàn)，某些技術(shù)在作者聲稱它擊敗了許多基準(zhǔn)測(cè)試之后，似乎將會(huì)被拋棄，并永遠(yuǎn)不會(huì)再使用。

機(jī)器學(xué)習(xí)研究人員似乎喜歡頻繁的跳過(guò)一些話題，所以這可能是其中一個(gè)愿意。

但是，通常情況下，在其他領(lǐng)域，一旦一項(xiàng)技術(shù)被提出，同一組研究人員就會(huì)用多年來(lái)改進(jìn)它，有時(shí)甚至貫徹了研究人員的整個(gè)職業(yè)生涯。

這位小哥表示：

「在某些方面,這使得某些機(jī)器學(xué)習(xí)區(qū)域就像一個(gè)回音室，在那里，研究人員正做著一些幾乎重復(fù)的事情，而這一點(diǎn)卻被問(wèn)題的新奇性所掩蓋了。

這些論文被接受，因?yàn)闆](méi)有人可以檢測(cè)論文本身真正的新穎性(或者，三個(gè)審稿人中只有一個(gè)會(huì)注意到)。

我只是覺(jué)得機(jī)器學(xué)習(xí)會(huì)議好像被當(dāng)成了「自動(dòng)收紙的搖錢樹(shù)」。

一石驚起千層浪，共鳴聲層出不窮：要么發(fā)表，要么滅亡？

這則帖子仿佛引起了大家的共鳴：

一個(gè)自稱是理論物理學(xué)家的網(wǎng)友回復(fù)道：

「這就是當(dāng)今理論物理學(xué)（和其他大多數(shù)『硬科學(xué)』學(xué)術(shù)研究的真實(shí)狀態(tài)。

“要么發(fā)表，要么滅亡”的心態(tài)根深蒂固。沒(méi)有人會(huì)在頭腦清醒的情況下嘗試解決實(shí)際困難和有意義的問(wèn)題。只需要在這里調(diào)整一個(gè)魔性的特征，在那里混合搭配一些方法，你的簡(jiǎn)歷里就會(huì)有一堆出版的論文了。

另外一個(gè)方面是，審查過(guò)程和所使用的方法缺少透明程度。比如一些半斤八兩的評(píng)論，讓學(xué)生替他們?cè)u(píng)論文章，以及一些政治原因等等。

用幾年的時(shí)間發(fā)表一篇可以實(shí)際解決科學(xué)問(wèn)題的論文的時(shí)代已經(jīng)一去不復(fù)返了。運(yùn)氣越來(lái)越成為一個(gè)幾乎比努力工作更重要的因素。

彼得·希格斯(因提出希格斯玻色子的存在和粒子獲得質(zhì)量的機(jī)制而獲得諾貝爾獎(jiǎng))多次說(shuō)過(guò)，按照現(xiàn)在的標(biāo)準(zhǔn)，他永遠(yuǎn)不會(huì)成功。

還有網(wǎng)友曾經(jīng)的研究方向是CNN，他表示：

「我曾經(jīng)的工作是有關(guān)CNN的應(yīng)用，然而，我們后來(lái)被告知說(shuō)，需要添加一些數(shù)學(xué)公式，因?yàn)檫@有助于在會(huì)議上被接受。

但是，實(shí)際上，這些方程式根本沒(méi)有任何作用，既證明不了什么新東西，也沒(méi)有提供額外的見(jiàn)解，而僅僅只是基本描述了用矩陣表示的深度學(xué)習(xí)。

在我度過(guò)的其他論文中，我經(jīng)常看到非常復(fù)雜的數(shù)學(xué)公式，如果你花一個(gè)小時(shí)去理解它，最后的結(jié)果其實(shí)用一小行話就可以描述出來(lái)。這很可悲。

這導(dǎo)致我在剛開(kāi)始非常沮喪，認(rèn)為自己永遠(yuǎn)都不會(huì)擅長(zhǎng)數(shù)學(xué)。

的確，我可能的確不擅長(zhǎng)，但是這些論文做的也并不是數(shù)學(xué)。

在數(shù)學(xué)公式的應(yīng)用上，一位研究氣候變化的工程博士也有共鳴：

「“堆砌的數(shù)學(xué)公式”是很普遍的一點(diǎn)。我們經(jīng)常被明確告知，需要用希臘字母寫出各種難以理解的數(shù)學(xué)公式，因?yàn)檫@樣可以令論文看起來(lái)更好。

“要么發(fā)表，要么滅亡”是學(xué)術(shù)圈殘酷的毒瘤?！?/p>

還有網(wǎng)友吐槽了各種對(duì)已有模型的魔改論文：

「此外，略好一些的SOTA“之類的論文，除了一些參數(shù)調(diào)整或者向DNN添加額外的層之外，沒(méi)有提出任何新穎的方法或者方面，并且閱讀起來(lái)也非常累人，最后卻被會(huì)議接受了。

堆砌的數(shù)學(xué)公式的存在，只是為了提供一種嚴(yán)謹(jǐn)感和新奇感，并掩蓋了缺乏實(shí)際創(chuàng)新能力的本質(zhì)。

當(dāng)然，對(duì)已有方法進(jìn)行迭代是正常的，但是在機(jī)器學(xué)習(xí)領(lǐng)域下，很多論文都感覺(jué)好像是在并沒(méi)有完全理解所提出方法為何有效的情況下進(jìn)行了邊際的改進(jìn)?！?/p>

結(jié)語(yǔ)

的確，每年大量的機(jī)器學(xué)習(xí)會(huì)議，接受著大量的論文投稿，而這每年數(shù)萬(wàn)篇描述「學(xué)術(shù)進(jìn)展」的論文中，到底有多少真正的發(fā)現(xiàn)？

責(zé)任編輯：張燕妮來(lái)源：新智元

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

灌水論文為何泛濫？Reddit小哥揭露機(jī)器學(xué)習(xí)領(lǐng)域殘酷現(xiàn)狀