2021年ML和NLP學(xué)術(shù)統(tǒng)計:谷歌斷層第一,強(qiáng)化學(xué)習(xí)大牛Sergey Levine位居榜首
2021 年是自然語言處理(NLP)和機(jī)器學(xué)習(xí)(ML)非常高產(chǎn)的一年,現(xiàn)在是時候統(tǒng)計一下去年 NLP 和 ML 領(lǐng)域的論文了。
來自劍橋大學(xué)機(jī)器學(xué)習(xí)和自然語言處理的研究員 MAREK REI 總結(jié)分析了 2021 年經(jīng)典論文,并歸納了 2021 年 ML 和 NLP 出版物的統(tǒng)計數(shù)據(jù),他對人工智能行業(yè)的主要會議和期刊進(jìn)行了分析,它們包括 ACL、EMNLP、NAACL、EACL、CoNLL、TACL、CL、NeurIPS、AAAI、ICLR、 ICML。
論文的分析是使用一系列自動化工具完成的,可能并不完美,會存在一些紕漏和錯誤。出于某些原因,一些作者開始以模糊的形式發(fā)布他們的論文,以防止任何形式的內(nèi)容復(fù)制或自動提取內(nèi)容,分析過程排除了這些論文。
現(xiàn)在我們看一下 MAREK REI 統(tǒng)計結(jié)果。
以學(xué)術(shù)會議統(tǒng)計
大多數(shù)會議的投稿量不斷上升并打破紀(jì)錄。ACL 似乎是一個例外, AAAI 幾乎趨于平穩(wěn),而 NeurIPS 仍保持穩(wěn)定增長。
以機(jī)構(gòu)統(tǒng)計
2021 年發(fā)表論文數(shù)斷層式領(lǐng)先的研究機(jī)構(gòu)當(dāng)屬谷歌;微軟排名第二;CMU、斯坦福大學(xué)、Meta 和 MIT 排名緊隨其后,清華大學(xué)位居第七。微軟、CAS、亞馬遜、騰訊、劍橋、華盛頓和阿里巴巴在 NLP 會議上擁有相當(dāng)大比例的論文脫穎而出,而其他頂級組織似乎主要關(guān)注 ML 領(lǐng)域。
從 2012-2021 年的數(shù)據(jù)來看,谷歌發(fā)表了 2170 篇論文位居第一,超過了微軟發(fā)表的 2013 篇論文。CMU 發(fā)表了 1881 篇論文,排名第三。
大多數(shù)機(jī)構(gòu)還在繼續(xù)增加其年度出版物數(shù)量。谷歌發(fā)表論文數(shù)量以前呈線性增長,現(xiàn)在這一趨勢有所緩解,但仍然比以前發(fā)表的論文多;CMU 去年有一個平臺期,但今年已經(jīng)彌補了這一點;IBM 似乎是唯一一家發(fā)表論文略有下滑的機(jī)構(gòu)。
以作者統(tǒng)計
接下來,讓我們看看 2021 年發(fā)表論文最多的研究人員。Sergey Levine(加州大學(xué)伯克利分校電氣工程和計算機(jī)科學(xué)系助理教授)發(fā)表了 42 篇論文,排名第一;劉鐵巖(微軟)、周杰(清華大學(xué))、Mohit Bansal(北卡羅來納大學(xué)教堂山分校)、Graham Neubig(CMU)發(fā)表論文數(shù)量排名也比較靠前。
縱觀 2012-2021 年,Sergey Levine 發(fā)表的論文位居榜首,去年他排名第六,今年一躍排名第一;Yoshua Bengio(蒙特利爾)、Graham Neubig (CMU)、張岳 (西湖大學(xué))、周明 (創(chuàng)新工場首席科學(xué)家)、 Ting Liu (哈爾濱工業(yè)大學(xué)) 等人發(fā)表論文數(shù)量排名也比較靠前。
Sergey Levine 以相當(dāng)大的優(yōu)勢創(chuàng)造了新的記錄;Mohit Bansal 的論文數(shù)量也大幅增加,2021 年發(fā)表了 31 篇論文,與 Graham Neubig 持平;Yoshua Bengio 的論文數(shù)量在 2020 年有所減少,但現(xiàn)在又上升了。
以第一作者發(fā)表論文統(tǒng)計
發(fā)表論文數(shù)量最多的研究人員通常是博士后和導(dǎo)師。相比之下,以第一作者身份發(fā)表論文較多的通常是從事實際研究的人。
Ramit Sawhney(Tower Research Capital 技術(shù)總監(jiān))在 2021 年發(fā)表了 9 篇有影響力的論文,Jason Wei(谷歌)、Tiago Pimentel (劍橋大學(xué)博士生)分別發(fā)表了 6 篇比較有影響力的論文。
從 2012-2021 年分布來看,Ivan Vuli? (劍橋大學(xué))和 Zeyuan Allen-Zhu(微軟)都以第一作者身份發(fā)表了 24 篇比較有影響力的論文,并列第一;Yi Tay (谷歌)和李紀(jì)為(香儂科技)排名第二,分別以第一作者身份發(fā)表了 23 篇和 22 篇論文比較有影響力的論文;Ilias Diakonikolas (威斯康星大學(xué)麥迪遜分校)以第一作者身份發(fā)表了 15 篇 NeurIPS 論文。
以國家統(tǒng)計
2021 年各國出版物數(shù)量,美國出版物數(shù)量最多,中國和英國分別位列第 2、第 3。在美國和英國,NeurIPS 所占比例最大,而 AAAI 在中國占比最大。
縱坐標(biāo)從上到下分別為 500、1000、1500、2000、2500,依次類推
幾乎所有排名靠前的國家都在繼續(xù)增加其出版物數(shù)量,并在 2021 年創(chuàng)造了新的記錄。對于美國來說,這一增長是最大的,進(jìn)一步擴(kuò)大了領(lǐng)先優(yōu)勢。
在美國,谷歌、微軟和 CMU 再次位居出版數(shù)量之首。
在中國,清華大學(xué)、中國科學(xué)院和北京大學(xué)在 2021 年發(fā)表的論文最多。
以主題相關(guān)度統(tǒng)計
通過可視化得出,這些組織主要是根據(jù)地理位置的接近程度聚集在一起的,公司位于中間。
我們也可以將作者進(jìn)行可視化,不過這種可視化有些難以理解。
以關(guān)鍵詞統(tǒng)計
我們還可以繪制包含特定關(guān)鍵詞的論文比例,并跟蹤這一比例隨時間的變化。
「neural」一詞似乎有輕微的下降趨勢,雖然你仍可以在 80% 的論文中見到它。同時,「recurrent」和「convolutional」的占比也在下降,而「transformer」一詞出現(xiàn)在了 30% 以上的論文中。
如果單看「adversarial」一詞,我們會發(fā)現(xiàn)它在 ICLR 中很常見,幾乎一半的論文都提到了它。ICML 和 NeurIPS 中的「adversarial」比例似乎之前已經(jīng)達(dá)到頂峰,而 AAAI 還沒有。
在過去的幾年里,「transformer」一詞變得非常流行。它在 NLP 論文中應(yīng)用尤其廣泛,超過 50% 的已發(fā)表論文都包含它,在所有的 ML 會議中,它的受歡迎程度也在穩(wěn)步上升。