2022年「百強AI論文」出爐:清華緊隨谷歌排名第二,寧波工程學院成最大黑馬
人工智能領域的創(chuàng)新步伐越來越快,論文數(shù)量也呈爆炸式增長,甚至達到了人力無法閱讀的程度。
在2022年發(fā)表的海量論文中,哪些機構的影響力最大?哪些論文更值得讀?
最近外媒Zeta Alpha用經(jīng)典的引用次數(shù)作為評估指標,收集整理了在2022年最高引的100篇論文,并分析了不同國家、機構在過去三年里發(fā)表的高引論文數(shù)量。
美國仍然領先,中國第二
按國家來劃分的話,美國仍然占據(jù)領先地位,不過在Top-100論文中所占的比例相比2020年來說大幅下降。
中國排行第二,數(shù)據(jù)相比去年略有上漲;第三位是英國,DeepMind去年產(chǎn)出占英國總數(shù)的69%,超過了前幾年的60%;新加坡和澳大利亞在AI領域的影響力也超出分析師的預期。
按照組織來劃分的話,可以看到谷歌始終是AI領域的最強者,緊隨其后的是 Meta、微軟、加州大學伯克利分校、DeepMind和斯坦福大學,國內(nèi)排行第一的是清華大學。
作為Meta AI的帶頭人,Yann LeCun也自豪地宣布Meta在行業(yè)內(nèi)的影響力,并表示Meta AI更重視出版質量,而不是出版數(shù)量。
至于同屬于Alphabet的谷歌和DeepMind在列表中單獨計算的問題,LeCun表示DeepMind一直堅稱它們獨立于谷歌運營,這很奇怪,谷歌員工無法訪問 DeepMind的代碼庫。
盡管如今人工智能研究大多由工業(yè)界引領,單個學術機構產(chǎn)生的影響不大,但由于長尾效應,學術界整體來說還是和工業(yè)界持平的,當按照組織類型對數(shù)據(jù)進行聚合時,可以看到二者的影響力大體是相等的。
如果回顧過去三年,統(tǒng)計各個機構總的研究成果數(shù)量,可以看到谷歌仍處于領先地位,但與其他機構相比差距要小得多,值得一提的是,清華大學緊隨谷歌排行第二。
OpenAI和DeepMind甚至沒有進入前20名,當然,這些機構發(fā)表的文章數(shù)量較少,但每篇文章的影響力都很大。
如果按照出版量進入Top-100的比例來看,OpenAI獨樹一幟,在轉化率上遠超其他機構,基本上兩篇論文中就有一篇成為「年度百大論文」。
當然,從ChatGPT的火爆來看,OpenAI確實很擅長營銷,一定程度上促進了引用量的提升,不可否認的是,他們的研究成果質量非常高。
論文收集方法
首先在Zeta Alpha平臺上收集每年被引用最多的論文,然后手動檢查第一個發(fā)表日期(通常是arXiv預印本) 歸類到對應的年份中。
通過挖掘Semantic Scholar上高引的人工智能論文來補充這個列表,其覆蓋面更廣,而且能夠按引用次數(shù)進行排序,主要是從影響力很大的封閉來源出版商(例如《自然》、《愛思唯爾》、《施普林格》和其他雜志)那里獲得額外的論文。
然后將每篇論文在 Google Scholar 上的引用次數(shù)作為代表性指標,并根據(jù)這個數(shù)字對論文進行排序,得出一年內(nèi)排名前100位的論文。
對于這些論文,使用GPT-3提取作者、他們的附屬機構和國家,并手動檢查這些結果(如果國家在出版物中沒有體現(xiàn)的話,采用該組織總部所在的國家)。
擁有多個機構的作者的論文對每個附屬機構各計數(shù)一次。
2022年五強論文
1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models
論文鏈接:https://academic.oup.com/nar/article/50/D1/D439/6430488
發(fā)表機構:歐洲分子生物學實驗室,DeepMind
AlphaFold DB:https://alphafold.ebi.ac.uk
引用量:1331
AlphaFold蛋白質結構數(shù)據(jù)庫AlphaFold DB是一個可公開訪問的、廣泛的、高準確度的蛋白質結構預測的數(shù)據(jù)庫。
在DeepMind的AlphaFold v2.0的支持下,該數(shù)據(jù)庫使已知蛋白質序列空間的結構覆蓋面得到了空前的擴展。
AlphaFold DB提供了對預測的原子坐標、每個殘基和成對的模型置信度估計以及預測的對齊誤差的程序化訪問和互動式可視化。
AlphaFold DB的初始版本包含了超過36萬個預測結構,涵蓋了21種模式生物的蛋白質組,未來將擴展到UniRef90數(shù)據(jù)集的大部分(超過1億)代表性序列。
2. ColabFold: making protein folding accessible to all
論文鏈接:https://www.nature.com/articles/s41592-022-01488-1
代碼鏈接:https://github.com/sokrypton/colabfold
環(huán)境鏈接:https://colabfold.mmseqs.com
引用量:1138
ColabFold通過將MMSEQS2的快速同源搜索與AlphaFold2或Rosettafold相結合,從而加速了對蛋白質結構和復合物的預測。
ColabFold在模型利用率上可以實現(xiàn)40-60倍加速的搜索和優(yōu)化,能夠在僅具有一個圖形處理單元的服務器上預測近1000個結構。
ColabFold在Google Colaboratory的基礎上,成為了一個蛋白質折疊的免費且可訪問的平臺,也是一個可用的開源軟件。
3. A ConvNet for the 2020s
論文鏈接:https://arxiv.org/pdf/2201.03545.pdf
引用量:835
視覺識別的「Roaring 20s」(咆哮的20年代)始于視覺Transformer(ViTs)的引入,它迅速取代了ConvNets成為最先進的圖像分類模型。
另一方面,一個最簡單的ViT在應用于通用計算機視覺任務時仍然面臨著一些難題,如物體檢測和語義分割。
層次化Transformer(如Swin Transformers)重新引入了幾個ConvNet先驗,使得Transformer作為通用視覺模型骨干實際上是可行的,并在各種視覺任務中表現(xiàn)出顯著的性能。
然而,這種混合方法的有效性仍然主要歸功于Transformers的內(nèi)在優(yōu)勢,而不是Convolutions的內(nèi)在歸納偏見。
在這項工作中,研究人員重新審視了設計空間,并測試了純ConvNet所能實現(xiàn)的極限。
逐步將一個標準的ResNet「現(xiàn)代化」成ViT的設計,并在這一過程中發(fā)現(xiàn)了幾個促成性能差異的關鍵組件,探索后發(fā)現(xiàn)了一個稱為ConvNeXt的純ConvNet模型系列。
ConvNeXt完全由標準的ConvNet模塊構成,在準確性和可擴展性方面與Transformer不相上下,在COCO檢測和ADE20K分割方面取得了87.8%的ImageNet top-1準確性,并超過了Swin Transformers,同時保持了標準ConvNets的簡單性和效率。
4. Hierarchical Text-Conditional Image Generation with CLIP Latents
論文鏈接:https://arxiv.org/abs/2204.06125
引用量:718
像CLIP這樣的對比式模型(Contrastive models)已經(jīng)被證明可以學習到穩(wěn)健的圖像表征,能夠捕捉到語義和風格。
為了利用這些表征來生成圖像,研究人員提出了一個兩階段的模型:一個給定文本標題生成CLIP圖像embedding的先驗,以及一個以圖像embedding為條件生成圖像的解碼器。
實驗證明可以顯式地生成圖像表征能夠提高圖像的多樣性,在逼真度和標題的相似性方面損失最小,并且以圖像表征為條件的解碼器也能產(chǎn)生圖像的變化,保留其語義和風格,同時改變圖像表征中不存在的非必要細節(jié)。
此外,CLIP的聯(lián)合embedding空間使language-guided下的圖像操作能夠以zero-shot的方式進行。
對解碼器使用擴散模型,并對先驗的自回歸和擴散模型進行實驗,發(fā)現(xiàn)后者在計算上更有效率,能夠生成質量更高的樣本。
5. PaLM: Scaling Language Modeling with Pathways
論文鏈接:https://arxiv.org/pdf/2204.02311.pdf
引用量:426
大型語言模型已被證明在各種自然語言任務中使用few-shot學習即可達到更高的性能,極大地減少了使模型適應特定應用所需的特定任務訓練實例的數(shù)量。
為了進一步了解scale對few-shot學習的影響,研究人員訓練了一個5400億參數(shù)、密集激活的Transformer語言模型Pathways Language Model(PaLM)。
使用Pathways(一個新的ML系統(tǒng),能夠在多個TPU Pods上進行高效的訓練)在6144個TPU v4芯片上訓練得到PaLM,通過在數(shù)百個語言理解和生成基準上取得最先進的few-shot學習結果證明了scaling的好處。
在其中一些任務上,PaLM 540B實現(xiàn)了突破性的性能,在一套多步驟推理任務上超過了微調(diào)的最先進水平,并在最近發(fā)布的BIG-bench基準上超過了人類的平均性能。
大量的BIG-bench任務顯示了模型規(guī)模的不連續(xù)改進,也意味著當規(guī)模擴大到最大的模型時,性能陡然提高。
PaLM在多語言任務和源代碼生成方面也有很強的能力,這一點也在一系列基準測試中得到了證明。
此外,研究人員還對偏見和毒性進行了全面的分析,并研究了與模型規(guī)模有關的訓練數(shù)據(jù)記憶程度,最后討論了與大型語言模型有關的倫理考慮,并討論了潛在的緩解策略。
2022年國內(nèi)五強論文
1. Swin Transformer V2: Scaling Up Capacity and Resolution
論文鏈接:https://arxiv.org/pdf/2111.09883.pdf
代碼鏈接:https://github.com/microsoft/Swin-Transformer
引用量:266
大規(guī)模的NLP模型已經(jīng)被證明可以顯著提高語言任務的性能,而且沒有飽和的跡象,同時還展示了像人類一樣的驚人的few-shot能力。
這篇論文旨在探索計算機視覺中的大規(guī)模模型,解決了大型視覺模型訓練和應用中的三個主要問題,包括訓練的不穩(wěn)定性,預訓練和微調(diào)之間的分辨率差距,以及對有標簽數(shù)據(jù)的需求。
研究人員提出了三種主要技術:
1)一種與余弦注意相結合的殘差-后規(guī)范方法,以提高訓練的穩(wěn)定性;
2)一種對數(shù)間隔的連續(xù)位置偏差方法,以有效地將使用低分辨率圖像預訓練的模型轉移到具有高分辨率輸入的下游任務中;
3)一種自監(jiān)督的預訓練方法SimMIM,以減少對大量標記圖像的需求。
通過這些技術,成功地訓練了一個30億參數(shù)的Swin Transformer V2模型,這是迄今為止最大的稠密視覺模型,并使其能夠用高達1,536×1,536分辨率的圖像進行訓練。
在4個代表性的視覺任務上創(chuàng)造了新的性能記錄,包括ImageNet-V2圖像分類、COCO物體檢測、ADE20K語義分割和Kinetics-400視頻動作分類。
同時可以注意到該訓練比谷歌的十億級視覺模型中的訓練效率要高得多,所消耗的有標簽數(shù)據(jù)和訓練時間要少40倍。
2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection
之前的研究采用了具有降維功能的無監(jiān)督機器學習來進行網(wǎng)絡檢測,僅限于對高維和稀疏數(shù)據(jù)進行魯棒的異常檢測。
大多數(shù)方法通常假設每個領域的參數(shù)是同質的,具有特定的高斯分布,忽視了數(shù)據(jù)偏度的魯棒性測試。
論文鏈接:?https://www.sciencedirect.com/science/article/pii/S0306457321003162?
引用量:145
這篇論文提出使用連接到高斯混合模型(GMM)的無監(jiān)督集合自編碼器來適應多個領域,無需考慮每個領域的偏度(skewness)。
在集成自編碼器的隱藏空間中,利用了基于注意力的潛在表征和重建的最小誤差的特征,使用期望最大化(EM)算法來估計GMM中的樣本密度,當估計的樣本密度超過訓練階段獲得的學習閾值時,該樣本被識別為與異常有關的離群點。
最后,對集成自編碼器和GMM進行聯(lián)合優(yōu)化,將目標函數(shù)的優(yōu)化轉化為拉格朗日對偶問題,在三個公共數(shù)據(jù)集上進行的實驗驗證了所提出的模型的性能與所選擇的異常檢測基線相比有明顯競爭力。
論文共同一作為來自寧波工程學院的安鵬教授和同濟大學的Zhiyuan Wang。
安鵬教授目前是寧波工程學院電子與信息工程學院副院長,2000年至2009年就讀于清華大學工程物理系,獲工學學士學位、工學博士學位;歐洲核子研究中心、意大利國家帕多瓦大學、德國海德堡大學訪問學者,中國自動化學會認知計算與系統(tǒng)專業(yè)委員會委員、中國人工智能學會認知系統(tǒng)與信息處理專業(yè)委員會委員、中國指揮與控制學會青年工作委員會委員;主持并參與國家重點基礎研究發(fā)展計劃(973計劃)、國家自然科學基金、國家星火計劃項目等多項科研項目。
3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
論文鏈接:https://arxiv.org/abs/2203.06717
代碼鏈接:https://github.com/megvii-research/RepLKNet
引用量:127
文中回顧了現(xiàn)代卷積神經(jīng)網(wǎng)絡(CNN)中的大核設計。
受視覺Transformer(ViTs)最新進展的啟發(fā),該論文證明了使用幾個大的卷積內(nèi)核代替一堆小的內(nèi)核可能是一個更強大的范例。
研究人員提出了五個指導方針,例如,應用重新參數(shù)化的大深度卷積,來設計高效的高性能大內(nèi)核 CNN。
根據(jù)這些指導方針提出了RepLKNet,一個純粹的 CNN 架構,其內(nèi)核大小為31x31,與通常使用的3x3形成對比,RepLKNet 極大地縮小了 CNN 和 ViTs 之間的性能差距,例如在 ImageNet 和一些典型的下游任務上,以較低的延遲實現(xiàn)了與 Swin Transformer 相當或更好的結果。
RepLKNet 對大數(shù)據(jù)和大模型也表現(xiàn)出很好的可擴展性,在 ImageNet 上獲得了87.8% 的最高準確率,在 ADE20K 上獲得了56.0% 的 mIoU,在具有類似模型大小的最先進技術中是非常有競爭力的。
該研究進一步表明,與小核 CNN 相比,大核 CNN 具有更大的有效接收場(receptive fields)和更高的形狀偏差,而不是紋理偏差。
4. TensoRF: Tensorial Radiance Fields
論文鏈接:https://arxiv.org/abs/2203.09517
引用量:110
文中提出了TensoRF,一種對輻射場(radiance fields)進行建模和重構的新方法。
與純粹使用MLP的NeRF不同,研究人員將場景的輻射場建模為一個4D張量,代表了一個具有每體素多通道特征(per-voxel multi-channel features)的三維體素網(wǎng)格,其中心思想是將4D場景張量分解為多個緊湊的低秩張量成分。
證明了在該框架中應用傳統(tǒng)的CP分解,將張量分解為具有緊湊向量的rank-one components會獲得比普通的NeRF更好的性能。
為了進一步提高性能,文中還引入了一種新的矢量-矩陣(VM)分解,放松了張量的兩種模式的低秩約束,并將張量分解為緊湊的矢量和矩陣因子。
除了更好的渲染質量,該模型與CP和VM分解相比,直接優(yōu)化每象素特征的先前和同時進行的工作導致了顯著的內(nèi)存占用。
實驗證明,與NeRF相比,采用CP分解的TensoRF實現(xiàn)了快速重建(<30分鐘),具有更好的渲染質量,甚至更小的模型尺寸(<4MB)。
此外,采用VM分解的TensoRF進一步提高了渲染質量,并超過了以前最先進的方法,同時減少了重建時間(<10分鐘)并保留了緊湊的模型大?。?lt;75 MB)。
5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
論文鏈接:https://arxiv.org/abs/2203.12602
代碼鏈接:https://github.com/MCG-NJU/VideoMAE
引用量:100
為了在相對較小的數(shù)據(jù)集上實現(xiàn)更高的性能,通常需要在額外的大規(guī)模數(shù)據(jù)集上預訓練視頻Transformer。
這篇論文表明視頻掩碼自動編碼器(VideoMAE)是用于自監(jiān)督視頻預訓練(SSVP)的數(shù)據(jù)高效學習器。
受到最近的ImageMAE的啟發(fā),研究人員提出了具有極高掩碼比例的定制視頻管(video tube),這種簡單的設計使視頻重建成為一項更具挑戰(zhàn)性的自監(jiān)督任務,從而鼓勵在這個預訓練過程中提取更有效的視頻表征。
在SSVP上獲得了三個重要的發(fā)現(xiàn):
(1)極高比例的掩碼率(即90%到95%)仍然能產(chǎn)生VideoMAE的有利表現(xiàn)。時間上冗余的視頻內(nèi)容使得掩蔽率比圖像更高。
(2) VideoMAE在非常小的數(shù)據(jù)集(即大約3k-4k的視頻)上取得了非常高的性能,而沒有使用任何額外的數(shù)據(jù)。
(3) VideoMAE表明,對于SSVP來說,數(shù)據(jù)質量比數(shù)據(jù)數(shù)量更重要。
預訓練和目標數(shù)據(jù)集之間的領域遷移是一個重要問題。
值得注意的是,VideoMAE與普通的ViT可以在Kinetics-400上達到87.4%,在Something-Something V2上達到75.4%,在UCF101上達到91.3%,在HMDB51上達到62.6%,而無需使用任何額外的數(shù)據(jù)。
完整百強論文列表