自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI論文激增，出現(xiàn)引用10萬(wàn)+的ResNet是好是壞？這研究有結(jié)論了

作者：機(jī)器之心 2021-12-27 16:02:41

新聞人工智能

當(dāng)一個(gè)領(lǐng)域的規(guī)模越來(lái)越大，每年發(fā)表的論文越多越多時(shí)，對(duì)于該領(lǐng)域來(lái)說(shuō)，是好事還是壞事呢？

一周前，計(jì)算機(jī)視覺(jué)領(lǐng)域經(jīng)典之作、何愷明的 ResNet 論文的被引次數(shù)突破了 10 萬(wàn) +，而這距離他提交這篇論文僅過(guò)去六年。這一工作的熱度如此之高，既顯示出了 ResNet 本身的久經(jīng)考驗(yàn)，也印證了 AI 領(lǐng)域，特別是計(jì)算機(jī)視覺(jué)如今的火熱程度。

然而，ResNet 高被引的背后也讓我們看到了一個(gè)問(wèn)題，那就是計(jì)算機(jī)視覺(jué)領(lǐng)域每年產(chǎn)出那么多的新論文，為何研究者往往還是選擇它作為引文呢？對(duì)高被引經(jīng)典論文的趨向性究竟會(huì)給領(lǐng)域帶來(lái)進(jìn)步還是停滯呢？新發(fā)表的論文是否還有可能成為下一個(gè)經(jīng)典之作呢?

在近日發(fā)表在 SCI 期刊 PNAS 上的一篇論文《Slowed Canonical Progress in Large Fields of Science》中，來(lái)自美國(guó)西北大學(xué)和芝加哥大學(xué)的兩位研究者對(duì)上述問(wèn)題進(jìn)行了解答，并深入探討了科學(xué)領(lǐng)域發(fā)表論文的數(shù)量、質(zhì)量以及被引情況之間的錯(cuò)綜復(fù)雜的關(guān)聯(lián)。

論文地址：https://www.pnas.org/content/pnas/118/41/e2021636118.full.pdf

對(duì)科學(xué)進(jìn)步有種很直接的觀點(diǎn)，那就是多多益善。一個(gè)領(lǐng)域發(fā)表的論文越多，科學(xué)進(jìn)步的速度就越快；研究者數(shù)量越多，覆蓋的面就越廣。即使并非每篇論文都產(chǎn)生重大的影響，但它們都成為了聚成沙堆的沙粒，增加了出現(xiàn)質(zhì)變的可能性。在這一過(guò)程中，科學(xué)景觀得到了重新配置，結(jié)構(gòu)性探究中出現(xiàn)了新的范式。

更多論文的發(fā)表也增加了「它們之中至少有一篇包含重要?jiǎng)?chuàng)新」的可能性。一個(gè)顛覆性的全新想法可以動(dòng)搖現(xiàn)狀，將人們的注意力從以往工作中吸引過(guò)來(lái)，并獲得大量的新引用。

領(lǐng)域內(nèi)流行的政策很好地反映了這種多多益善的觀點(diǎn)。人們會(huì)根據(jù)學(xué)者的生產(chǎn)力對(duì)他們進(jìn)行評(píng)估和獎(jiǎng)勵(lì)，一段時(shí)間內(nèi)發(fā)表更多的論文是他們獲得終身教職和職位晉升的最可靠途徑。數(shù)量仍是大學(xué)和公司展開(kāi)比較的標(biāo)桿，其中發(fā)表作品、專(zhuān)利、科學(xué)家和經(jīng)費(fèi)的總量仍是重中之重。

質(zhì)量也主要通過(guò)數(shù)量進(jìn)行判斷。被引次數(shù)用來(lái)衡量一個(gè)領(lǐng)域內(nèi)個(gè)人、團(tuán)隊(duì)和學(xué)術(shù)期刊的重要性。在論文層面，人們往往假定最好和最優(yōu)價(jià)值的論文會(huì)吸引更多的關(guān)注，從而塑造了該領(lǐng)域的研究軌跡。

在文中，他們預(yù)測(cè)，當(dāng)每年發(fā)表論文的數(shù)量非常大時(shí)，新論文的快速流動(dòng)會(huì)迫使學(xué)界關(guān)注那些被廣泛引用的論文，由此減少了對(duì)不太成熟的論文的關(guān)注，即使它們當(dāng)中有些提出了新穎、有用和具有潛在變革性的想法。大量新發(fā)表論文的出現(xiàn)并沒(méi)有引起領(lǐng)域范式的更快更迭，反而鞏固了那些高引用量的論文，阻止新工作成為被引用最多且廣為人知的領(lǐng)域經(jīng)典之作。

研究者通過(guò)實(shí)驗(yàn)分析驗(yàn)證了這些觀點(diǎn)，表明了科研單位對(duì)數(shù)量的關(guān)注可能阻礙基礎(chǔ)性進(jìn)步。隨著每個(gè)領(lǐng)域每年所發(fā)表作品的持續(xù)增長(zhǎng)，這種不利影響將加劇。并且，考慮到推動(dòng)「發(fā)表數(shù)量至上」領(lǐng)域認(rèn)知的根深蒂固、錯(cuò)綜復(fù)雜的結(jié)構(gòu)，這種情況將不可避免。重構(gòu)科學(xué)生產(chǎn)力價(jià)值鏈的政策措施需要進(jìn)行調(diào)整，以使大眾重新聚焦于那些有潛力的新想法。

這篇文章主要講了啥？

本文重點(diǎn)研究了領(lǐng)域大小，即給定的一年內(nèi)某個(gè)領(lǐng)域發(fā)表論文數(shù)量的多少產(chǎn)生的影響。以往的研究發(fā)現(xiàn)，很多學(xué)科的引用不平等現(xiàn)象正在加劇，至少部分受到了偏好的影響。然而，一篇論文往往無(wú)法在過(guò)去幾年保持它們的引用水平和排名。顛覆性論文能夠取代以往的工作，被引次數(shù)的自然波動(dòng)也會(huì)影響論文排名。

因而，研究者預(yù)測(cè)，當(dāng)領(lǐng)域足夠大時(shí)，變革動(dòng)力會(huì)出現(xiàn)變化。引用最多的論文將根深蒂固，在未來(lái)獲得不成比例的引用量。新論文無(wú)法通過(guò)偏好依附積累引用數(shù)，也就不可能成為經(jīng)典。新發(fā)表的論文很少能夠?qū)σ殉尚偷膶W(xué)術(shù)桎梏產(chǎn)生影響。

他們給出了支撐以上預(yù)測(cè)的兩個(gè)機(jī)制。一方面，當(dāng)一個(gè)領(lǐng)域短時(shí)間內(nèi)發(fā)表了很多論文時(shí)，學(xué)者不得不訴諸于啟發(fā)式方法來(lái)對(duì)該領(lǐng)域進(jìn)行持續(xù)性的理解。認(rèn)知超載的評(píng)審人和讀者在讀新論文時(shí)不考慮里面的新想法，只會(huì)將它們與現(xiàn)有的范例論文聯(lián)系起來(lái)。不符合現(xiàn)有模式的新想法有極大可能不會(huì)被發(fā)表、閱讀或引用。

面對(duì)這種變革動(dòng)力，論文作者不得不牢牢地將他們的工作與知名論文聯(lián)系起來(lái)。這些知名論文充當(dāng)起了「知識(shí)徽章」，界定了如何理解新工作，不鼓勵(lì)他們研究太過(guò)新穎且不易于與現(xiàn)有經(jīng)典之作聯(lián)系起來(lái)的想法。這樣一來(lái)，突破性新想法的產(chǎn)生以及被發(fā)表和廣泛閱讀的概率下降，并且每一篇新論文的發(fā)表也將不成比例地增加高被引論文的引用量。

另一方面，如果新想法的到來(lái)速度太快，它們之間的競(jìng)爭(zhēng)可能會(huì)阻礙任何新想法在領(lǐng)域內(nèi)廣為人知和廣泛接受。至于為什么會(huì)這樣呢？研究者以某個(gè)領(lǐng)域中傳播想法的沙堆模型為例進(jìn)行解讀。

當(dāng)沙子慢慢落在沙堆上時(shí)，一次一粒，等到沙堆運(yùn)動(dòng)停止時(shí)再落下一粒。隨著時(shí)間推移，沙堆達(dá)到了無(wú)標(biāo)度臨界狀態(tài)，其中一粒沙子都能夠引起整個(gè)沙堆區(qū)域的崩塌。但當(dāng)沙子以極快的速度落下時(shí)，相鄰的小型崩塌會(huì)相互干擾，導(dǎo)致任何一粒沙子都無(wú)法觸發(fā)沙堆范圍內(nèi)的位移。這意味著，沙子掉落的速度越快，每個(gè)新沙粒能夠影響的區(qū)域就越小。論文也一樣，如果論文出現(xiàn)的速度太快，則任何一篇新論文都無(wú)法通過(guò)局部擴(kuò)散和偏好依附成為經(jīng)典。

這兩方面的論點(diǎn)衍生出了六個(gè)預(yù)測(cè)，其中兩個(gè)分別是最高引的論文將長(zhǎng)期處于主導(dǎo)地位以及新發(fā)表論文的徒勞無(wú)功和它們自身顛覆性的降低。

總之，相較于一個(gè)領(lǐng)域每年發(fā)表的論文很少，當(dāng)該領(lǐng)域每年產(chǎn)出的論文很多時(shí)，則將面臨以下六種情況：

新論文將更有可能引用最高引的論文而不是低引用的論文；
每年最高引的論文列表幾乎不會(huì)出現(xiàn)變化，導(dǎo)致經(jīng)典論文始終是那些；
一篇新論文成為經(jīng)典之作的概率將下降；
進(jìn)入高引用論文列表的新論文不會(huì)通過(guò)循序累積的傳播方式實(shí)現(xiàn)；
新發(fā)表論文中發(fā)展現(xiàn)有科研想法的比例增加，而顛覆現(xiàn)有想法的比例下降；
一篇新論文成為顛覆性工作的概率降低。

用到了哪些數(shù)據(jù)與方法？

研究者使用 Web of Science 數(shù)據(jù)集，分析了1960 至 2014 年間發(fā)表的論文，共計(jì) 90,637,277 篇論文和 1,821,810,360 個(gè)引用。Web of Science 將學(xué)術(shù)領(lǐng)域，或者某些情況下大的子領(lǐng)域，劃分為不同的學(xué)科。因此，研究者的分類(lèi)中共有 241 個(gè)學(xué)科，并將它們作為領(lǐng)域級(jí)分析的基礎(chǔ)。其中，一篇焦點(diǎn)論文每年從同一主題新發(fā)表論文中收到的被引次數(shù)構(gòu)成了研究者主要的興趣變量。

為了計(jì)算 10 個(gè)最大的非綜合學(xué)科（non-multidisciplinary）學(xué)科的 1-decay rate（λ），對(duì)于每個(gè)學(xué)科，研究者以發(fā)表論文數(shù)量的 10 log 劃分年份，截點(diǎn)分別為 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5 和 5.5，并以 field-year 中被引最多的百分位劃分論文年份，截點(diǎn)分別為 1, 2, 3, …, 100。對(duì)于每個(gè)（發(fā)表論文的記錄數(shù)量）×（引用數(shù)百分位），他們將第二年一篇論文的被引次數(shù)回歸到焦點(diǎn)年份論文的被引次數(shù)。這一回歸的系數(shù)產(chǎn)生 1-λ。

此外，為了計(jì)算所有學(xué)科的 1-λ（圖下圖 2D 所示），研究者選取了第 1、2、5、10 和 25 個(gè)百分位數(shù)中被引最多的前 100 篇論文。他們通過(guò)發(fā)表論文數(shù)量的 base 10 log（截點(diǎn)分別為 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5 和 5.5）對(duì) subject-years 進(jìn)行分類(lèi)。對(duì)于每個(gè) bin× 選取的百分位，研究者將第二年一篇論文的被引次數(shù)回歸到焦點(diǎn)年份論文的被引次數(shù)。這一回歸的系數(shù)產(chǎn)生 1–λ。

這些預(yù)測(cè)得到證實(shí)了嗎？

研究者的所有預(yù)測(cè)都在 Web of Science 數(shù)據(jù)集的引用模式中得到了證實(shí)，具體如下圖 1 至 4 所示。隨著領(lǐng)域變得越來(lái)越多，被引次數(shù)最多的論文始終成為主導(dǎo)，在引用分布上占據(jù)絕對(duì)優(yōu)勢(shì)。相比之下，新論文成為高引的可能性降低，并且無(wú)法隨時(shí)間推移而逐漸累積關(guān)注度。發(fā)表論文往往在發(fā)展現(xiàn)有想法，而不具備顛覆性，也很少能夠產(chǎn)生具有開(kāi)拓性的新的研究潮流。

具體而言，被引次數(shù)最多的論文在更大的領(lǐng)域獲得了不成比例的更高的引用份額。最大領(lǐng)域引用份額的基尼系數(shù)約為 0.5，如下圖 1A 所示。高引論文不成比例的被引次數(shù)又導(dǎo)致不平等關(guān)注的加劇。

例如，當(dāng)電氣與電子工程領(lǐng)域每年發(fā)表 10,000 篇論文左右時(shí)，前 0.1% 和前 1% 高被引論文占了總被引次數(shù)的 1.5% 和 8.6%。當(dāng)該領(lǐng)域每年發(fā)表 50,000 篇論文時(shí)，前 0.1% 和前 1% 高被引論文占了總被引次數(shù)的 3.5% 和 11.9%。當(dāng)該領(lǐng)域規(guī)模更大，每年發(fā)表 100,000 篇論文時(shí)，前 0.1% 和前 1% 高被引論文占了總被引次數(shù)的 5.7% 和 16.7%。

相比之下，排名最后 50% 的被引最少論文在總被引次數(shù)中所占份額下降，每年發(fā)表 10,000 篇論文時(shí)的占比為 43.7%，每年發(fā)表論文達(dá)到 50,000 和 100,000 時(shí)，這一比例僅略高于 20%。

當(dāng)跨越時(shí)間查看領(lǐng)域數(shù)據(jù)時(shí)，我們會(huì)發(fā)現(xiàn)存在這樣的模式：當(dāng)每年發(fā)表的論文數(shù)量較多時(shí)，被引用最多的 top-50 論文之間的排名相關(guān)性增加（圖. 1B）。在隨后幾年斯皮爾曼排名相關(guān)性中，在一個(gè)領(lǐng)域中被引用最多的 top-50 列表從發(fā)表 1,000 篇論文時(shí)的 0.25 增加到 100,000 篇論文時(shí)的 0.74。

圖 1

當(dāng)領(lǐng)域范圍很廣時(shí)，被引用最多的論文的被引次數(shù)保持逐年增長(zhǎng)，而所有其他論文的被引次數(shù)都會(huì)下降。下圖 2 為論文當(dāng)年與上一年被被引次數(shù)的預(yù)測(cè)比率。在論文發(fā)表很少的年份，被被引次數(shù)最多的論文的比率明顯低于 1，與被被引次數(shù)較少的論文的比率沒(méi)有太大區(qū)別。然而，在發(fā)表論文數(shù)量較多的年份，被被引次數(shù)最多的論文的比率接近 1，明顯高于被被引次數(shù)少的論文。

在非常大的領(lǐng)域年中，發(fā)表了大約 100,000 篇論文，平均而言，被引用最多的論文的被引次數(shù)沒(méi)有逐年下降。相比之下，排名在 top 1% 之外的論文，平均每年損失約 17% 的被引次數(shù)，而處于 top 5% 及以下的論文則趨向于每年損失 25% 的被引次數(shù)。

圖 2

當(dāng)同一領(lǐng)域同時(shí)發(fā)表許多論文時(shí)，單篇論文的引用量達(dá)到 top 0.1% 的可能性會(huì)減少，這種現(xiàn)象在同一年的不同領(lǐng)域或不同年的同一領(lǐng)域都適用，如圖 3A 所示。一般來(lái)說(shuō)，較大領(lǐng)域論文被引用最多，很少是通過(guò)局部擴(kuò)散等過(guò)程完成。

圖 3B 顯示了一篇文章進(jìn)入相關(guān)領(lǐng)域的平均時(shí)間（以年為單位），條件是該論文成為該領(lǐng)域中被引次數(shù)最多的論文之一。當(dāng)一個(gè)領(lǐng)域很小時(shí)，論文會(huì)隨著時(shí)間的推移緩慢上升到被被引次數(shù)最多的 top 0.1%。我們以 1980 年在小領(lǐng)域（回歸預(yù)測(cè)）發(fā)表的論文為例，假如同一領(lǐng)域發(fā)表了 1000 篇論文，想要成為被引用最多的論文，平均需要 9 年時(shí)間。相比之下，在最大領(lǐng)域經(jīng)典論文會(huì)迅速登上引用榜首，這與學(xué)者通過(guò)閱讀他人著作中引用的參考資料發(fā)現(xiàn)新著作的累積過(guò)程不一致。同樣的回歸預(yù)測(cè)，在每年發(fā)表 100,000 篇論文的大領(lǐng)域中，論文達(dá)到引用量 top 0.1% 的時(shí)間平均不到一年。

圖 3

同一年發(fā)表的大多數(shù)論文都建立在現(xiàn)有文獻(xiàn)的基礎(chǔ)上，而不是中斷（disrupt）現(xiàn)有文獻(xiàn)（圖 4A）。邏輯擬合預(yù)測(cè)顯示，當(dāng)該領(lǐng)域一年發(fā)表 1,000 篇論文時(shí)，49% 的論文具有中斷度量（disruption measure） D > 0（相反，51% D < 0）。當(dāng)發(fā)表 10,000 篇論文時(shí)，中斷度量比例下降到 27%，發(fā)表 100,000 篇論文時(shí)下降到 13%。即使當(dāng) D > 0 時(shí)，新發(fā)表論文的中斷度量在更大的領(lǐng)域中也會(huì)減弱。圖 4B 顯示了按領(lǐng)域年排列的新論文比例，這些論文在中斷度量的 top-5 百分位中排名。Lowess 估計(jì)顯示，具有 top-5 百分位中斷度量的新論文比例從該領(lǐng)域年發(fā)表的 1,000 篇論文時(shí)的 8.8% 減少到每年 10,000 篇論文時(shí)的 3.6% 和 100,000 篇論文時(shí)的 0.6%。

圖 4

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心Pro

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="rj3ad"></sub><em id="rj3ad"></em>