被大V推薦的AI論文,被引量會翻倍?兩位推特博主5年推文背后影響揭秘
經(jīng)常在 X 平臺(推特)上瀏覽 AI 論文的研究者應(yīng)該都很熟悉兩位博主:AK (@_akhaliq) 和 Aran Komatsuzaki (@arankomatsuzaki)。他們每天都會精選一些論文進行展示,方便大家重點閱讀。數(shù)據(jù)顯示,AK 在 X 平臺上的粉絲數(shù)已經(jīng)接近 28 萬,Aran Komatsuzaki 也超過了 8 萬。
一般來說,能夠得到這兩位博主推薦的論文通常質(zhì)量都相對有保證,后續(xù)也能得到更多研究者的關(guān)注。但是,二人的影響力到底有多大,被推薦和不被推薦的論文在后續(xù)的影響力上是否會拉開差距一直很難說清。
為了研究這些問題,來自加州大學(xué)圣芭芭拉分校的幾位研究者專門寫了一篇論文。結(jié)果顯示,被兩位博主推薦的論文在被引量上是不被推薦的論文的 2 到 3 倍。
- 論文標(biāo)題:Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility
- 論文鏈接:https://arxiv.org/pdf/2401.13782.pdf
具體來說,他們編制了一個包含 8000 多篇論文的綜合數(shù)據(jù)集。這些論文涵蓋了兩位博主從 2018 年 12 月到 2023 年 10 月期間的推文,并伴有基于發(fā)表年份、發(fā)表地點和摘要主題的 1:1 匹配對照組。分析結(jié)果顯示,得到二人推薦的論文,其引用次數(shù)顯著增加,中位數(shù)引用次數(shù)是對照組的 2 到 3 倍。這樣的結(jié)果引發(fā)了社區(qū)的一些擔(dān)憂,有人認為這代表學(xué)術(shù)界正在 TikTok 化。
不過,很多人懷疑,這個數(shù)據(jù)的因果邏輯可能是反的,因為質(zhì)量更高的論文往往更容易得到這兩位博主的推薦,后續(xù)被引量自然更高。
對此,論文里其實給出了解決辦法。他們通過精確匹配來選擇對照樣本,使用發(fā)表細節(jié)和文本嵌入作為論文質(zhì)量的標(biāo)記。作者表示,他們驗證了他們的方法能夠成功地控制論文質(zhì)量,這一點從會議審稿得分的分布相似性中得到了證明。
被兩位博主推薦的論文與未被推薦的論文 OpenReview 平均得分,來自 6 個主要的機器學(xué)習(xí)會議。圖中結(jié)果表明兩組論文的質(zhì)量大致相當(dāng)。
對于這個結(jié)果,也有人心態(tài)比較樂觀,表示數(shù)學(xué)領(lǐng)域也有類似現(xiàn)象,比如陶哲軒等數(shù)學(xué)家偶爾也會在網(wǎng)上推薦一些研究。
但有人反駁說,AI 和數(shù)學(xué)領(lǐng)域的情況完全不同。一方面,AI 領(lǐng)域涉及大量資金投入和經(jīng)濟利益,這可能影響到博主推薦內(nèi)容的客觀性和公正性。另一方面,博主在挑選論文時可能更容易關(guān)注到大實驗室的論文,這對一些小實驗室來說可能不太公平。
在觀察到這些潛在影響后,論文作者呼吁研究社區(qū)構(gòu)建更加負責(zé)任的論文傳播方式,這些方式應(yīng)該盡量展示多樣化的研究主題、作者和機構(gòu),營造一種更公平的環(huán)境。
以下是論文細節(jié)。
數(shù)據(jù)收集
該研究將具有相同基礎(chǔ)協(xié)變量的實驗組和對照組進行比較,以確定平均效果,并假設(shè)論文的被引量受時間、質(zhì)量和主題的影響最大。雖然所用時間很容易測量,但論文質(zhì)量和主題卻很難量化。
該研究使用論文標(biāo)題和摘要的文本嵌入來近似化論文主題,整個數(shù)據(jù)收集過程由三個部分組成:
(1)收集目標(biāo)集,即推特博主 @_akhaliq 和 @arankomatsuzaki 在推特上分享的論文;
(2)收集要匹配的潛在論文的大型數(shù)據(jù)集;
(3)通過將 (1) 中的論文與 (2) 中的論文在發(fā)表年份、發(fā)表地點以及標(biāo)題和摘要的文本嵌入方面進行匹配來設(shè)置控制集。
分析
該研究將推特博主 AK 和 Komatsuzaki 分享的論文與控制集的影響進行了比較,然后根據(jù)所選論文的地理分布和作者屬性進行多變量分析。
該研究采用對比分析方法測試了以下假設(shè):
博主分享的論文與同一領(lǐng)域的其他論文具有相同的被引量。
博主分享的論文比同一領(lǐng)域的其他論文具有更高的被引量。
該研究比較了配對的目標(biāo)集和控制集,發(fā)現(xiàn) AK 分享的論文的被引量中位數(shù)為 24 (95% CI: 23, 25),而對照組為 14(95% CI: 13, 15);Komatsuzaki 分享的論文被引量中位數(shù)為 31 次(95% CI:27、34),而對照組為 12 次(95% CI:10.5、13.5)。與相應(yīng)的控制集相比,兩個實驗集分布都偏向于更高的被引量,如下圖 3 所示。
如圖 3 (c)(d) 所示,與對照組相比,博主分享論文分布中的三個四分位數(shù)和最大值均較高。
在 2 - 樣本 Q-Q 圖(圖 4)中,我們可以看到測試分布的歸一化分位數(shù)始終較高。每個成對樣本的 Cliff’s Delta 值進一步強化了 Q-Q 結(jié)果,如表 3 所示。
表 3 的數(shù)據(jù)說明博主分享論文實際上對改變結(jié)果變量(即論文的被引量)具有重要意義。
最后,該研究通過三個測試建立統(tǒng)計顯著性,將實驗數(shù)據(jù)的分布與控制集 Epps-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 的分布進行比較。如表 3 所示,所有結(jié)果的 p 值都遠低于 α = 0.001。由此,該研究可以有力推翻原假設(shè):博主分享的論文和對照組的引用分布相同。
總體而言,有影響力的推文和被引量之間的相關(guān)性表明機器學(xué)習(xí)社區(qū)查找和閱讀論文的方式發(fā)生了變化。傳統(tǒng)上,頂級會議接受度(即評審分數(shù))一直是未來被引量的主要指標(biāo),但該研究表明,影響力大的博主分享論文已成為影響被引量的重要指標(biāo)。
感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。