你的生物技術(shù)研究影響力大?MIT的機(jī)器學(xué)習(xí)框架可以預(yù)料到
對(duì)于科研人開心莫過(guò)于paper被「Accept」,發(fā)表后你的論文影響力如何?你所研究領(lǐng)域在未來(lái)潛力怎么樣?......現(xiàn)在,機(jī)器學(xué)習(xí)「突破」傳統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn),將以一種新方式去詮釋。
目前,有許多基于論文引用的度量指標(biāo),比如引用次數(shù)、h指數(shù)、期刊影響因子等。這些指標(biāo)不僅是論文質(zhì)量的次優(yōu)指標(biāo),而且還會(huì)影響后續(xù)學(xué)術(shù)招聘、晉升和資金籌措方面的次優(yōu)決策等。
而這些指標(biāo)只能提供不完善的、不一致的且易于操縱的研究質(zhì)量度量。隨著機(jī)器學(xué)習(xí)的興起,可以從更多角度去評(píng)判他們發(fā)表研究的潛在影響力
基于此,美國(guó)麻省理工學(xué)院(MIT)的研究人員建立了一個(gè)名為DELPHI(Dynamic Early-warning by Learning to Predict High Impact,通過(guò)學(xué)習(xí)預(yù)測(cè)高影響實(shí)現(xiàn)動(dòng)態(tài)預(yù)警)的人工智能框架,可以通過(guò)學(xué)習(xí)以前的科學(xué)出版物中的模式,為未來(lái)的高影響力技術(shù)提供「預(yù)警」信號(hào)。并解鎖大量現(xiàn)有的但尚未開發(fā)的資源。以更有效、更公平的方式分配有限的資源,從而提高集體部署到科學(xué)中的資源回報(bào)率和技術(shù)。
該研究于5月17日以題為「 Learning on knowledge graph dynamics provides an early warning of impactful research 」發(fā)表在《自然•生物技術(shù)》( Nature Biotechnology )雜志上。
科學(xué)事業(yè)的有效發(fā)展取決于在一組有前途的研究人員和項(xiàng)目中識(shí)別和優(yōu)化分配資源的集體能力。反過(guò)來(lái),此過(guò)程主要取決于直接采用的分配方法,這種分配方法間接地通過(guò)雇用、晉升和社論出版物進(jìn)行。
數(shù)字科學(xué)語(yǔ)料庫(kù)的規(guī)模激增,有助于開發(fā)新的數(shù)據(jù)驅(qū)動(dòng)方法。從人工智能到現(xiàn)代科學(xué)企業(yè)產(chǎn)生的大量數(shù)據(jù)的方法應(yīng)用,可提供更早或更有意義的新科學(xué)影響和創(chuàng)新信號(hào)。
數(shù)據(jù)驅(qū)動(dòng)的算法將消化現(xiàn)有的大量高維數(shù)字科學(xué)信息,產(chǎn)生有意義的低維信號(hào),然后將其與人類專業(yè)知識(shí)和直覺(jué)相結(jié)合。此外,這樣的方法可以包含多個(gè)目標(biāo)函數(shù),可擴(kuò)展到一系列期望的結(jié)果上。
此前的研究已經(jīng)證明從知識(shí)圖中提取信號(hào)的價(jià)值。但是,目前還沒(méi)有框架將這些方法與人工智能方法相結(jié)合,從而使我們能夠從過(guò)去中學(xué)到東西,以提高我們識(shí)別未來(lái)最具影響力的科學(xué)技術(shù)的能力。
本研究提出一個(gè)機(jī)器學(xué)習(xí)框架DELPHI,通過(guò)分析科學(xué)文獻(xiàn)中計(jì)算的一系列特征之間的高維關(guān)系,預(yù)測(cè)可能產(chǎn)生高影響力的工作。研究人員使用的數(shù)據(jù)集包含1980-2019年期間發(fā)表的1,687,850篇研究論文(42種與生物技術(shù)相關(guān)的期刊),從中得到了論文發(fā)表后1-5年與每篇論文、作者、期刊、網(wǎng)絡(luò)相關(guān)的29個(gè)特征。再用每篇論文的特征訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,讓這個(gè)模型給出影響力「預(yù)警」信號(hào)。
從動(dòng)態(tài)知識(shí)圖中收集、構(gòu)建、計(jì)算和學(xué)習(xí)科學(xué)影響預(yù)警信號(hào)。(來(lái)源:論文)
研究人員使用DELPHI預(yù)測(cè)了到2023年將產(chǎn)生巨大影響的50篇最新科學(xué)論文。論文涵蓋的主題包括:用于癌癥治療的DNA納米機(jī)器人、高能量密度鋰氧電池和利用深層神經(jīng)網(wǎng)絡(luò)的化學(xué)合成。
「本質(zhì)上,我們的算法通過(guò)從科學(xué)史中學(xué)習(xí)模式,然后在新出版物上進(jìn)行模式匹配來(lái)發(fā)現(xiàn)有高影響力的早期信號(hào),」 Weis說(shuō)?!竿ㄟ^(guò)追蹤思想的早期傳播,我們可以預(yù)測(cè)它們以有意義的方式傳播到更廣泛的學(xué)術(shù)界的可能性有多大。」
預(yù)測(cè)潛在影響力
Weis和Jacobson開發(fā)的機(jī)器學(xué)習(xí)算法利用了自1980年代以來(lái)科學(xué)出版物呈指數(shù)增長(zhǎng)的大量數(shù)字信息。但DELPHI并沒(méi)有使用諸如引用次數(shù)之類的一維度量來(lái)判斷出版物的影響,而是接受了期刊文章元數(shù)據(jù)的完整時(shí)間序列網(wǎng)絡(luò)的培訓(xùn),以揭示其在整個(gè)科學(xué)生態(tài)系統(tǒng)中的高維分布。
結(jié)果是一個(gè)知識(shí)圖,包含代表論文、作者、機(jī)構(gòu)和其他類型數(shù)據(jù)的節(jié)點(diǎn)之間的連接。這些節(jié)點(diǎn)之間復(fù)雜連接的強(qiáng)度和類型決定了它們?cè)诳蚣苤惺褂玫膶傩浴!高@些節(jié)點(diǎn)和邊定義了一個(gè)基于時(shí)間的圖形,DELPHI使用它來(lái)學(xué)習(xí)預(yù)測(cè)未來(lái)高影響的模式?!?Weis解釋說(shuō)。
論文在發(fā)表5年后在時(shí)間尺度節(jié)點(diǎn)中心位置的前5%的論文被認(rèn)為DELPHI旨在識(shí)別的「高度影響」目標(biāo)集。前5%的論文占圖表總影響力的35%。
可視化的低影響力和高影響力出版物的共同作者和引文網(wǎng)絡(luò)結(jié)構(gòu)的比較演變。(來(lái)源:論文)
與引文數(shù)量相比,DELPHI識(shí)別出的高度影響力的論文的數(shù)量是其兩倍多,包括60%的「隱藏寶石」或被引文閾值遺漏的論文。
研究人員驚訝地發(fā)現(xiàn),在某些情況下,使用DELPHI能夠顯示出高影響力的論文「警報(bào)信號(hào)」時(shí)間如此之早?!冈诎l(fā)布的一年內(nèi),我們已經(jīng)確定了『隱藏寶石』,這些『寶石』將在以后產(chǎn)生重大影響?!?Weis說(shuō)。
他警告說(shuō),「但DELPHI并不能完全預(yù)測(cè)未來(lái)。我們正在使用機(jī)器學(xué)習(xí)來(lái)提取和量化隱藏在現(xiàn)有數(shù)據(jù)的維度和動(dòng)態(tài)中的信號(hào)。」
公平、高效
過(guò)去,論文影響力的衡量標(biāo)準(zhǔn)(如引文和期刊影響因子等指標(biāo))都可以被操縱,研究人員說(shuō),「希望DELPHI將提供一種偏見(jiàn)更少的方式來(lái)評(píng)估論文的影響力?!?/p>
Weis說(shuō),「與所有機(jī)器學(xué)習(xí)框架一樣,設(shè)計(jì)人員和用戶應(yīng)警惕偏見(jiàn)。我們需要不斷意識(shí)到數(shù)據(jù)和模型中的潛在偏差。我們希望DELPHI能夠以較少偏見(jiàn)的方式幫助找到最佳的研究——因此,我們需要注意,我們的模型不能僅根據(jù)次優(yōu)指標(biāo)(例如h-Index,作者引用計(jì)數(shù)或機(jī)構(gòu)隸屬關(guān)系)來(lái)預(yù)測(cè)未來(lái)的影響。」
Weis在為生物技術(shù)初創(chuàng)公司啟動(dòng)風(fēng)險(xiǎn)投資基金和實(shí)驗(yàn)室孵化設(shè)施之后,思考了很多的問(wèn)題。
他說(shuō):「我越來(lái)越意識(shí)到,包括我自己在內(nèi)的投資者一直在相同的地點(diǎn),以相同的觀念來(lái)尋找新公司?!?「我開始瞥見(jiàn)大量的人才和驚人的技術(shù),但這常常被忽視。我認(rèn)為一定有一種方法可以在這個(gè)領(lǐng)域工作——機(jī)器學(xué)習(xí)可以幫助我們發(fā)現(xiàn)并更有效地實(shí)現(xiàn)所有這些未被挖掘的潛力?!?nbsp;
參考內(nèi)容:
https://news.mit.edu/2021/using-machine-learning-predict-high-impact-research-0517
論文鏈接:
https://www.nature.com/articles/s41587-021-00907-6