圖片也要查重了?期刊用AI審論文防造假,旋轉(zhuǎn)/翻轉(zhuǎn)/拉伸都不行
大數(shù)據(jù)文摘出品
最近兩年關(guān)于學(xué)術(shù)造假的爆料一直不少,尤其是“圖像復(fù)用”,一些頂尖高校的教授甚至院士都被指出存在一圖多用的情況。
顯然,這樣的情況除了有人專門去深扒,審稿人自己肯定記不住這些圖片是不是和前面的論文雷同了,所以只依靠審稿人去判斷,“圖片復(fù)用”的情況肯定還是會(huì)一直發(fā)生。
情況在現(xiàn)在有了轉(zhuǎn)機(jī)。
據(jù)Nature官網(wǎng)的News欄目報(bào)道,在一項(xiàng)研究發(fā)表在美國(guó)癌癥研究協(xié)會(huì)(AACR)出版的十種期刊上之前,它要接受一次不同尋常的額外檢查——AI審稿。
自2021年1月以來(lái),AACR在經(jīng)過(guò)同行評(píng)審后擬定接受的所有稿件上都使用了AI軟件, 其目的就是找出存在雷同的圖像,包括已被旋轉(zhuǎn)、濾波、翻轉(zhuǎn)或拉伸的。
先自動(dòng)再手動(dòng),爭(zhēng)取不放過(guò)一個(gè),已經(jīng)有四家在使用
美國(guó)癌癥研究協(xié)會(huì)(AACR)是這一AI技術(shù)的早期采用者。
為了避免發(fā)表帶有篡改圖片的論文,許多期刊雇人手工審查提交的稿件,通常使用軟件來(lái)輔助檢查發(fā)現(xiàn)的內(nèi)容,這些被篡改的圖片可能是由于徹頭徹尾的欺騙,也可能是為了美化發(fā)現(xiàn)的不當(dāng)企圖。
但Nature獲悉,在過(guò)去一年里,至少有4家期刊已經(jīng)開始將這一過(guò)程自動(dòng)化,依靠人工智能軟件在手稿發(fā)表之前發(fā)現(xiàn)圖片重復(fù)或者部分重復(fù)。
“AACR在接收以色列Rehovot的一家名為Proofig的公司提供這項(xiàng)服務(wù)之前,也嘗試了很多軟件產(chǎn)品。”Daniel Evanko說(shuō),他是該協(xié)會(huì)在賓夕法尼亞州費(fèi)城的期刊運(yùn)營(yíng)主管。 “我們對(duì)此非常滿意,”他補(bǔ)充道。他希望這種篩查將有助于研究人員,并在發(fā)表后減少問(wèn)題。
AI只是完成第一次初篩,當(dāng)AI標(biāo)記有問(wèn)題的圖像后,仍然需要專業(yè)的編輯來(lái)判斷。
例如,如果數(shù)據(jù)集本來(lái)就需要顯示兩次——并論文中附有解釋——那么重復(fù)的圖像可能是合適的,或者有些復(fù)制可能只是簡(jiǎn)單的論文排版過(guò)程中的復(fù)制粘貼錯(cuò)誤,這樣不算造假,AI發(fā)現(xiàn)的所有這些問(wèn)題只能通過(guò)編輯和作者之間的討論來(lái)解決。
然而,既然人工智能正變得足夠高效和低成本,專家們表示,未來(lái)幾年內(nèi),一波AI自動(dòng)圖像檢查助手可能會(huì)席卷學(xué)術(shù)出版行業(yè),就像10年前使用軟件檢查手稿是否抄襲成為一種常規(guī)做法一樣。出版業(yè)組織也說(shuō),他們正在研究如何比較不同期刊的手稿圖像。
其他圖像完整性專家對(duì)這一趨勢(shì)表示歡迎,但同時(shí)也警告說(shuō),目前還沒(méi)有對(duì)各種軟件產(chǎn)品進(jìn)行公開比較,而且自動(dòng)檢查可能會(huì)出現(xiàn)太多的誤報(bào)或遺漏的操作。
從長(zhǎng)遠(yuǎn)來(lái)看,對(duì)軟件審查的依賴可能也會(huì)促使欺詐者使用AI反過(guò)來(lái)來(lái)欺騙AI,就像某些人通過(guò)修改文本來(lái)逃避審查一樣。
“我擔(dān)心,我們正在進(jìn)入一場(chǎng)與基于AI的技術(shù)的軍備競(jìng)賽,這可能導(dǎo)致不可能找到的深度造假,”德國(guó)《EMBO報(bào)告》(EMBO Reports)的主編貝爾納德•波拉爾表示。
進(jìn)入AI審查時(shí)代?一些機(jī)構(gòu)還在觀望
2016年,由微生物學(xué)家、加利福尼亞州的圖像分析顧問(wèn)伊麗莎白·比克領(lǐng)導(dǎo)的一項(xiàng)對(duì)大約20000篇生物醫(yī)學(xué)論文的人工分析表明,多達(dá)4%的論文可能包含有問(wèn)題的圖像復(fù)制。
現(xiàn)實(shí)是,通常每年只有大約1%的論文得到更正,更少比例的論文被撤銷。
盡管事實(shí)如此,但很多機(jī)構(gòu)對(duì)于AI查找圖片復(fù)制還是持謹(jǐn)慎態(tài)度。公共科學(xué)圖書館(PLOS)的一位發(fā)言人表示,他們正在“熱切地”監(jiān)測(cè)工具的進(jìn)展情況,這些工具可以“可靠地識(shí)別常見(jiàn)的圖像完整性問(wèn)題,并且可以大規(guī)模應(yīng)用”。
Elsevier表示,他們“仍在測(cè)試”軟件,不過(guò)也指出,其部分期刊在發(fā)表前會(huì)篩選所有接受的論文,“使用軟件工具和手工分析相結(jié)合的方法”,檢查圖像是否存在問(wèn)題。
2020年4月,Wiley引入了一項(xiàng)臨時(shí)接受的手稿圖像篩選服務(wù),目前已有120多種期刊使用這項(xiàng)服務(wù),但這項(xiàng)服務(wù)目前是由軟件輔助手工篩選,一位發(fā)言人說(shuō)。
出版Nature的Springer Nature表示,它正在評(píng)估一些外部工具,同時(shí)整理數(shù)據(jù),以訓(xùn)練自己的軟件,這些軟件將“結(jié)合相互互補(bǔ)的人工智能和人類元素,以識(shí)別有問(wèn)題的圖像”。
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】