自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

新聞 前端
最近,CMU 研究者對此展開了探索,創(chuàng)建了一個自動論文評審系統(tǒng),上傳 PDF 論文即可自動生成評審結果,這或許會為論文評審帶來一些改變。

  近年來,各大學術頂會的論文投稿量暴增,這使得論文評審的工作量大大增加。那么,有沒有可能自動生成論文的評審結果呢?最近,CMU 研究者對此展開了探索,創(chuàng)建了一個自動論文評審系統(tǒng),上傳 PDF 論文即可自動生成評審結果,這或許會為論文評審帶來一些改變。

科學技術的快速發(fā)展伴隨著同行評審科學出版物的指數(shù)級增長。與此同時,論文的評審是一個耗時耗力的過程,必須由相應領域的專家來完成。這樣一來,為不斷增長的論文提供高質量的評審成為一大挑戰(zhàn)。那么,有沒有可能自動生成論文評審呢?

在近日發(fā)表的一篇論文中,來自 CMU 的研究者創(chuàng)建了一個自動生成論文評審結果的 Demo 網(wǎng)站 ReviewAdvisor ,只需要上傳 PDF 論文,即可自動生成評審結果。

論文鏈接:https://arxiv.org/pdf/2102.00176.pdf

在論文中,研究者探討了使用 SOTA 自然語言處理(NLP)模型生成學術論文同行評審結果的可能性。其中,最困難的部分首先是如何定義「好的」評審結果,因此該研究先討論了評審結果的度量指標。然后,就是數(shù)據(jù)問題。研究者收集了機器學習領域的論文集合,使用每個評審涵蓋的不同方面(aspect)內容對論文進行注釋,并訓練目標摘要模型,以生成評審結果。

實驗結果表明,與人類專家給出的評審結果相比,系統(tǒng)生成的評審往往涉及到論文的更多方面。但是,生成的評審文本除了對論文核心理念的解釋之外,其他方面的解讀邏輯性都不強,而關于核心理念的評審則大多是正確的。最后,研究者總結了構建表現(xiàn)良好的論文評審生成系統(tǒng)面臨的八個挑戰(zhàn)以及可能的解決方案。

不過,研究者發(fā)現(xiàn),人類專家評審和系統(tǒng)自動評審都表現(xiàn)出了不同程度的偏見,并且與人類專家評審相比,系統(tǒng)生成的評審結果具有更強的偏見性。

上面這段話來自該論文的第一部分「TL;QR」,有趣的是,這部分內容正是由其開發(fā)的系統(tǒng)生成的。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

ReviewAdvisor 系統(tǒng)試用

試用該系統(tǒng)時,用戶需要在瀏覽器中允許所有 Cookie,否則系統(tǒng)無法正常工作。研究者使用 sciparser 工具從 PDF 論文中提取信息,所以如果上傳的論文采用的是不熟悉的模板,則系統(tǒng)也可能不工作。目前 ReviewAdvisor 支持 ICML、Neurips、ICLR、ACL、EMNLP、AAAI 等計算機科學頂會或期刊的論文。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

這個自動論文評審系統(tǒng)效果究竟如何呢?機器之心嘗試上傳了該研究所用的示例論文《Attention Is All You Need》。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

Abstract+CE (with aspect) 又可細分為摘要、清晰度、原創(chuàng)性、可靠性、Substance 和對比 6 個方面。

下圖展示了對示例論文《Attention is All You Need》原創(chuàng)性與魯棒性的評審意見,其中關于原創(chuàng)性的評審意見為「使用自注意力的 idea 非常有趣且新穎」(下圖左黃色部分),關于可靠性的評審意見則是「該論文未解釋清楚 transformer 模型為什么優(yōu)于其他基準模型」(下圖右綠色部分)。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

看起來,效果還不錯。但是,機器之心在上傳其他論文時,系統(tǒng)并未及時生成評審,或者上傳多次后才生成評審結果。研究者表示,由于系統(tǒng)采用的計算機服務器是二作 Pengfei Liu 自己建立的,所以會出現(xiàn)內存不足的情況。這可能是無法及時生成論文評審結果的原因之一。

此外,研究者強調,ReviewAdvisor 系統(tǒng)可能會生成不正確、不完整或者帶有偏見的評審結果,這些評審結果不能代替人類專家的評審結果。

優(yōu)秀同行評審有哪些標準?

該研究首先總結了評估同行評審結果的常用標準:

  • 決斷性(Decisiveness):好的同行評審應該立場明確,對是否接收論文提出明確建議;
  • 全面性(Comprehensiveness):好的同行評審應該有條理,首先簡要總結論文貢獻,然后從不同方面評估論文質量;
  • 正當性(Justification):好的同行評審應該有理有據(jù),尤其是在指出論文缺點時要明確理由;
  • 準確性(Accuracy):好的同行評審應該確保事實正確;
  • 友好(Kindness):好的同行評審應該措辭禮貌善意。

數(shù)據(jù)集

該研究介紹了如何構建具有更細粒度的元數(shù)據(jù)的評審數(shù)據(jù)集,該數(shù)據(jù)集 Aspect-enhanced Peer Review (ASAP-Review) 可用于系統(tǒng)訓練和多角度的評審評估。

數(shù)據(jù)收集

研究者通過 OpenReview 爬取了 2017-2020 年間的 ICLR 論文,通過 NeurIPS 論文集爬取了 2016-2019 年間的 NeurIPS 論文。對于每篇論文,研究者都保留了盡可能多的元數(shù)據(jù)信息,包括如下:

  • 參考評審,由委員會成員撰寫;
  • 元評審,通常由領域主席(高級委員會成員)撰寫;
  • 論文接收結果,即論文最終被「接收」還是「拒稿」;
  • 其他信息,包括 url、標題、作者等。

該研究使用 Allenai Science-parse 解析每篇論文的 pdf,并保留結構化的文本信息(例如標題、作者、章節(jié)內容和參考文獻)。下表 2 顯示了 ASAP-Review 數(shù)據(jù)集的基本統(tǒng)計信息:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

Aspect-enhanced Review 數(shù)據(jù)集

盡管評審呈現(xiàn)出下圖 3 所示的內部結構:評審通常以摘要開始,然后分方面列出不同觀點,并給出證據(jù)。實際上,這種有用的結構化信息并不能直接獲取??紤]到評審中各方面的細粒度信息在評估中起著至關重要的作用,該研究對評審進行了方面注釋(aspect annotation)。為此,該研究首先介紹方面類型(aspect typology),然后進行人工注釋。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

該研究定義的類型包含以下 8 個方面,遵循 ACL 審核指南,并做了一些小改動:

  • 摘要 (SUM)
  • 動機 / 影響(MOT)
  • 原創(chuàng)性(ORI)
  • 可靠性 / 正確性(SOU)
  • Substance(SUB)
  • 可復現(xiàn)性(REP)
  • 有意義的對比(CMP)
  • 清晰度(CLA)

總體而言,數(shù)據(jù)注釋涉及 4 個步驟,如下圖 1 所示:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

ReviewAdvisor 如何生成科學評審結果?

首先我們來看什么是「科學評審生成」任務。該任務可以被概念化地理解為基于 aspect 的科學論文摘要任務,但存在一些重要的區(qū)別。例如,大部分當前的工作要么從「作者視角」總結論文(即僅使用作者所寫的內容構建摘要),要么從「讀者視角」進行總結,即認為論文摘要應考慮研究社區(qū)成員的視角。

而 CMU 研究者在這項工作中將科學論文摘要的視角從「作者」或「讀者」擴展到了「評審」,并認為好的科學論文摘要不僅應反映論文的核心 idea,還要包含領域專家從不同方面做出的重要評價,而這需要源論文以外的知識。

這一想法的好處在于:1)幫助作者發(fā)現(xiàn)論文中的缺陷,使之更強;2)幫助評審者緩解一部分評審負擔;3)幫助讀者快速掌握論文主要思想,并了解「領域專家」(即該研究創(chuàng)建的系統(tǒng))對論文的評價。如下圖 3 所示:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

系統(tǒng)設計

該研究創(chuàng)建的評審數(shù)據(jù)集包含的訓練樣本少于其他基準摘要數(shù)據(jù)集,不過近期語境化預訓練模型的少樣本(few-shot)學習能力使得基于該數(shù)據(jù)集訓練評審生成系統(tǒng)成為可能。該研究使用 BART 作為預訓練模型,該模型在多個生成任務上展現(xiàn)出卓越的性能。

然而,即使有了 BART 的加持,如何使用它處理長文本仍是一大挑戰(zhàn)。經(jīng)過多次試驗后,研究者選擇了一種兩階段方法。

利用兩階段系統(tǒng)處理長文本

該研究利用「提取 - 生成」(extract-then-generate)機制,將文本生成分解為兩步。具體而言,首先進行內容選擇,即從源論文中提取顯著文本片段,然后基于這些文本生成摘要。

aspect 感知的摘要(aspect-aware Summarization)

通常在 extract-then-generate 機制中,可以直接使用提取內容,并構建用于生成文本的序列到序列模型。為了生成具備更多樣化方面的評審結果,以及透過其內部結構解釋評審結果,該研究更進一步提出了 extract-then-generate-and-predict 生成框架。

具體而言,研究者使用其標注 aspect 作為額外信息,設計了一個預測生成文本(評審)aspect 的輔助任務,參見下圖 5:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

實驗

研究者通過以下兩個問題,來評估該系統(tǒng)的效果。

該系統(tǒng)擅長什么?不擅長什么?

基于該研究定義的評估度量指標,研究者對參考評審和生成評審進行了自動評估和人工評估,來分析自動評審生成系統(tǒng)在哪些子任務上發(fā)揮良好,又在哪些子任務上失敗。下表 5 展示了評估結果:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

實驗發(fā)現(xiàn),該評審生成系統(tǒng)存在一些缺陷,主要表現(xiàn)在以下幾個方面:

缺乏對論文的高級理解:系統(tǒng)無法準確分辨高質量論文和低質量論文,大多數(shù)時候負面 aspect 的證據(jù)并不可靠;

模仿源數(shù)據(jù)的風格:在不同生成評審結果中常出現(xiàn)某些特定句子,這表明生成評審的風格易受訓練樣本中高頻句子模式的影響;

缺乏問題:生成評審很少對論文內容提出問題,而這是同行評審的重要組成部分。

當然,該系統(tǒng)也有一些優(yōu)勢。它通常能夠準確總結輸入論文的核心思想,生成評審覆蓋的論文質量 aspect 也多于人類評審人員。

案例研究

研究者還進行了案例研究,下表 6 展示了示例評審結果。從中可以看出,該模型不僅能生成流暢的文本,還能意識到生成文本是關于哪個方面及其正確的極性。例如紫色部分是「摘要」,黃色部分是「清晰度」,+ 表示評論較為正面。

雖然生成的方面通常是小型文本片段,還存在一些微小的對齊問題,但該模型仍然能清晰地感知到不同方面。

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

系統(tǒng)生成的評審帶有偏見嗎?

文本中的偏見普遍存在,但檢測難度高。該研究除了設計生成評審的模型外,還提出了一種偏見分析方法,以便更細粒度地識別和量化人類標注和系統(tǒng)生成數(shù)據(jù)中的偏見。

首先是度量評審中的偏見。下圖 6 展示了參考評審和生成評審之間的差異:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

該研究按照「Nativeness」和「Anonymity」將所有評審進行分類,詳情參見下表 7:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

分析發(fā)現(xiàn),Native 論文(即作者列表中至少有一位英語母語者)和非匿名論文的參考評審和生成評審得分更高。具體結果參見下圖:

AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文

在論文最后,研究者還列舉了自動評審生成系統(tǒng)面臨的八項挑戰(zhàn),涉及模型、數(shù)據(jù)、評估三個方面,分別是:長文本建模、針對科學領域的預訓練模型、結構信息、外部知識、更多細粒度評審數(shù)據(jù)、更準確和強大的科學論文解析器、生成文本的公平性和偏見、真實性與可靠性。

回到這個問題「科學評審可以自動化嗎?」,答案依然是「還不能」。

但是,說不定在不久的將來,自動評審生成系統(tǒng)能夠至少幫助人類評審更快速、高效地完成評審工作。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-04-02 14:43:34

Python 程序算法

2024-08-12 08:37:00

AI訓練

2024-05-09 11:24:20

AI論文

2025-03-13 09:16:25

2011-01-12 17:48:21

ArgusIP網(wǎng)絡事務評審網(wǎng)絡安全工具

2024-06-27 13:39:08

2024-09-20 17:41:07

2021-08-03 15:26:56

代碼智能阿里云

2024-01-26 12:51:33

AI

2023-02-06 10:55:18

需求評審軟件

2020-09-27 14:28:21

AI 數(shù)據(jù)人工智能

2024-10-12 13:51:22

2021-10-21 09:51:00

論文學術數(shù)據(jù)

2024-01-03 09:40:01

QA軟件測試開發(fā)

2022-03-01 15:15:41

AI樂譜論文

2020-04-24 08:46:41

SSDLC安全設計評審安全威脅

2024-07-17 12:16:01

2022-12-08 15:25:39

transforme訓練

2021-02-01 10:11:04

工具代碼開發(fā)

2025-02-12 13:44:12

點贊
收藏

51CTO技術棧公眾號