自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

又遇到「GPT寫的review」了?看看北大&密歇根的這個研究工作

人工智能 新聞
低質(zhì)量的審稿是一直讓研究者頭疼的事情。大語言模型(LLMs)的流行給審稿質(zhì)量帶來轉(zhuǎn)機了嗎?

本文是對發(fā)表在計算經(jīng)濟學頂級會議ACM Conference on Economics and Computation (EC'24)上的論文Eliciting Informative Text Evaluations with Large Language Models的解讀。該論文由北京大學前沿計算研究中心孔雨晴課題組與密歇根大學Grant Schoenenbeck課題組合作完成,共同一作為北京大學計算機學院博士生陸宇暄和密歇根大學博士生許晟偉。

圖片

圖片

  • 論文鏈接:https://arxiv.org/abs/2405.15077
  • 現(xiàn)場交流 Oral at EC’24:

Yale School of Management, New Haven, Room 2400

Wednesday, July 10. 14:30–16:00 (EDT)

介紹

你遇到過“ChatGPT”味道十足的審稿意見嗎?質(zhì)量如何呢?

低質(zhì)量的審稿是一直讓研究者頭疼的事情。大語言模型(LLMs)的流行給審稿質(zhì)量帶來轉(zhuǎn)機了嗎?

不妨看看下面這兩個例子,你能夠分辨其中哪個是由ChatGPT-4o生成的嗎?

例1:

… The paper is engaging and addresses a highly pertinent issue: information elicitation in the context of Large Language Models (LLMs). The concept of computing conditional probability using an LLM is both elegant and innovative. …

… A primary concern is the robustness of the method used to estimate conditional probability with an LLM, which may require additional experimentation and methodological refinement to ensure reliability and applicability across diverse scenarios. …

例2:

… The paper presents a novel application of LLMs to enhance peer prediction mechanisms, which is a significant step forward from traditional methods that focus on simpler report types. …

… While the mechanisms are theoretically sound, their practical implementation, especially in real-world settings with diverse and complex textual inputs, might pose significant challenges. …

當你仔細品讀這兩個例子的語法使用和遣詞造句后,不知道有沒有分辨出來二者之間的區(qū)別。

現(xiàn)在公布答案:第一個例子為人類審稿人撰寫,而第二個例子則是由ChatGPT-4o生成的。

可以看出來,GPT-4o的審稿意見“看起來不錯”,但指出的問題往往是泛泛而談,這種“challenge in real-world settings”的問題對99%的研究都是適用的,而人類審稿人的意見則更加具體和實際。

即使目前大模型的能力在不斷增強,若干研究也已經(jīng)探索了使用大模型輔助生成論文審稿意見的可能;但不可否認的是,大模型使得生成低質(zhì)量審稿意見的成本變得無限低,這也讓學術(shù)界對濫用大模型生成低質(zhì)量審稿意見感到擔憂。

如何激勵審稿人提供高質(zhì)量的審稿意見呢?

粗暴的使用大模型檢測工具往往是不可取的,因為合理的運用大模型可以為非英語母語的審稿人提供必要的語言支持。而且隨著大模型的進化,當他能夠提供合理質(zhì)量的審稿時,并不應(yīng)當完全排斥大模型的使用。

問題的關(guān)鍵是,意見本身應(yīng)當是高質(zhì)量的,具有建設(shè)性和批判性的,而不是語言是如何表達的。

方法概述

來自北京大學和密歇根大學的研究者提出了兩種機制,Generative Peer Prediction Mechanism (GPPM) 和 Generative Synopsis Peer Prediction Mechanism (GSPPM),使得高質(zhì)量的匯報能夠取得(期望意義上)更高的評分。

  • GPPM的靈感來自于香農(nóng)互信息(Mutual Information),假設(shè)有兩個審稿人Alice和Bob,Alice的分數(shù)是,Alice的審稿意見圖片能提供多少關(guān)于Bob的審稿意見圖片的信息。
  • 在此基礎(chǔ)上,GSPPM試圖過濾掉審稿意見中的無效信息,例如對論文內(nèi)容的概括。

方法的核心在于如何衡量Alice對于Bob意見的信息量。研究者推廣了Peer Prediction Mechanism [Miller et al., 2004],提出了使用LLM來估計圖片,作為Alice的分數(shù)。

研究團隊提出了兩種估計方法,TOKENJUDGMENT

其中,

  • TOKEN利用了LLM predict next token的能力。值得注意的是,利用大模型將文本報告預(yù)處理成統(tǒng)一的格式非常重要,這避免了不同語言風格和用詞習慣帶來的噪聲等影響,研究者稱這一方法為Token-Preprocess。
  • JUDGMENT提供了一種在只有Chatbot API情況下的解決方案。如上圖所示,帶有文本預(yù)處理的TOKEN實現(xiàn)表現(xiàn)整體好于JUDGMENT實現(xiàn)。

實驗結(jié)果

1. GPPM和GSPPM是否有能力區(qū)分出人類審稿意見和LLM生成的審稿意見?

在ICLR 2020 OpenReview數(shù)據(jù)集上,研究者隨機選出300篇論文,對每篇論文隨機指定一對Alice和Bob,然后他們將Alice的審稿意見替換為LLM(GPT-4或GPT-3.5)生成的審稿意見,觀察Alice的分數(shù)是否顯著下降。

圖片

實驗發(fā)現(xiàn),在兩種機制下,分數(shù)下降都非常顯著,而且GPT-3.5生成的審稿造成的分數(shù)下降比GPT-4更加顯著。從而顯示出三種質(zhì)量等級,從高到低依次是人類,GPT-4,GPT-3.5,符合預(yù)期。

同時,GSPPM的分數(shù)顯著性更高,這是由于GSPPM進一步降低了由論文概括等與意見無關(guān)的信息帶來的噪聲等影響,從而突出了審稿意見質(zhì)量帶來的差異。

2. 不同估值方法是否能檢測低質(zhì)量的評論意見?

與審稿類似的文本評價在互聯(lián)網(wǎng)經(jīng)濟(例如餐廳點評,商品評價),在線課堂(例如同伴互評)等場景被廣泛應(yīng)用,它們都可能會遇到低質(zhì)量報告帶來的問題。因此,研究團隊還分別在Yelp餐廳點評數(shù)據(jù)集和ICLR2020 OpenReview數(shù)據(jù)集,實驗了人為降低文本評價質(zhì)量是否會帶來顯著的分數(shù)下降,答案是肯定的。我們發(fā)現(xiàn)Token-Preprocess檢測低質(zhì)量評論的能力最顯著。

圖片

三種人為降低報告質(zhì)量帶來的分數(shù)下降顯著性(Yelp餐廳點評數(shù)據(jù)集)

圖片

三種人為降低報告質(zhì)量帶來的分數(shù)下降顯著性(ICLR2020 OpenReview數(shù)據(jù)集)

方法和理論結(jié)果

本文的理論依據(jù)主要來源于用信息論的方法量化隨機變量之間的相關(guān)性,研究團隊用大模型的預(yù)測能力作為實現(xiàn)量化文本相關(guān)性的手段。

注意到,如下公式所示,Alice的期望分數(shù)就是圖片,其中圖片對Alice為常數(shù)。因此Alice想要獲得高分,就需要增加自己的審稿意見能提供Bob的意見的信息量,即圖片。

圖片

圖片

根據(jù)以上思路,該團隊證明了在LLM的估計近似準確的假設(shè)下,所有人都提供高質(zhì)量的信息是一個近似貝葉斯納什均衡(Bayesian Nash Equilibrium):即對于每個人,提供更差的審稿意見會帶來更低的期望分數(shù)。

未來工作

這篇論文率先在計算經(jīng)濟學領(lǐng)域中,提出激勵高質(zhì)量文本評價的機制。這樣一個全新的交叉領(lǐng)域帶來了若干開放問題,例如

  • 能否收集人類對審稿意見的評分,驗證與文中機制評分的相關(guān)系數(shù)?
  • 能否進一步降低文中機制評分的噪聲?
  • 能否在其他領(lǐng)域測試文中機制的能力,如中文文本?

研究者在論文中提供了更多細節(jié)討論,并歡迎讀者進一步討論和交流。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2009-12-03 14:53:49

.NET Framew

2017-06-06 17:03:59

機器學習模型算法

2023-07-18 19:11:21

配置信令系統(tǒng)

2022-02-23 14:18:53

If-Else入?yún)?/a>接口

2017-05-23 08:54:51

2019-09-06 10:31:45

軟件開發(fā)地圖

2021-06-08 13:55:41

AI 數(shù)據(jù)人工智能

2024-06-04 08:30:32

2020-06-19 10:17:11

Code ReviewKPI代碼

2021-01-25 20:47:43

技術(shù)研發(fā)實踐

2023-03-27 17:45:16

研究AI

2024-05-14 07:30:52

OpenAIGPT-4模型

2024-12-20 14:37:47

2023-03-16 19:17:57

2018-08-16 15:11:47

Code ReviewPPT代碼

2020-07-20 14:10:48

AI 數(shù)據(jù)人工智能

2023-08-10 09:00:00

2021-09-09 18:12:22

內(nèi)存分段式網(wǎng)絡(luò)

2014-11-11 14:52:28

程序員工程師

2021-03-26 15:18:11

代碼工具Mockoon
點贊
收藏

51CTO技術(shù)棧公眾號