GPT-4得不到MIT學(xué)位，MIT研究團(tuán)隊(duì)回應(yīng)「作弊」，但網(wǎng)友不買賬

作者：機(jī)器之心 2023-06-25 12:46:24

幾天前，一篇名為《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的論文經(jīng)歷了一場(chǎng)輿論風(fēng)波。

論文地址：https://arxiv.org/pdf/2306.08997.pdf

最初，研究團(tuán)隊(duì)從 MIT 的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科學(xué) (EECS) 專業(yè)的課程問題、期中考試和期末考試中，整理出了一個(gè)包含 4550 個(gè)問題和解決方案的綜合數(shù)據(jù)集，并讓各種大語言模型去完成這個(gè)數(shù)據(jù)集的題目，得出了「GPT-4 幾乎滿分通過 MIT EECS 和數(shù)學(xué)本科考試」的結(jié)論。

這一結(jié)果很快被人指出不夠嚴(yán)謹(jǐn)，還給出了多項(xiàng)證據(jù)和詳盡的分析，表示數(shù)據(jù)集本身就有問題，用 GPT-4 自動(dòng)打分的評(píng)價(jià)機(jī)制也很有問題：

「我們的批評(píng)主要是針對(duì)這項(xiàng)研究的方法和嚴(yán)謹(jǐn)性，而不是針對(duì)其內(nèi)容。我們對(duì)大型語言模型實(shí)際解決麻省理工學(xué)院課程的能力沒有任何意見，只是認(rèn)為本文未能以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞阶C明這一點(diǎn)?！?/p>

面對(duì)撲面而來的質(zhì)疑，研究團(tuán)隊(duì)在接下來的一周里卻沒有進(jìn)行任何公開回應(yīng)，沒有承認(rèn)，也沒有道歉。

但在昨天，人們等到了來自幾位教授（也是論文作者）署名的官方通報(bào)：

6 月 24 日，Armando Solar-Lezama（MIT EECS 教授和 CSAIL 首席運(yùn)營(yíng)官 / 副主任）、Tonio Buonassisi（MIT 機(jī)械工程教授）和 Yoon Kim（MIT EECS 和 CSAIL 助理教授）就該論文情況發(fā)表了公開聲明。

聲明內(nèi)容如下：

6 月 15 日，Iddo Drori 在 arXiv 上發(fā)布了一篇與麻省理工學(xué)院幾十門課程的考試和作業(yè)數(shù)據(jù)集相關(guān)的研究論文，他這樣做沒有得到其他合著者的同意，盡管已經(jīng)被告知在發(fā)表前應(yīng)該糾正的問題。我們中的一個(gè)人在周末旅行后，于 6 月 18 日星期天才知道這個(gè)帖子。
在處理這件事的過程中，我們發(fā)現(xiàn)，與 Drori 向我們和為該項(xiàng)目收集數(shù)據(jù)的學(xué)生所傳達(dá)的信息相反，Drori 并沒有得到所有導(dǎo)師的許可來收集構(gòu)成論文主題的數(shù)據(jù)集的作業(yè)和考試題。其中一些涉及課程的導(dǎo)師，在論文出現(xiàn)在社交媒體上和 Drori 未經(jīng)許可在網(wǎng)上發(fā)布數(shù)據(jù)樣本時(shí)，才知道這個(gè)數(shù)據(jù)集的存在且其中包含了自己的課程材料。

這些都是正在通過機(jī)構(gòu)渠道解決的嚴(yán)重問題，所以我們不愿意公開發(fā)表這樣的聲明，但我們覺得有必要解釋為什么這篇論文不應(yīng)該被發(fā)表而必須被撤回。我們已經(jīng)要求 Drori 從 arXiv 撤回這篇論文，并且直接聯(lián)系了 arXiv 解釋了這個(gè)情況。
我們想強(qiáng)調(diào)的是，這篇論文中的所有學(xué)生作者都非常努力地工作，如果數(shù)據(jù)是在同意的情況下收集的，這本來是一篇非常有趣和寶貴的論文。已經(jīng)發(fā)表的工作中出現(xiàn)的問題并不是學(xué)生的錯(cuò)。
而且，GPT-4 不能獲得麻省理工學(xué)院的學(xué)位。

這樣一份調(diào)查聲明，真的足夠了嗎？回想一周前三位質(zhì)疑者提交的分析，數(shù)據(jù)集被污染、手動(dòng)檢查的結(jié)果與論文所說的「幾乎滿分通過」相差甚遠(yuǎn)，這至少意味著論文內(nèi)容應(yīng)該被重新審查。

顯然，并不是所有人都對(duì)調(diào)查結(jié)果滿意，有人表示這是避重就輕的說法，只是關(guān)注他們不應(yīng)該使用這些數(shù)據(jù)的事實(shí)，而不提捏造結(jié)果的錯(cuò)誤。

「所以這三位麻省理工學(xué)院的教授認(rèn)為，未經(jīng)同意使用數(shù)據(jù)是論文的唯一問題?！?/p>

針對(duì)「這本來是一篇非常有趣和寶貴的論文」的說法，更多人點(diǎn)了反對(duì)：「讓 GPT-4 給自己生成的答案打分，這就是有趣和寶貴嗎？」

另外，有人發(fā)現(xiàn) Iddo Drori 的個(gè)人主頁已經(jīng)更新，刪掉了「MIT 客座教授」的 title。而且根據(jù)領(lǐng)英主頁的信息，他將在這個(gè)月結(jié)束自己的 MIT 訪問之旅。

「一些教授決定讓一位客座講師成為替罪羊，并試圖將每個(gè)人的注意力從方法論轉(zhuǎn)移到數(shù)據(jù)隱私問題上，卻沒有批評(píng)這篇論文。這是多么典型的學(xué)術(shù)政治問題?！?/p>

正如三位質(zhì)疑者在博客中所寫的那樣：「這篇論文道出了最近人工智能領(lǐng)域研究的一個(gè)更大趨勢(shì)。隨著該領(lǐng)域的進(jìn)展越來越快，新發(fā)現(xiàn)的時(shí)間節(jié)奏似乎在縮短，這往往伴隨著捷徑。一個(gè)特別令人擔(dān)憂的趨勢(shì)是使用像 GPT-4 這樣基于語言的模型來評(píng)估一個(gè)模型的準(zhǔn)確性的技術(shù)?！?/p>

對(duì)于此事，你怎么看？

責(zé)任編輯：趙寧寧來源：機(jī)器之心

GPT-4 人工智能

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4得不到MIT學(xué)位，MIT研究團(tuán)隊(duì)回應(yīng)「作弊」，但網(wǎng)友不買賬