GPT-4得不到MIT學(xué)位,MIT研究團(tuán)隊(duì)回應(yīng)「作弊」,但網(wǎng)友不買賬
幾天前,一篇名為《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》的論文經(jīng)歷了一場(chǎng)輿論風(fēng)波。
論文地址:https://arxiv.org/pdf/2306.08997.pdf
最初,研究團(tuán)隊(duì)從 MIT 的數(shù)學(xué)、電氣工程和計(jì)算機(jī)科學(xué) (EECS) 專業(yè)的課程問題、期中考試和期末考試中,整理出了一個(gè)包含 4550 個(gè)問題和解決方案的綜合數(shù)據(jù)集,并讓各種大語言模型去完成這個(gè)數(shù)據(jù)集的題目,得出了「GPT-4 幾乎滿分通過 MIT EECS 和數(shù)學(xué)本科考試」的結(jié)論。
這一結(jié)果很快被人指出不夠嚴(yán)謹(jǐn),還給出了多項(xiàng)證據(jù)和詳盡的分析,表示數(shù)據(jù)集本身就有問題,用 GPT-4 自動(dòng)打分的評(píng)價(jià)機(jī)制也很有問題:
「我們的批評(píng)主要是針對(duì)這項(xiàng)研究的方法和嚴(yán)謹(jǐn)性,而不是針對(duì)其內(nèi)容。我們對(duì)大型語言模型實(shí)際解決麻省理工學(xué)院課程的能力沒有任何意見,只是認(rèn)為本文未能以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞阶C明這一點(diǎn)?!?/p>
面對(duì)撲面而來的質(zhì)疑,研究團(tuán)隊(duì)在接下來的一周里卻沒有進(jìn)行任何公開回應(yīng),沒有承認(rèn),也沒有道歉。
但在昨天,人們等到了來自幾位教授(也是論文作者)署名的官方通報(bào):
6 月 24 日,Armando Solar-Lezama(MIT EECS 教授和 CSAIL 首席運(yùn)營(yíng)官 / 副主任)、Tonio Buonassisi(MIT 機(jī)械工程教授)和 Yoon Kim(MIT EECS 和 CSAIL 助理教授)就該論文情況發(fā)表了公開聲明。
聲明內(nèi)容如下:
6 月 15 日,Iddo Drori 在 arXiv 上發(fā)布了一篇與麻省理工學(xué)院幾十門課程的考試和作業(yè)數(shù)據(jù)集相關(guān)的研究論文,他這樣做沒有得到其他合著者的同意,盡管已經(jīng)被告知在發(fā)表前應(yīng)該糾正的問題。我們中的一個(gè)人在周末旅行后,于 6 月 18 日星期天才知道這個(gè)帖子。
在處理這件事的過程中,我們發(fā)現(xiàn),與 Drori 向我們和為該項(xiàng)目收集數(shù)據(jù)的學(xué)生所傳達(dá)的信息相反,Drori 并沒有得到所有導(dǎo)師的許可來收集構(gòu)成論文主題的數(shù)據(jù)集的作業(yè)和考試題。其中一些涉及課程的導(dǎo)師,在論文出現(xiàn)在社交媒體上和 Drori 未經(jīng)許可在網(wǎng)上發(fā)布數(shù)據(jù)樣本時(shí),才知道這個(gè)數(shù)據(jù)集的存在且其中包含了自己的課程材料。
這些都是正在通過機(jī)構(gòu)渠道解決的嚴(yán)重問題,所以我們不愿意公開發(fā)表這樣的聲明,但我們覺得有必要解釋為什么這篇論文不應(yīng)該被發(fā)表而必須被撤回。我們已經(jīng)要求 Drori 從 arXiv 撤回這篇論文,并且直接聯(lián)系了 arXiv 解釋了這個(gè)情況。
我們想強(qiáng)調(diào)的是,這篇論文中的所有學(xué)生作者都非常努力地工作,如果數(shù)據(jù)是在同意的情況下收集的,這本來是一篇非常有趣和寶貴的論文。已經(jīng)發(fā)表的工作中出現(xiàn)的問題并不是學(xué)生的錯(cuò)。
而且,GPT-4 不能獲得麻省理工學(xué)院的學(xué)位。
這樣一份調(diào)查聲明,真的足夠了嗎?回想一周前三位質(zhì)疑者提交的分析,數(shù)據(jù)集被污染、手動(dòng)檢查的結(jié)果與論文所說的「幾乎滿分通過」相差甚遠(yuǎn),這至少意味著論文內(nèi)容應(yīng)該被重新審查。
顯然,并不是所有人都對(duì)調(diào)查結(jié)果滿意,有人表示這是避重就輕的說法,只是關(guān)注他們不應(yīng)該使用這些數(shù)據(jù)的事實(shí),而不提捏造結(jié)果的錯(cuò)誤。
「所以這三位麻省理工學(xué)院的教授認(rèn)為,未經(jīng)同意使用數(shù)據(jù)是論文的唯一問題?!?/p>
針對(duì)「這本來是一篇非常有趣和寶貴的論文」的說法,更多人點(diǎn)了反對(duì):「讓 GPT-4 給自己生成的答案打分,這就是有趣和寶貴嗎?」
另外,有人發(fā)現(xiàn) Iddo Drori 的個(gè)人主頁已經(jīng)更新,刪掉了「MIT 客座教授」的 title。而且根據(jù)領(lǐng)英主頁的信息,他將在這個(gè)月結(jié)束自己的 MIT 訪問之旅。
「一些教授決定讓一位客座講師成為替罪羊,并試圖將每個(gè)人的注意力從方法論轉(zhuǎn)移到數(shù)據(jù)隱私問題上,卻沒有批評(píng)這篇論文。這是多么典型的學(xué)術(shù)政治問題?!?/p>
正如三位質(zhì)疑者在博客中所寫的那樣:「這篇論文道出了最近人工智能領(lǐng)域研究的一個(gè)更大趨勢(shì)。隨著該領(lǐng)域的進(jìn)展越來越快,新發(fā)現(xiàn)的時(shí)間節(jié)奏似乎在縮短,這往往伴隨著捷徑。一個(gè)特別令人擔(dān)憂的趨勢(shì)是使用像 GPT-4 這樣基于語言的模型來評(píng)估一個(gè)模型的準(zhǔn)確性的技術(shù)?!?/p>
對(duì)于此事,你怎么看?