離譜!美國教授用ChatGPT「證實」論文抄襲,半個班學(xué)生慘遭掛科
離了個大譜!
辛辛苦苦碼出的畢業(yè)論文,居然被教授拿去放在ChatGPT里檢測,然后就被判定為抄襲?
教授因此掛掉了全班一半的人,然后學(xué)校還因此拒發(fā)畢業(yè)證?
教授:被ChatGPT認(rèn)領(lǐng)的,都得0分
最近,在得克薩斯農(nóng)工大學(xué)(Texas A&M),發(fā)生了這樣一件令人哭笑不得的事。
為了檢測學(xué)生提交的論文是否作弊,一位名叫Jared Mumm的教授把他們的論文提交給了ChatGPT。
他對學(xué)生們說:我會把你們的論文復(fù)制粘貼到ChatGPT中,它會告訴我,你們的論文是不是它生成的。
「我會在兩個不同的時間段里,把每個人的最后三篇論文放進(jìn)去,如果這兩次它們都被ChatGTP認(rèn)領(lǐng)了,我就會給你0分?!?/span>
顯然,沒有任何計算機(jī)相關(guān)背景知識的Mumm教授,對ChatGPT的原理一竅不通。
實際上,ChatGPT并不能識別由AI創(chuàng)建的內(nèi)容,即使是它自己寫的都不行。
甚至,他連ChatGPT都沒拼對——直接寫成了「Chat GPT」以及「chat GPT」。
結(jié)果,全班有一多半人的論文被ChatGPT不負(fù)責(zé)任地「認(rèn)領(lǐng)」,因而掛了這一科。
更倒霉的是,大多數(shù)已畢業(yè)學(xué)生的文憑,因此直接被學(xué)校拒發(fā)了。
當(dāng)然,Mumm教授也不是毫不留情,他為全班同學(xué)提供了重做作業(yè)的機(jī)會。
如何證明自己沒用ChatGPT?
收到上面這封郵件后,幾名學(xué)生寫信給Mumm力證自己的清白。他們提供了帶有時間戳的Google Docs,來證明自己并沒有使用ChatGPT。
但Mumm教授直接無視了這些電子郵件,只在幾個學(xué)生的評分軟件中留下了這樣的回應(yīng)——我不給AI生成的狗屎評分。
不過,還是有學(xué)生「平反」了,據(jù)說,已經(jīng)有一名學(xué)生被「無罪釋放」,并且得到了Mumm的道歉。
然而,讓情況更復(fù)雜的事,有兩名學(xué)生「挺身而出」,承認(rèn)自己的確在本學(xué)期使用過ChatGPT。
這一下子就讓其他沒有用ChatGPT寫論文的學(xué)生,更難自證清白了……
對此,得克薩斯農(nóng)工大學(xué)商學(xué)院表示正在調(diào)查這一事件,但并沒有學(xué)生不及格,也沒有人因為這個問題被延畢。
學(xué)校表示,Mum教授正在一對一地與學(xué)生談話,了解他們寫作業(yè)的過程中是否使用了AI,使用到了什么程度。個別學(xué)生的文憑將被扣留,直到調(diào)查完成。
而學(xué)生們表示,自己并沒有獲得文憑。
目前,事件還在調(diào)查中。
用ChatGPT檢測ChatGPT?
那么問題來了,ChatGPT能證明一篇文章是不是自己寫的嗎?
對此,我們基于教授這封郵件的內(nèi)容,問了問ChatGPT的觀點:
ChatGPT一上來就表示,自己并沒有能力驗證內(nèi)容的原創(chuàng)性,以及是不是由AI生成的。
「這位老師似乎誤解了像我這樣的AI是如何工作的。雖然AI可以根據(jù)提示生成文本,但它不能確定另一篇文本是否由人工智能生成?!?/span>
話雖如此,但這并不能攔住愛整活的網(wǎng)友。
他們來了一出「以其人之道還治其人之身」,在線教Mumm教授做人。
首先,ChatGPT表示,教授寫的這封郵件,正是出自自己之手。
緊接著,網(wǎng)友又復(fù)刻了Mumm教授的做法——
拿一段看起來像是某篇論文的節(jié)選,來問ChatGPT是不是它寫的。
這次,ChatGPT雖然沒說是自己寫的,但基本上確定內(nèi)容就是來自AI。
其中,有幾個特征與Al生成的內(nèi)容一致:
1. 文本是連貫的,遵循一個清晰的結(jié)構(gòu),從一般到具體。
2. 準(zhǔn)確地引用了來源和數(shù)字?jǐn)?shù)據(jù)。
3. 正確地使用了術(shù)語,這是典型的Al模型的特點。比如GPT-4,就是在包括科學(xué)文獻(xiàn)在內(nèi)的各種文本中訓(xùn)練出來的。
那么實際上,這段內(nèi)容的出處是哪里呢?
有意思的地方來了,沒想到竟然是Mumm教授自己寫的博士論文!
AI檢測器并不靈?
既然ChatGPT無法檢驗一段內(nèi)容是不是AI生成的,那什么可以呢?
自然是為此專門誕生的「AI檢測器」,號稱是用魔法打敗魔法。
眾多AI檢測器中,最出名的一個便是由普林斯頓華人本科生Edward Tian創(chuàng)建的GPTZero——它不僅免費,而且效果拔群。
只需把文字復(fù)制粘貼進(jìn)去,GPTZero就可以明確地指出一段文字中,哪段是AI生成的,哪段是人類寫的。
原理上,GPTZero主要靠「困惑度」(文本的隨機(jī)性)和「突發(fā)性」(困惑度的變化)作為指標(biāo)進(jìn)行判斷。
在每次測試中,GPTZero還會挑選出困惑度最高的那個句子,也就是最像人話的句子。
但這個方法其實并不完全可靠,雖然GPTZero聲稱產(chǎn)品的假陽性率<2%,但這個數(shù)據(jù)更多是基于對新聞類內(nèi)容的評判。
在實測中,有人曾把美國憲法輸入GPTZero,結(jié)果被判定是AI寫的。
而剛剛那段ChatGPT的回復(fù),GPTZero則認(rèn)為很可能完全是由人類寫的。
這導(dǎo)致的后果就是,不了解其中原理、太固執(zhí)的老師,就會無意中冤枉很多學(xué)生,比如Mumm教授。
所以,如果遇到這種情況,我們該怎么自證清白?
有網(wǎng)友提議,類似「美國憲法實驗」,把ChatGPT出現(xiàn)之前的文章丟進(jìn)AI檢測器,看看結(jié)果如何。
然而,從邏輯上講,即使能證明AI檢測器確實不靠譜,學(xué)生也無法直接證明自己的論文不是由AI生成的。
問一下ChatGPT怎么破,它是這么說的。
「讓老師理解AI的工作方式和局限性」,嗯,ChatGPT發(fā)現(xiàn)了華點。
目前小編唯一想到的答案是,如果不在教授眼皮底下直接寫,那就每次寫論文都錄屏,或者干脆給教授開直播。
連OpenAI對于自己的官方ChatGPT檢測器,也只能保證26%的「真陽性」正確率。
他們還特地發(fā)了官方聲明給大家打預(yù)防針:「我們真的不建議孤立地使用這個工具,因為我們知道它可能出錯,使用AI進(jìn)行任何種類的評估都是如此」。
AI內(nèi)容檢測為何如此困難?
目前市面上已有的檢測器已經(jīng)數(shù)不勝數(shù)——GPTZero、Turnitin、GPT-2 Output、Writer AI 、Content at Scale AI等等,但準(zhǔn)確率都差強(qiáng)人意。
那么,為什么我們想檢測一段內(nèi)容是不是AI生成的,就這么困難?
Turnitin的AI副總裁Eric Wang稱,用軟件檢測AI寫作的原理,是基于統(tǒng)計學(xué)。從統(tǒng)計學(xué)的角度來看,AI與人類的區(qū)別在于,它極其穩(wěn)定地處于平均水平。
「像ChatGPT這樣的系統(tǒng)就像是自動補(bǔ)全的高級版本,尋找下一個最可能要寫的單詞。這實際上就是它為什么讀起來如此自然的原因。AI寫作是人類寫作中最可能的子集。」
Turnitin的檢測器便會「識別出書寫過于一致的平均情況」。然而,有時人類的寫作看起來也會處于平均水平。
在經(jīng)濟(jì)學(xué)、數(shù)學(xué)和實驗室報告中,學(xué)生傾向于遵循固定的寫作風(fēng)格,這意味著他們更有可能被誤認(rèn)為是AI寫作。
更好笑的是,前不久的一篇論文中,來自斯坦福大學(xué)的研究團(tuán)隊發(fā)現(xiàn):對于非母語者的論文,GPT檢測器更容易判為AI寫的。其中,中國人寫的英文論文被判為AI生成的概率,高達(dá)61%。
論文地址:https://arxiv.org/pdf/2304.02819.pdf
研究人員從中國的教育論壇上獲取了91篇托福作文,又從美國Hewlett基金會的數(shù)據(jù)集中摘取了88篇美國八年級學(xué)生寫的作文,輸進(jìn)了7大GPT檢測器。
圖中百分比即「誤判」比例,也就是明明由人寫的,卻被判為AI生成的
可以看到,美國學(xué)生的作文被誤判的概率最高才12%,而中國學(xué)生的作文,概率基本過半,甚至高達(dá)76%。
研究者的結(jié)論是,因為非母語者寫的東西不地道,復(fù)雜度低,容易被錯判。
可見,以復(fù)雜度來判定作者是人類還是AI,并不合理。
抑或,背后還有其他原因?
對此,英偉達(dá)科學(xué)家Jim Fan稱,檢測器在很長一段時間內(nèi)都是不可靠的。畢竟AI會變得越變越強(qiáng),并且會以越來越像人類的方式寫作。
可以肯定地說,隨著時間的推移,這些語言模型的小怪癖會越變越少。
不知這對學(xué)生們,會是福音還是噩耗。