資深專家也無法準(zhǔn)確分辨出 ChatGPT 撰寫的科學(xué)論文
1 月 14 日消息,美國科普雜志《科學(xué)美國人》(Scientific American)今天發(fā)布??文章??,表示由 ChatGPT 撰寫的科學(xué)論文具備非常高的學(xué)術(shù)性,以至于資深的科學(xué)家也無法分辨。
在 12 月下旬發(fā)表在 bioRxiv 服務(wù)器上的預(yù)印論文中寫道,人工智能 (AI) 聊天機(jī)器人已經(jīng)具備撰寫令人信服的虛假研究論文,以至于科學(xué)家們在不仔細(xì)甄別的情況下也無法分辨。
英國牛津大學(xué)研究技術(shù)和監(jiān)管的 Sandra Wachter 表示:“我對此非常擔(dān)心。如果連專家都無法甄別論文的真假,那么就會(huì)影響我們的研究基石”。
IT之家小課堂:聊天機(jī)器人 ChatGPT 會(huì)根據(jù)用戶提示創(chuàng)建逼真且聽起來很智能的文本。它是一種“大型語言模型”,一種基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng),通過消化大量現(xiàn)有的人類生成的文本來學(xué)習(xí)執(zhí)行任務(wù)。位于加利福尼亞州舊金山的軟件公司 OpenAI 于 11 月 30 日發(fā)布了該工具,并且可以免費(fèi)使用。
由伊利諾伊州芝加哥市西北大學(xué)的 Catherine Gao 領(lǐng)導(dǎo)的小組使用 ChatGPT 生成人工研究論文摘要,以測試科學(xué)家是否可以發(fā)現(xiàn)它們。研究人員要求聊天機(jī)器人根據(jù)發(fā)表在《美國醫(yī)學(xué)會(huì)雜志》(JAMA)、《新英格蘭醫(yī)學(xué)雜志》(The New England Journal of Medicine)、《英國醫(yī)學(xué)雜志》(The BMJ)、《柳葉刀》(The Lancet )和《自然醫(yī)學(xué)》(Nature Medicine)上的選集撰寫 50 篇醫(yī)學(xué)研究摘要。
然后,他們通過剽竊檢測器和 AI 輸出檢測器將這些摘要與原始摘要進(jìn)行比較,并要求一組醫(yī)學(xué)研究人員找出捏造的摘要。
ChatGPT 生成的摘要順利通過了剽竊檢查器(plagiarism checker):原創(chuàng)得分中位數(shù)為 100%,這表明沒有檢測到剽竊。
AI 輸出檢測器發(fā)現(xiàn)了 66% 的生成摘要,而人工審核僅正確識(shí)別了 68% 的生成摘要和 86% 的真實(shí)摘要。專家錯(cuò)誤地將 32% 的生成摘要識(shí)別為真實(shí)摘要,將 14% 的真實(shí)摘要識(shí)別為生成的。