Nature：AI讓抄襲問題更加復雜，科學家該如何應對？

作者：新智元 2024-08-21 17:12:28

人工智能新聞

生成式人工智能在寫作中的爆炸性應用讓抄襲變得難以界定，引發(fā)了學術圈的一場大討論。

從哈佛大學校長因抄襲指控在1月份辭職，到2月份曝光的同行評審報告中存在抄襲，今年學術界因抄襲事件而動蕩不安。

但在學術寫作中，一個更大的問題迫在眉睫——

生成式人工智能工具的迅速普及引發(fā)了關于何種行為構成抄襲，以及對AI工具什么程度的使用應該被允許的問題。

版權和剽竊問題顧問Jonathan Bailey認為，「人工智能的使用范圍很廣，從完全由人類撰寫到完全由人工智能撰寫，這中間存在著一個巨大的混亂地帶」。

ChatGPT等生成式人工智能工具基于被稱為大語言模型 (LLM) 的方法，可以節(jié)省時間、提高清晰度并減少語言障礙。

現在，許多研究人員認為，在某些情況下可以允許這些工具的使用，并且應當充分披露其使用情況。

但是，這些工具使本來就充滿爭議的關于不當使用他人作品的界定變得更加復雜。

LLM通過消化大量以前發(fā)表的文章來生成文本。因此，使用這些工具可能會類似于「剽竊」。

例如，研究人員將機器寫的東西冒充為自己的作品，或者機器生成的文本與其他人的作品非常接近，卻沒有注明來源。

LLM還可以用來用來掩飾故意抄襲的文本，而且很難被檢測出來。

英國普利茅斯大學生態(tài)學家Pete Cotton說，「界定學術不誠實或剽竊的真正含義，以及界限在哪里將是非常非常困難的?！?/span>

在2023年對1600名研究人員進行的一項調查中，68%的受訪者表示，人工智能將使剽竊行為變得門檻更低，也更難被發(fā)現。

論文地址：https://www.nature.com/articles/d41586-023-02980-0

柏林應用科學大學的剽竊問題專家Debora Weber-Wulff說，「每個人都擔心別人都在使用這些系統，也擔心自己在應該使用的時候沒有使用。大家都在為這件事焦頭爛額。」

當抄襲遇上AI

剽竊，美國科研誠信辦公室將其定義為「盜用他人的觀點、過程、成果或文字而不給予適當的認可」。

這一問題其實并不罕見。2015年的一項研究估計，有1.7%的科學家承認自己有過剽竊行為，30%的科學家知道同事有剽竊行為。

LLM可能會讓事情變得更糟。如果有人要求LLM對措辭進行轉述，那么故意剽竊人類撰寫的文本這一行為就很容易被偽裝起來。

加拿大英屬哥倫比亞大學（UBC）的計算機科學家兼語言學家Muhammad Abdul-Mageed說，這些工具可以被提示以復雜的方式進行轉述，比如以學術期刊的風格。

一個核心問題是，使用完全由機器而非人類撰寫的無署名內容是否算作剽竊。

許多研究人員認為不一定。例如，包括大學和個人在內的歐洲學術誠信網絡將未聲明使用人工智能工具的寫作定義為「未經授權的內容生成」，而不是剽竊本身。

Weber-Wulff說，「對我來說，剽竊是指可歸因于另一個可識別的人的東西。她補充說，雖然人工智能生成的文本與現有的人類撰寫的內容看起來幾乎一模一樣，但這通常還不足以被視為剽竊?！?/span>

不過，也有人認為，生成式人工智能工具侵犯了版權。

剽竊和侵犯版權都是對他人作品的不當使用，剽竊是違反學術道德的行為，而未經授權使用受版權保護的作品則可能觸犯法律。

密歇根大學安娜堡分校的計算機科學家Rada Mihalcea說，「這些人工智能系統是建立在數百萬或數億人的工作基礎之上的?！?/span>

一些媒體公司和作家對他們認為人工智能侵犯版權的行為提出了抗議。

2023年12月，《紐約時報》對科技巨頭微軟和OpenAI提起版權訴訟。訴訟稱，這兩家公司復制并使用了該報的數百萬篇文章來訓練LLM，而這個訓練出的模型現在正與該出版物的內容競爭。

訴訟內容包括，GPT-4在提示之下幾乎一字不差地復制了報紙文章的幾個段落。

今年2月，OpenAI向聯邦法院提出動議，要求駁回訴訟的部分內容，認為「ChatGPT 絕不是《紐約時報》訂閱的替代品」。

微軟的一位發(fā)言人說，「應該允許合法開發(fā)的人工智能工具以負責任的方式發(fā)展」，「它們也不能替代記者所扮演的重要角色」。

版權和剽竊問題顧問Jonathan Bailey說：「如果法院裁定，未經許可對文本進行人工智能訓練確實侵犯了版權，這對人工智能公司來說將是一個巨大的沖擊」。如果沒有大量的訓練集，ChatGPT這樣的工具「就不可能存在」。

AI爆發(fā)

不管這是不是所謂的抄襲，自2022年11月ChatGPT發(fā)布以來，人工智能在學術寫作中的應用呈爆炸式增長。

研究人員估計，在2024年前6個月的生物醫(yī)學論文中，至少有10%的摘要使用了LLM進行寫作——相當于每年15萬篇論文。

由德國圖賓根大學的數據科學家Dmitry Kobak領導的研究人員們，分析了學術平臺PubMe上2010年至2024年6月期間發(fā)表的1400萬篇摘要。

他們發(fā)現，「深入」（delves）、「展示」（showasing）和「強調」（underscores）這些詞語的出現可能標志著LLM的使用。

通過尋找這些詞語，他們估算出了使用人工智能處理過的摘要的比例。

研究團隊發(fā)現，基于LLM的寫作助手的出現對科學文獻產生了前所未有的影響。

研究認為，與以英語為主要語言的國家相比，中國、韓國等國家的論文顯示出更多使用LLM的跡象。

不過，Kobak說，英語國家的作者可能同樣經常使用這些工具，只是使用的方式更難發(fā)現。他預測，LLM的使用「肯定會繼續(xù)增加」，而且「可能會越來越難以發(fā)現」。

在學術寫作中使用未公開的軟件并非新鮮事。

自2015年以來，法國圖盧茲大學計算機科學家Guillaume Cabanac和他的同事們一直在揭露由名為SCIgen的軟件編寫的「胡言亂語」的論文，以及那些包含「折磨人的短語」的論文，這些短語是由翻譯或轉述文本的軟件自動生成的。

Cabanac說，「即使在生成式人工智能出現之前，人們也有一些工具可以瞞天過海?！?/span>

在學術寫作中使用人工智能也有一定的價值。研究人員說，它可以使文字和概念更加清晰，減少語言障礙，并騰出時間進行實驗和思考。

利雅得沙特國王大學的信息技術研究員Hend Al-Khalifa說，在人工智能生成工具問世之前，許多以英語為第二語言的同事在撰寫論文時都會很吃力。

但現在，他們專注于研究，利用這些工具解決了寫作的麻煩。

但是，對于使用人工智能何時構成剽竊或違反倫理道德，人們仍然感到困惑。

馬里蘭大學學院帕克分校的計算機科學家Soheil Feizi 說，使用LLM來轉述現有論文的內容顯然是抄襲。

但是，使用LLM來幫助表達想法，無論是根據詳細提示生成文本，還是編輯草稿，如果做到透明，就不應該受到懲罰。

Feizi 認為，「我們應該允許人們利用LLM，毫不費力地、更清晰地表達自己的想法」。

現在，許多期刊的政策都允許在一定程度上使用LLM。

在最初禁止使用ChatGPT生成文本之后，Science于2023年11月更新了其政策，規(guī)定在撰寫稿件時使用人工智能技術應完全公開，包括所使用的系統和提示。作者要對準確性負責，并「確保沒有抄襲行為」。

Nature也表示，研究手稿的作者應在方法部分記錄任何使用LLM的情況。

對100家大型學術出版商和100種排名靠前的期刊進行分析后發(fā)現，到2023年10月，24%的出版商和87%的期刊都制定了關于使用生成式人工智能的指南。

幾乎所有提供指南的出版商都表示，人工智能工具不能作為作者收錄，但在允許使用人工智能的類型和要求披露的程度方面，政策有所不同。

Weber-Wulff說，學術寫作中迫切需要更明確的人工智能使用指南。

Abdul-Mageed說，就目前而言，使用LLM撰寫科學論文的熱潮因其局限性而受到抑制。用戶需要創(chuàng)建詳細的提示，描述受眾、語言風格和研究子領域?！笇嶋H上，語言模型很難完全滿足你的要求?！?/span>

但Abdul-Mageed表示，開發(fā)人員正在開發(fā)能讓研究人員更容易生成專業(yè)科學內容的應用程序。用戶今后無需撰寫詳細的提示，只需從下拉菜單中選擇選項，然后按下按鈕，就能從頭開始撰寫整篇論文。

「偵探」工作

在快速采用LLM編寫文本的同時，也出現了大量旨在檢測LLM的工具。

盡管許多工具吹噓自己的準確率很高，有些甚至超過 90%，但研究表明，大多數工具并沒有達到它們的要求。

在去年12月發(fā)表的一項研究中，Weber-Wulff 和她的同事對學術界廣泛使用的14 種人工智能檢測工具進行了評估。

只有5款工具能準確識別70%或以上的文本是人工智能還是人類撰寫的，沒有一款工具的識別率超過80%。

當人工智能生成的文本被人通過替換同義詞和調整語序等方式進行了輕微編輯后，檢測器的準確率平均下降到50%以下。

作者寫道，這種文本「目前的工具幾乎檢測不出來」。其他研究也表明，要求人工智能對文本進行多次轉述會大大降低檢測器的準確性。

人工智能檢測器還存在其他問題。

一項研究表明，如果英語不是母語的人撰寫的英文文章，它們更有可能誤判為人工智能生成的文章。

Feizi說，檢測器無法可靠地區(qū)分完全由人工智能撰寫的文本，和作者使用人工智能來幫助改善語法和句子清晰度來潤色文本的情況。

他說，區(qū)分這些情況相當困難，也不可靠，可能會導致巨大的誤報率。而且，被錯誤地指控使用人工智能會對這些學者或學生的聲譽造成相當大的損害。

人工智能的合法使用與非法使用之間的界限可能會進一步模糊。

2023年3月，微軟開始將人工智能生成工具納入其應用程序，包括Word、PowerPoint和Outlook。其某些版本的人工智能助手名為Copilot，可以起草或編輯內容。

6 月，谷歌也開始將其生成式人工智能模型Gemini集成到Docs和Gmail等工具中。

英國普利茅斯馬戎大學高等教育專家Debby Cotton說，「人工智能正深入到一切事物中，我們越來越難以分辨所做的事情是否受到了AI的影響，它的發(fā)展速度會比我們能跟上的速度更快」。

責任編輯：張燕妮來源：新智元

數據訓練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Nature：AI讓抄襲問題更加復雜，科學家該如何應對？

當抄襲遇上AI

AI爆發(fā)

「偵探」工作

Nature：AI讓抄襲問題更加復雜，科學家該如何應對？