自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

吃了幾個原作者才能生成這么逼真的效果?文生圖涉嫌視覺「抄襲」

人工智能 新聞
雖然提示詞只是要生成「動畫版的玩具」,但結(jié)果和《玩具總動員》沒有區(qū)別。

不久之前,《紐約時報》指控 OpenAI 涉嫌違規(guī)使用其內(nèi)容用于人工智能開發(fā)的事件引起了社區(qū)極大的關(guān)注與討論。

GPT-4 輸出的許多回答中,幾乎逐字逐句地抄襲了《紐約時報》的報道:

圖片

圖中紅字是 GPT-4 與《紐約時報》報道重復(fù)的部分。

對此,各個專家分別有不同的看法。

圖片

機器學(xué)習(xí)領(lǐng)域權(quán)威學(xué)者吳恩達對 OpenAI 和微軟表示了同情,他懷疑 GPT「存在抄襲」的原因并不只是模型訓(xùn)練集使用了未經(jīng)授權(quán)的文章,而是來自類似于 RAG(檢索增強生成)的機制。ChatGPT 瀏覽網(wǎng)絡(luò)以搜索相關(guān)信息,并下載了一篇文章來回答用戶的問題。他發(fā)現(xiàn),沒有 RAG 類似機制的 LLM,在預(yù)訓(xùn)練中的輸出通常是對輸入的轉(zhuǎn)換,幾乎從未逐字逐句地「抄襲」。

而紐約大學(xué)教授 Gary Marcus 有不同的觀點,他說在視覺生成領(lǐng)域的「抄襲」和 RAG 毫不相干。

他在近日 IEEE Spectrum 發(fā)表的文章中,明確指出「Generative AI Has a Visual Plagiarism Problem」。

下面,就讓我們看下這篇文章講了什么。

圖片

LLM 對其訓(xùn)練數(shù)據(jù)的「記憶力」長期以來一直是個問題。最近的實證研究表明,在某些情況下,LLM 能夠再現(xiàn),或者在稍作修改的情況下再現(xiàn)其訓(xùn)練集中的大量文本。

例如,Milad Nasr 等研究者在 2023 年發(fā)表的一篇論文中提出,LLM 可以在輸入某些提示詞時泄露如郵件和電話號碼等私人信息。來自谷歌 Deepmind 的 Carlini 也在最近的研究中得出了較大的聊天機器人模型有時會逐字逐句地反芻大量文本,小模型則未出現(xiàn)此現(xiàn)象。

最近《紐約時報》指控 OpenAI 涉嫌違規(guī)使用其內(nèi)容用于人工智能開發(fā),《紐約時報》提供的申訴書中提供了大量重復(fù)抄襲證據(jù)。

Marcus 稱這種近乎逐字逐句的輸出為「抄襲輸出」。如果這些內(nèi)容的作者是人類,那么肯定會被認定是抄襲。雖然無法計算出「抄襲輸出」出現(xiàn)的頻率,或者抄襲在什么情況下發(fā)生。但是這些直觀的結(jié)果為「生成式人工智能系統(tǒng)可能會抄襲」提供了強有力的證據(jù)。即使用戶沒有直接要求 AI 這么做,也面臨版權(quán)方的侵權(quán)索賠。

人工智能的抄襲問題說不清,也道不明,其原因在于 LLM 對于人類來說還是「黑匣子」。我們不完全了解輸入(訓(xùn)練數(shù)據(jù))和輸出之間的關(guān)系,輸出也可能在某一時刻發(fā)生不可預(yù)測的變化?!赋u輸出」普遍出現(xiàn)的可能很大程度上取決于模型的大小和訓(xùn)練集等具體因素。

由于 LLM 的黑匣子特性,關(guān)于「抄襲輸出」的問題只能通過實驗來驗證。這些實驗可能也只能得出一些不確定的結(jié)論。

然而但「抄襲輸出」引發(fā)了許多重要問題,在技術(shù)方面,是否能夠通過技術(shù)手段來避免「抄襲輸出」?在法律層面,這些輸出是否構(gòu)成侵犯版權(quán)?在實際應(yīng)用中,用戶 LLM 生成內(nèi)容時,是否有方法可以讓不希望侵權(quán)的用戶確信他們沒有侵權(quán)?

《紐約時報》和 OpenAI 的訴訟案對生成式人工智能領(lǐng)域未來的發(fā)展具有關(guān)鍵影響。

在計算機視覺領(lǐng)域,抄襲問題依然存在。模型是否也能基于受版權(quán)保護的圖片,產(chǎn)生「抄襲輸出」呢?

Midjourney v6 中的抄襲視覺輸出

Marcus 的答案是肯定的,甚至不需要直接向模型輸入抄襲的提示。

只需給出與某些商業(yè)電影相關(guān)的簡短提示,Midjourney v6 就能生成許多「抄襲輸出」。從下面的例子中,可以發(fā)現(xiàn),Midjourney 生成的圖片與《復(fù)仇者聯(lián)盟》、《沙丘》等知名電影還有電子游戲中的鏡頭幾乎完全相同。

他們還發(fā)現(xiàn)了,卡通角色特別容易被復(fù)制,正如下面的《辛普森一家》,即使輸入的提示詞是「90 年代流行的黃皮膚的動畫」,完全與《辛普森一家》無關(guān),但生成結(jié)果和原動畫看不出什么區(qū)別。

圖片

根據(jù)這些結(jié)果,幾乎可以肯定 Midjourney V6 是基于受版權(quán)保護的材料上訓(xùn)練的。目前尚不清楚 Midjourney V6 是否獲得了版權(quán)方的許可,但 Midjourney 可用于侵犯原作者權(quán)利的創(chuàng)造。

在上述許多示例中,本文作者驗證了 Midjourney 可以故意復(fù)制受版權(quán)保護的素材,但還未確定:在不故意的情況下,是否有人因此而侵犯了版權(quán)。

在《紐約時報》的訴訟中,其中有一點很引人注目。如下圖所示,《紐約時報》提供的證據(jù)表明,在不使用「您能否以《紐約時報》的風(fēng)格撰寫關(guān)于某某的文章」的提示詞,而是通過給出文章前幾個字,GPT-4 還是給出了和原文一模一樣的回答。這表明模型可以在不故意抄襲的情況下引發(fā)「抄襲輸出」。

圖片t few words of an actual article.

當(dāng)給提供了一篇《紐約時報》的文章的前幾個詞時,它輸出了看似存在抄襲的回答。

在視覺生成領(lǐng)域中,這個問題的答案也是肯定的。在下面展示的例子中,他們沒有在提示詞中涉及《星球大戰(zhàn)》或者角色,但是 Midjourney 卻生成了達斯?維德、盧克?天行者、R2-D2 等家喻戶曉的經(jīng)典形象。

圖片

《玩具總動員》、小黃人、索尼克、馬里奧,這些耳熟能詳?shù)拇?IP 也沒能逃過「無意識的抄襲輸出」。

圖片

即使沒有直接提名,Midjourney 生成了這些辨識度很高的電影和游戲角色的相關(guān)圖像。

在沒有直接指示的情況下喚出電影般的畫面

在第三個實驗中,Marcus 等人探索了 Midjourney 能否在沒有提示詞的情況下,輸出和電影原出處相似的整個電影幀。同樣,這個問題的答案是肯定的。

圖片

最終,他們發(fā)現(xiàn),在輸入「screencap」的提示詞時,即使沒有輸入任何具體的電影,角色或者演員,但是卻產(chǎn)生了明顯的侵權(quán)內(nèi)容。以下圖片都是使用「screencap」作為提示,Midjourney 生成了與電影中的一幀極其相似的結(jié)果。

圖片

雖然 Midjourney 可能會很快修補這個特定的提示詞,但 Midjourney 產(chǎn)生潛在侵權(quán)行為的能力是顯而易見的。Marcus 和他的同伴發(fā)現(xiàn)了以下被「抄襲」的受害者,更多電影、演員和游戲的名單將在他們的 YouTube 頻道發(fā)布。

圖片

Midjourney 的抄襲問題

通過以上的實驗,可以得到如下結(jié)論:Midjourney 違規(guī)使用了受版權(quán)保護的素材訓(xùn)練模型,一些生成式人工智能系統(tǒng)可能會產(chǎn)生「抄襲輸出」,即使提示詞不涉及抄襲行為,也可能使用戶面臨版權(quán)侵權(quán)索賠。最近的新聞也支持同樣的結(jié)論。Midjourney 最近收到了 4700 多名藝術(shù)家的聯(lián)合起訴,因為 Midjourney 在未經(jīng)同意的情況下使用了他們的作品用于訓(xùn)練 AI。

Midjourney 的訓(xùn)練數(shù)據(jù)中有多少是未經(jīng)許可使用的版權(quán)材料?尚未可知。該公司對其原始材料以及哪些材料獲得了適當(dāng)許可都未公開。

事實上,該公司在一些公開評論中對抄襲問題持不屑一顧的態(tài)度。當(dāng) Midjourney 的首席執(zhí)行官接受《福布斯》雜志采訪時,對版權(quán)相關(guān)的問題回答道:「沒有一種方法可以在獲得一億張圖片的同時知道它們的來源?!?/span>

如果未獲得原素材許可,可能會使 Midjourney 面臨來自電影工作室、視頻游戲發(fā)行商、演員等的大量訴訟。

版權(quán)和商標(biāo)法的要點是限制未經(jīng)授權(quán)的商業(yè)再使用,以保護內(nèi)容創(chuàng)作者。由于 Midjourney 收取訂閱費,并且可以被視為與視覺內(nèi)容工作室的競爭者,這可能是版權(quán)方的起訴原因。

Midjourney 顯然試圖壓制 Marcus 的發(fā)現(xiàn)。在他發(fā)布了一些實驗結(jié)果后,文章被 Midjourney 要求撤稿。

但是并非所有使用受版權(quán)保護素材的行為都是非法的。例如,在美國,如果使用時間短,或素材被用于批評、評論、科學(xué)評估或模仿,那么使用未經(jīng)授權(quán)的素材是被允許的。Marcus 認為 Midjourney 可能在訴訟中依靠這些論據(jù)。

更糟糕的是,Marcus 發(fā)現(xiàn)有證據(jù)表明 Midjourney 的一名高級軟件工程師在 2022 年 2 月參與了一場關(guān)于如何通過「通過微調(diào)代碼」來「洗白」數(shù)據(jù)以逃避版權(quán)法的對話。

另一名不能確定是否為 Midjourney 工作的參與者隨后說:「在某種程度上,在版權(quán)法看來,真的無法追蹤什么是衍生作品?!?/span>

就 Marcus 所知,Midjourney 被懲罰,做出賠償?shù)目赡苄院艽?。有消息人士稱,Midjourney 可能創(chuàng)建了一個很長的藝術(shù)家名單,為他們支付沒有獲得許可將其作品用于訓(xùn)練的報酬。

此外,Midjourney 對 Marcus 的合作者進行了封號,在他創(chuàng)建小號后依舊禁止他訪問。

隨后,Midjourney 更改了其服務(wù)條款,加入了:「您不得使用該服務(wù)試圖侵犯他人的知識產(chǎn)權(quán),包括版權(quán)、專利或商標(biāo)權(quán)。這樣做可能會使您受到包括法律訴訟或永久禁止使用該服務(wù)等處罰?!沟奶崾菊Z。

這一修改通常是阻礙甚至排除對生成式 AI 限制進行安全調(diào)查的常見做法,這種做法是幾家大型 AI 公司在 2023 年與白宮達成的協(xié)議中承諾的一部分。

除此之外,Marcus 并不認為 Midjourney 是目前的圖像生成 AI 中能生成最精細結(jié)果的軟件。因此,他們還提出了「隨著能力的提高,AI 創(chuàng)造抄襲圖像的傾向是否會增加」的猜想。

根據(jù)已有研究者在文本輸出領(lǐng)域的研究表明,這可能是真的。憑直覺而言,系統(tǒng)掌握的數(shù)據(jù)越多,它就越能掌握統(tǒng)計的相關(guān)性,但也可能越容易精確地重建訓(xùn)練集中的數(shù)據(jù)。如果這種猜測是正確的,那么隨著生成式人工智能公司收集的數(shù)據(jù)越來越多,模型越來越大,那么模型也可能更具抄襲性。

DALL?E 3 的抄襲

與 Midjourney 一樣,即使沒有有指向性的具體提示詞, DALL?E 3 也能夠創(chuàng)建近乎與原作完全的復(fù)制品。

如下圖所示,通過以下簡單的提示詞:「動畫玩具」, DALL?E 3 就創(chuàng)建了一系列潛在的侵權(quán)作品。

圖片

與 Midjourney 一樣,OpenAI 的 DALL?E 3 似乎也借鑒了大量受版權(quán)保護的來源。OpenAI 似乎非常清楚其軟件可能侵犯版權(quán)的事實,并在去年 11 月提出為用戶的版權(quán)侵權(quán)訴訟提供賠償??紤]到 Marcus 發(fā)現(xiàn)的侵權(quán)規(guī)模,OpenAI 似乎要「大出血」。

同時,也有人猜測 OpenAI 一直在實時地更改其系統(tǒng),以排除 Marcus 的文章中揭露的某些行為。

解決大模型「抄襲的問題」有多難?

可能的解決方案:移除版權(quán)材料

最干凈的解決方案是在不使用受版權(quán)保護的材料的情況下重新訓(xùn)練圖像生成模型,或者限制訓(xùn)練僅限于獲得適當(dāng)許可的數(shù)據(jù)集。

只在收到投訴后刪除受版權(quán)保護的材料,類似于 YouTube 上的下架請求,其實施成本非常高。無法以任何簡單的方式從現(xiàn)有模型中刪除特定受版權(quán)保護的材料。大型神經(jīng)網(wǎng)絡(luò)不是數(shù)據(jù)庫,其中可以輕松刪除違規(guī)記錄,每次「下架」幾乎相當(dāng)于重新訓(xùn)練。

因此,生成式 AI 公司可能希望修補其現(xiàn)有系統(tǒng),來限制某些類型的查詢和某些類型的輸出。如下圖所示,他們已經(jīng)看到了一些跡象,但這注定是一場艱苦的戰(zhàn)斗。

圖片

OpenAI 可能正試圖在實時情況下逐個解決這些問題。一位 X 用戶分享了一個 DALL?E 3 提示,該提示首先生成了 C-3PO 的圖像,但 GPT 稱無法生成需要的圖像。

同時,Marcus 還提供了兩種不需要重新訓(xùn)練模型的解決方法。首先是過濾掉可能侵犯版權(quán)的查詢。

雖然像「不要生成蝙蝠俠」這樣的低級任務(wù)可以被過濾掉,但是如下圖所示,跨越多個查詢的生成結(jié)果根本防不?。?/span>

經(jīng)驗表明,文本生成系統(tǒng)中的護欄在某些情況下往往過于寬松,而在另一些情況下又過于嚴格。圖像生成可能也面臨類似的困難。例如向必應(yīng)查詢「在陽光炙烤下的荒蕪風(fēng)景中有一座廁所」。必應(yīng)拒絕回答,并返回了一個令人困惑的「檢測到不安全的圖像內(nèi)容」的提示。

此外也有網(wǎng)友發(fā)現(xiàn)了如何突破 OpenAI 的內(nèi)容防護護欄,來讓 DALL?E 3 生成部分圖像的方法。他們的做法是讓提示詞「包括區(qū)分角色的具體細節(jié),如不同的發(fā)型、面部特征和身體紋理」和「使用顏色暗示原始圖像中獨特的色調(diào)、圖案和排列」。

Reddit 上的網(wǎng)友 Pitt.LOVEGOV 分享如何讓 ChatGPT 生成布拉德皮特的圖像。

Marcus 提供的第二種思路是過濾版權(quán)圖片來源。

在推特上已經(jīng)有網(wǎng)友嘗試通過讓 ChatGPT 和 Google 反向圖像搜索識別來源,但這種方法成功率不高,特別是對于數(shù)據(jù)集中使用的比較新或者作者不是很知名的素材。這種方法的可靠性還有待觀察。

重要的是,雖然一些人工智能公司和現(xiàn)狀的捍衛(wèi)者建議過濾掉侵權(quán)輸出作為補救措施,但這種過濾機制絕不應(yīng)該是解決方案的全部。根據(jù)國際法保護知識產(chǎn)權(quán)和人權(quán)的意旨,任何創(chuàng)作者的作品都不應(yīng)未經(jīng)同意用于商業(yè)用途。

更多詳細內(nèi)容,請參閱原博客。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2014-05-09 10:12:57

2048移動應(yīng)用

2024-05-10 09:16:01

模型數(shù)據(jù)

2024-06-11 07:38:00

2021-12-27 11:08:14

微軟MIT協(xié)議

2017-10-27 18:20:59

程序員

2024-07-15 08:20:00

2020-05-09 14:37:19

機器學(xué)習(xí)人工智能翻譯

2025-03-20 08:34:14

2023-12-14 12:46:54

訓(xùn)練數(shù)據(jù)

2023-11-28 15:21:00

AI模型

2024-11-21 16:43:57

2021-06-24 10:43:50

AI 工具人工智能

2024-12-09 12:08:55

2025-04-15 04:00:00

ICLRClaudeSpotlight

2025-04-21 08:20:00

視覺模型訓(xùn)練

2012-03-07 10:50:39

APP經(jīng)驗

2017-08-21 21:00:33

Java長圖文

2024-04-29 14:42:05

生成式AI電子游戲

2020-01-08 08:50:33

AI 數(shù)據(jù)人工智能

2020-04-14 13:10:36

天網(wǎng)終結(jié)者代碼
點贊
收藏

51CTO技術(shù)棧公眾號