自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

史上最大AI版權(quán)案深度分析!OpenAI必?cái)?,還是紐約時(shí)報(bào)勝率為0?

人工智能
紐約時(shí)報(bào)一紙?jiān)V狀把OpenAI和微軟告上法庭,正式打響AI版權(quán)戰(zhàn)第一槍。雙方各有擁躉,資深媒體人總結(jié)全文訴狀后,認(rèn)為NYT的確理由充分;另一位大佬則認(rèn)為NYT必?cái)?,理由很?jiǎn)單——海明威有向?qū)W習(xí)他文風(fēng)的青年作家們收錢嗎?

紐約時(shí)報(bào)起訴OpenAI和微軟的案子,可能成為影響AI技術(shù)發(fā)展的里程碑式案例。

《紐約時(shí)報(bào)》作為西方傳統(tǒng)媒體中影響力最大的機(jī)構(gòu)之一,下場(chǎng)與代表AI技術(shù)「最先進(jìn)生產(chǎn)力」的OpenAI開撕,本身就話題性十足。

圖片圖片

一位傳統(tǒng)媒體人Jason Kint,在讀完了《紐約時(shí)報(bào)》的起訴書之后,覺得《紐約時(shí)報(bào)》的確理由充分。

他把起訴書中的重點(diǎn)總結(jié)了出來發(fā)到推上,一天之內(nèi)就發(fā)酵了280萬的閱讀量。

圖片圖片

另一位大佬Daniel Jeffries則出來打臉Jason Kint,認(rèn)為他的文章充滿了「過于樂觀的幻想」,以及「對(duì)版權(quán)法的誤解」。

正方:NYT訴狀證據(jù)確鑿

Jason Kint總結(jié)的《紐約時(shí)報(bào)》起訴書中,從版權(quán)法的起源開始,總結(jié)了版權(quán)保護(hù)對(duì)于傳統(tǒng)媒體獲取新聞的重要性。

圖片圖片

而ChatGPT侵權(quán)行為最重要的證據(jù),是《紐約時(shí)報(bào)》提供的100多個(gè)GPT-4輸出內(nèi)容和《紐約時(shí)報(bào)》報(bào)道文章高度相似的例子。

圖片圖片

這些高度相似的輸出案例對(duì)于法官判斷是否存在侵犯版權(quán)的情況,將會(huì)起到關(guān)鍵作用。

圖片圖片

訴狀還詳細(xì)說明了OpenAI訓(xùn)練數(shù)據(jù)來源的偏好和權(quán)重,說明了《紐約時(shí)報(bào)》的內(nèi)容是OpenAI用來訓(xùn)練ChatGPT的關(guān)鍵來源。

如果OpenAI能夠無償?shù)厥褂谩都~約時(shí)報(bào)》的內(nèi)容來訓(xùn)練自己的產(chǎn)品,會(huì)破壞傳統(tǒng)媒體對(duì)于產(chǎn)生新聞的投資和收益生態(tài),從而破壞整個(gè)新聞市場(chǎng)。

圖片圖片

《紐約時(shí)報(bào)》還把搜索引擎的結(jié)果拿出來和Bing Chat生成的內(nèi)容進(jìn)行了對(duì)比。

圖片圖片

訴狀認(rèn)為搜索引擎提供的內(nèi)容能直接讓用戶訪問《紐約時(shí)報(bào)》的內(nèi)容,而Bing Chat提供的答案中,原本《紐約時(shí)報(bào)》的鏈接就變成了一個(gè)小小的注腳,很難被用戶注意到。

而紐約時(shí)報(bào)同時(shí),也希望法院將OpenAI與其他作家之間的糾紛,與自己的案件進(jìn)行合并審理,這樣能增加訴求被支持的可能性。

圖片圖片

反方:NYT勝率幾乎為0

就目前《紐約時(shí)報(bào)》和其他起訴OpenAI侵犯版權(quán)的案件中,焦點(diǎn)都集中在,ChatGPT輸出的內(nèi)容如果是受到版權(quán)保護(hù)的,是否就應(yīng)該被認(rèn)為是侵犯了版權(quán)所有者的權(quán)利。

針對(duì)這個(gè)問題,大部分支持OpenAI的聲音都認(rèn)為,紐約時(shí)報(bào)中提交的證據(jù),沒法證明侵權(quán)行為的存在。

然而,另外一位大佬Daniel Jeffries則認(rèn)為,《紐約時(shí)報(bào)》幾乎是不可能勝訴的:

圖片圖片

Jason Kint似乎堅(jiān)信自己對(duì)訴訟的解讀是準(zhǔn)確無誤的。但實(shí)際上,他的文章充滿了過于樂觀的幻想、對(duì)版權(quán)法的誤解,以及一些無關(guān)緊要的干擾因素。

他非常希望這個(gè)案子能夠成為一個(gè)里程碑,確立媒體有權(quán)利向機(jī)器收費(fèi),但這其實(shí)是版權(quán)法根本沒有規(guī)定的事項(xiàng)——他所理解的文本內(nèi)容并不是他所想的那樣,甚至連「穩(wěn)操勝券」的可能都沒有。

事實(shí)上,情況正相反。

首先,就像我之前提到的,試圖要求每個(gè)人為訓(xùn)練數(shù)據(jù)支付授權(quán)費(fèi)是不切實(shí)際的,因?yàn)檫@并不是版權(quán)法所涉及的問題。

其次,Kint提出的所謂證據(jù),大多是巧言令色、故意轉(zhuǎn)移話題,根本不足以證明實(shí)質(zhì)的侵權(quán)行為,因?yàn)榍謾?quán)的關(guān)鍵在于作品的輸出內(nèi)容,而非輸入內(nèi)容。

- 人可以學(xué)習(xí),機(jī)器也可以!不然你們先把學(xué)海明威的「訓(xùn)練費(fèi)」付一下?

我們都可以免費(fèi)學(xué)習(xí),從周遭的世界吸取知識(shí),機(jī)器也應(yīng)該如此。

《紐約時(shí)報(bào)》的作者們?cè)谧约簩W(xué)習(xí)如何寫出簡(jiǎn)潔有力的句子時(shí),并沒有向海明威的遺產(chǎn)支付費(fèi)用。

年輕的四分衛(wèi)也不需要得到Tom Brady的允許,就可以研究他的動(dòng)作,學(xué)習(xí)如何投球。

版權(quán)法的宗旨是防止人們復(fù)制或近乎復(fù)制內(nèi)容,并為了商業(yè)利益將其發(fā)布,就是這么簡(jiǎn)單。

- 強(qiáng)加公共利益與公司市值之間的聯(lián)系,是毫無意義的

把微軟市值增加1萬億美元,和用于訓(xùn)練的數(shù)據(jù)相提并論,簡(jiǎn)直是荒謬至極。

《紐約時(shí)報(bào)》試圖將其報(bào)道戰(zhàn)爭(zhēng)、謀殺和政治的新聞價(jià)值與此案件掛鉤?這根本就是風(fēng)馬牛不相及的事。提這個(gè)無非是想轉(zhuǎn)移視線,毫無實(shí)際意義。

他們?cè)噲D將難以捉摸的公共利益價(jià)值相聯(lián)系,這種做法是行不通的。

- 只展示部分提示,用RAG偽偽裝GPT輸出,你無法復(fù)現(xiàn)

即使是他們所引用的最有煽動(dòng)性的證據(jù)——聲稱是GPT精確復(fù)制了《紐約時(shí)報(bào)》內(nèi)容的提示,也顯然是人為操縱的結(jié)果。

任何從事AI工作的人都能在瞬間看穿這一點(diǎn)。而且,沒有人能用他們所謂的提示重現(xiàn)那個(gè)逐字的輸出。

為什么呢?

因?yàn)槟莻€(gè)逐字輸出幾乎可以肯定不是通過記憶得來的,而是通過檢索增強(qiáng)(Retrieval-Augmented Generation, RAG)結(jié)合網(wǎng)絡(luò)搜索得到的。

可能是程序員通過API特意指令它尋找某篇特定的文章,并讓它輸出文章的一部分,而他們只是提供了部分提示而非全部。

如果我讓它去找一篇《紐約時(shí)報(bào)》的文章并輸出,那么責(zé)任在我,而不是這個(gè)模型。

此外,幾十年前的編程庫就能做到這一點(diǎn),根本不需要用到機(jī)器學(xué)習(xí)技術(shù)。

如果把這種說法包括進(jìn)去,這個(gè)案子肯定會(huì)敗訴,因?yàn)槁蓭焸冊(cè)诂F(xiàn)實(shí)世界中無法復(fù)現(xiàn)這一過程。

- 你們想借機(jī)敲OpenAI一筆,但這是非常不好的先例

這個(gè)案件最可能的結(jié)局是通過庭外和解,由微軟和OpenAI為他們所使用的訓(xùn)練數(shù)據(jù)支付許可費(fèi)。

而這,實(shí)際上才是爭(zhēng)議的焦點(diǎn)。

這種「和解」將為所有人設(shè)下一個(gè)不良的先例,因?yàn)槿狈?shí)質(zhì)性的判決,它讓人誤以為他們?nèi)〉昧藙倮孟袢藗儜?yīng)該為獲取訓(xùn)練數(shù)據(jù)付出高昂的代價(jià)。

反方觀點(diǎn)+1

來自techdirt的記者M(jìn)ike Masnick,也站出來表示:NYT這個(gè)訴訟本身就很「離譜」。

圖片圖片

他表示,《紐約時(shí)報(bào)》的這起訴訟,在自己看來是「熟悉的配方,熟悉的味道」。

許多版權(quán)所有者都對(duì)AI公司提起過類似訴訟,已經(jīng)有十幾起了。但寫下訴訟書的人,很多都顯得很愚蠢,似乎絲毫不了解版權(quán)法。

而且,即使法院真的做出了利于《紐約時(shí)報(bào)》,也不可能如《紐約時(shí)報(bào)》所愿,轉(zhuǎn)化成一大筆意外之財(cái)。

這件事唯一能改變的,就是建立起一個(gè)的收集點(diǎn),騙來少數(shù)幾個(gè)有能力支付的傻子AI公司上當(dāng),交出這筆巨款。

在他眼里,《紐約時(shí)報(bào)》把自己描述為新聞自由奮戰(zhàn)、阻止AI入侵的偉大捍衛(wèi)者,但實(shí)際上,它所做的只是一個(gè)談判策略——讓OpenAI為數(shù)據(jù)訓(xùn)練付費(fèi)而已。

幾周前OpenAI,曾向行業(yè)巨擘Axel Springer支付了一筆可觀的費(fèi)用,以避免一場(chǎng)可能的訴訟。但OpenAI和《紐約時(shí)報(bào)》的談判卻沒有取得類似成果,所以后者選擇上訴。

《紐約時(shí)報(bào)》最理直氣壯的觀點(diǎn)是,GPT大模型部分使用了Common Crawl的數(shù)據(jù)進(jìn)行訓(xùn)練,但Common Crawl的初衷是建成開放的網(wǎng)絡(luò)資源庫。

就如同谷歌的緩存和互聯(lián)網(wǎng)檔案館的時(shí)光機(jī)一樣,這項(xiàng)工具是紀(jì)錄歷史的檔案,一直受到「合理使用」原則的保護(hù)。

然而,現(xiàn)在《紐約時(shí)報(bào)》卻跳出來控訴了。

Mike Masnick強(qiáng)調(diào),閱讀/處理數(shù)據(jù)并不是版權(quán)法所限制的權(quán)利。

在多起訴訟中,原告?zhèn)兌技鼻械叵Mü贂?huì)對(duì)這種新穎的「生成式AI」技術(shù)感到驚奇,從而忽略版權(quán)法的基本原則,假設(shè)存在一些實(shí)際上并不存在的權(quán)利。

《紐約時(shí)報(bào)》的訴訟之所以與眾不同,就是因?yàn)樗故玖艘幌盗形恼聝?nèi)容一模一樣的證據(jù),然而,如果我們仔細(xì)了解生成式AI的原理,就會(huì)發(fā)現(xiàn)這件事沒有那么聳動(dòng)。

僅憑在法庭上的證據(jù),要認(rèn)定ChatGPT侵權(quán)是很難站得住腳的。

《紐約時(shí)報(bào)》為了能夠引導(dǎo)GPT-4生成和《紐約時(shí)報(bào)》報(bào)道高度相似的文章,是這樣操作 GPT-4 的:

首先提供給GPT-4報(bào)道的鏈接(URL),然后給出了文章的標(biāo)題和前七段半的內(nèi)容作為「引導(dǎo)」,并請(qǐng)求GPT-4繼續(xù)完成文章。

圖片圖片

如果法官能夠理解GPT-4的工作原理,那么他就能理解:GPT-4生成內(nèi)容和原文幾乎一樣是很正常的了。

當(dāng)你向像GPT這樣的生成式AI提出一個(gè)提示,其實(shí)是在設(shè)置一系列參數(shù),這些參數(shù)決定了它的輸出范圍和限制。在這些限制下,它嘗試產(chǎn)生最可能的回復(fù)。

然而,當(dāng)《紐約時(shí)報(bào)》長(zhǎng)篇累牘地提供這些文章段落時(shí),實(shí)際上是將GPT-4限制到只能生成與《紐約時(shí)報(bào)》原故事極其接近的內(nèi)容上。

然而,訴狀中的荒謬之處還不止于此。

因?yàn)?,可以通過讓ChatGPT引用文章最初的幾段,每次僅引用一小段,以這種方式,某種程度上可以繞過《紐約時(shí)報(bào)》的付費(fèi)墻。

可見,以這樣的方式提示ChatGPT,幾乎就相當(dāng)于《紐約時(shí)報(bào)》逼著ChatGPT來生成和原文一致的內(nèi)容。

圖片圖片

當(dāng)然,從新聞文章中引用單獨(dú)的段落幾乎肯定屬于公平使用。

而且,值得注意的是,《紐約時(shí)報(bào)》本身也承認(rèn),這種做法實(shí)際上并沒有提供完整文章的原文,而是給出了一個(gè)改寫版本。

此外,這起訴訟似乎在表明,僅僅總結(jié)文章的內(nèi)容本身就構(gòu)成了侵權(quán)行為:

圖片圖片

這其中的關(guān)鍵,并不在于GPT是如何訓(xùn)練的,而在于NYT是如何限制它的輸出。

LLM的原理,并非是簡(jiǎn)單地重復(fù)掃描過的內(nèi)容,而是在給定提示下,計(jì)算出下一個(gè)Token最可能出現(xiàn)的概率。

當(dāng)NYT以這樣的方式限制提示,讓數(shù)據(jù)集僅限于一篇文章,輸出結(jié)果自然就是原文了。

在另一方面,時(shí)報(bào)再次對(duì)GPT返回的實(shí)際信息提出了抱怨,這些信息并不受版權(quán)法的保護(hù)。

另一方面,GPT返回的實(shí)際信息讓NYT抱怨,但這些信息并不受版權(quán)法的保護(hù)。

圖片圖片

在投訴書的后面,《紐約時(shí)報(bào)》指出,「有時(shí)GPT會(huì)推薦錯(cuò)誤的產(chǎn)品或編造內(nèi)容,出現(xiàn)幻覺」。

所以,《紐約時(shí)報(bào)》是在抱怨GPT復(fù)制的內(nèi)容過于精確,還是不夠精確呢?

如果《紐約時(shí)報(bào)》成功地論證,其記者在撰寫新聞報(bào)道之前,閱讀第三方文章以學(xué)習(xí)新聞內(nèi)容構(gòu)成了版權(quán)侵權(quán)。對(duì)于NYT來說,一定不會(huì)接受這種做法。

如果要這樣說,OpenAI分析NYT的文章,和NYT在未經(jīng)授權(quán)的情況下分析其他的文章、書記、研究,究竟有什么區(qū)別?

或者,設(shè)想如果一位《紐約時(shí)報(bào)》的記者從其消息來源那里得到了一些受版權(quán)保護(hù)的材料(可能是文章、書籍或照片等),但《紐約時(shí)報(bào)》并未擁有這些材料的版權(quán)。

那么,這位記者能否利用這些材料來撰寫一篇文章呢?

參考資料:

https://www.techdirt.com/2023/12/28/the-ny-times-lawsuit-against-openai-would-open-up-the-ny-times-to-all-sorts-of-lawsuits-should-it-win/

https://twitter.com/jason_kint/status/1740141400443035785

https://twitter.com/Dan_Jeffries1/status/1740303405254377808

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-02-28 12:57:59

2024-01-09 23:56:01

ChatGPT模型數(shù)據(jù)源

2024-01-09 15:04:10

2012-07-04 09:15:50

2009-03-31 09:15:42

2023-12-28 17:51:00

AI技術(shù)

2018-09-26 08:57:09

AI人工智能中國

2023-08-20 12:16:39

人工智能OpenAI

2024-06-12 11:19:10

2023-12-29 08:44:54

微軟OpenAI模型

2013-03-26 10:09:16

2010-11-26 09:34:04

2018-09-10 13:59:09

區(qū)塊鏈中本聰加密貨幣

2012-05-01 08:44:12

索尼

2012-07-31 10:18:47

黑客攻擊紐約時(shí)報(bào)

2013-05-03 13:28:54

2013-08-23 10:43:29

2011-04-15 09:11:02

PlayBookRIM黑莓

2024-01-17 16:10:02

OpenAIAI

2010-08-26 13:37:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)