OpenAI微軟被起訴!《紐約時(shí)報(bào)》指控AI侵權(quán),要求銷(xiāo)毀侵權(quán)模型和訓(xùn)練數(shù)據(jù)
OpenAI正面臨的或許是史上最難AI版權(quán)訴訟。
原告《紐約時(shí)報(bào)》一紙狀書(shū),220000頁(yè)附件,遞交到了地方法院。
當(dāng)中有個(gè)板塊羅列了多達(dá)100個(gè)鐵證,ChatGPT輸出內(nèi)容與《紐約時(shí)報(bào)》新聞內(nèi)容幾乎一毛一樣:
這一消息瞬間引發(fā)全網(wǎng)關(guān)注,并直接給OpenAI打得措手不及,發(fā)言人回應(yīng)屬實(shí)“沒(méi)想到事態(tài)會(huì)發(fā)展成這樣”。
意外、失望之余,他們也表示“期望能找到對(duì)雙方都有益的合作途徑,就像已與許多其他出版商所做的那樣。”
同樣被告的還有微軟,或許這次他們倆恐怕不能再像之前擺平其他出版商那樣,“三瓜倆棗”就打發(fā)了。
TechCrunch消息,《紐約時(shí)報(bào)》要求OpenAI和微軟銷(xiāo)毀包含侵權(quán)材料的模型和訓(xùn)練數(shù)據(jù),并對(duì)非法復(fù)制和使用《紐約時(shí)報(bào)》獨(dú)有價(jià)值的作品相關(guān)的“數(shù)十億美元的法定和實(shí)際損失”負(fù)責(zé)。
《紐約時(shí)報(bào)》并不是第一家因知識(shí)產(chǎn)權(quán)糾紛而起訴生成式AI公司的出版機(jī)構(gòu),但他是迄今為止參與此類(lèi)訴訟的最大出版商之一,外加證據(jù)充足、又有強(qiáng)大的律師團(tuán)隊(duì)。
網(wǎng)友們也是直呼要“見(jiàn)證AI侵權(quán)里程碑式的案件”了:
還有律師網(wǎng)友@Cecilia Ziniti詳細(xì)分析了訴狀后也表示,“這是迄今為止指控生成式AI構(gòu)成侵權(quán)的最佳案例”:
來(lái)看看這個(gè)案例究竟有哪些值得關(guān)注?
“可能成為AI侵權(quán)里程碑式案件”
Cecilia Ziniti分析了此次案件對(duì)OpenAI不利的幾個(gè)關(guān)鍵點(diǎn):
- 有證據(jù)表明《紐約時(shí)報(bào)》文章構(gòu)成了單個(gè)數(shù)據(jù)集,可能被用于訓(xùn)練AI;
- 證據(jù)充分,視覺(jué)上清晰醒目;
- 《紐約時(shí)報(bào)》的深度文章,體現(xiàn)的是創(chuàng)造力;
- 訴狀將OpenAI描述成以利潤(rùn)為導(dǎo)向的企業(yè),而新聞行業(yè)具有一定的公益性;
- 模型出現(xiàn)幻覺(jué),捏造不實(shí)消息;
- 強(qiáng)大的律師團(tuán)隊(duì)。
下面我們來(lái)一一展開(kāi)。
首先該投訴清楚地表明了版權(quán)被侵犯的主張,突出了ChatGPT輸出與《紐約時(shí)報(bào)》文章間的“獲取與實(shí)質(zhì)性相似”。
關(guān)鍵事實(shí):《紐約時(shí)報(bào)》文章構(gòu)成了Common Crawl(一個(gè)抓取互聯(lián)網(wǎng)數(shù)據(jù)的開(kāi)放平臺(tái))中用于訓(xùn)練GPT的最大單個(gè)專(zhuān)有數(shù)據(jù)集。
其次,訴狀中展示的抄襲證據(jù)從視覺(jué)上來(lái)看極其清晰醒目。GPT生成的新詞用黑色標(biāo)出,被復(fù)制的文本用紅色標(biāo)出,這種對(duì)比能影響陪審團(tuán)的判斷。
Cecilia Ziniti個(gè)人認(rèn)為,若OpenAI不對(duì)其指令進(jìn)行重大調(diào)整,并在法庭上詳細(xì)解釋其技術(shù)原理,那么該公司真的很難為這一行為進(jìn)行辯護(hù)。
在她看來(lái),選擇和解而非對(duì)簿公堂對(duì)OpenAI來(lái)說(shuō)將是更合理的做法。
此外,另一個(gè)不利于OpenAI的點(diǎn)在于,他們這次面對(duì)的原告是《紐約時(shí)報(bào)》,不僅涉及文章本身,更關(guān)系到原創(chuàng)性和創(chuàng)作過(guò)程。
如訴狀所述,《紐約時(shí)報(bào)》的深度調(diào)查報(bào)道,比如對(duì)出租車(chē)貸款的深入揭露,不僅是勞動(dòng)成果,更體現(xiàn)了核心創(chuàng)造力。
有個(gè)關(guān)鍵點(diǎn)在于:版權(quán)保護(hù)的是創(chuàng)新性,而不是努力本身。
雖然出租車(chē)文章的600次采訪(fǎng)確實(shí)令人印象深刻,但從法律的視角來(lái)看,更為重要的是報(bào)道方式的創(chuàng)新。這和針對(duì)GitHub Copilot的訴訟形成了鮮明對(duì)比,后者只涉及了幾行開(kāi)源代碼。
不過(guò),如果這次談判失敗的話(huà),《紐約時(shí)報(bào)》可能會(huì)面臨巨大損失。
據(jù)說(shuō)之前四月份《紐約時(shí)報(bào)》就曾嘗試與OpenAI談判,但沒(méi)談妥,OpenAI拒絕達(dá)成協(xié)議??赡苁墙痤~巨大,特別是考慮到OpenAI利潤(rùn)的增長(zhǎng)以及類(lèi)似案例的增多。
Cecilia Ziniti的一個(gè)大膽猜測(cè)是,OpenAI可能以為他們可以用七至八位數(shù)金額解決此事。但《紐約時(shí)報(bào)》所追求的可能是更高的賠償和持續(xù)的版稅收入。
另外,這份訴狀中將OpenAI描述成了一個(gè)以利潤(rùn)為導(dǎo)向而閉門(mén)造車(chē)的企業(yè),這一點(diǎn)通過(guò)與新聞行業(yè)的公益性對(duì)比得到了強(qiáng)化。
訴狀中甚至還提及了董事會(huì)和Sam Altman之間的爭(zhēng)議。
Cecilia Ziniti認(rèn)為,在法庭上,這種敘述可能極具影響力,因?yàn)樗接懥税鏅?quán)的社會(huì)價(jià)值與科技創(chuàng)新之間的權(quán)衡。
還有一點(diǎn)很重要——模型幻覺(jué)。
這份投訴書(shū)中引入了幻覺(jué),并以此為基礎(chǔ)引用了一些《紐約時(shí)報(bào)》文章中被編造出來(lái)的元素作為例證。
最令人印象深刻的例子之一是,Bing稱(chēng)《紐約時(shí)報(bào)》發(fā)表了一篇文章,其中寫(xiě)道橙汁會(huì)導(dǎo)致淋巴瘤。
最后一個(gè)值得注意的點(diǎn),《紐約時(shí)報(bào)》聘請(qǐng)了極為出色的法律團(tuán)隊(duì)。Susman Godfrey律師事務(wù)所在挑戰(zhàn)科技公司方面享有卓越的聲譽(yù)和豐富的經(jīng)驗(yàn)。
這起訴訟并非像ChatGPT發(fā)布一周后那些為了快速獲利而提起的訴訟,而是一次策略性的法律挑戰(zhàn)。
此外,還有更多網(wǎng)友補(bǔ)充了訴訟相關(guān)的內(nèi)容。比如美國(guó)數(shù)字媒體機(jī)構(gòu)DCN的CEO Jason Kint指出:
微軟明顯是一樣的。文件中展示了一個(gè)例子,內(nèi)容是直接從《紐約時(shí)報(bào)》的報(bào)道中逐字抄襲的。
這是采用微軟自家搜索引擎所進(jìn)行的搜索對(duì)比。內(nèi)容復(fù)制處理上的差異立刻顯露無(wú)疑,毫無(wú)爭(zhēng)議。
沃頓商學(xué)院教授Ethan Mollick還指出:
在《紐約時(shí)報(bào)》對(duì)OpenAI的訴訟中,可以明顯看出訓(xùn)練數(shù)據(jù)與輸出結(jié)果之間的復(fù)雜關(guān)系。一方面,可以使ChatGPT復(fù)現(xiàn)《紐約時(shí)報(bào)》著名文章的確切內(nèi)容;另一方面,也指出ChatGPT有可能生成虛假的錯(cuò)誤文章。
“為數(shù)十億美元”負(fù)責(zé)
正如開(kāi)頭提到的,《紐約時(shí)報(bào)》雖然沒(méi)有直接說(shuō)要多少賠償,但表明了需要OpenAI和微軟對(duì)“數(shù)十億美元的法定和實(shí)際損失”負(fù)責(zé)。
那這些損失都是哪來(lái)的?
《紐約時(shí)報(bào)》指出,AI復(fù)現(xiàn)他們的文章內(nèi)容這事兒不是版稅那么簡(jiǎn)單,“OpenAI和微軟實(shí)際上正利用《紐約時(shí)報(bào)》的作品構(gòu)建新聞出版商的競(jìng)爭(zhēng)對(duì)手”。
AI不僅提供了需通過(guò)訂閱才能獲取的信息,而且這些信息往往未被正確引用,有時(shí)還被用于商業(yè)盈利,并且去除了《紐約時(shí)報(bào)》用以賺取傭金的相關(guān)鏈接。
這對(duì)《紐約時(shí)報(bào)》來(lái)說(shuō)是直接的損失。
此外,模型提供了錯(cuò)誤信息,對(duì)品牌造成影響,也是一大損失。
看起來(lái),這回OpenAI和微軟AI侵權(quán)似乎證據(jù)確鑿。但OSS Capital的創(chuàng)始合伙人兼知識(shí)產(chǎn)權(quán)事務(wù)顧問(wèn)Heather Meeker指出,《紐約時(shí)報(bào)》不一定會(huì)勝訴。
他指出投訴書(shū)中有一個(gè)例子,是使用ChatGPT重現(xiàn)了一篇2012年的餐廳評(píng)論文章的內(nèi)容。用戶(hù)首先問(wèn)ChatGPT該評(píng)論的開(kāi)頭段落,然后連續(xù)詢(xún)問(wèn)下一句內(nèi)容。
Meeker認(rèn)為,誘導(dǎo)AI重復(fù)原始輸入的內(nèi)容不應(yīng)該構(gòu)成侵權(quán)的合理依據(jù)。如果用戶(hù)有意讓AI復(fù)制內(nèi)容,那么責(zé)任在用戶(hù)。
“這就是為什么,類(lèi)似這樣的訴訟大多數(shù)可能會(huì)失敗?!?/p>
One More Thing
這邊OpenAI和微軟在為數(shù)據(jù)打官司,另一邊的蘋(píng)果直接掏錢(qián)??擺平。
有爆料稱(chēng),蘋(píng)果最近已和幾家主要的出版商達(dá)成協(xié)議,允許蘋(píng)果使用他們的內(nèi)容數(shù)據(jù)來(lái)訓(xùn)練AI。
蘋(píng)果還想達(dá)成長(zhǎng)期協(xié)議,擬議的交易數(shù)額至少為3.57億。
據(jù)說(shuō),正在內(nèi)部測(cè)試一個(gè)名為“AppleGPT”的模型,明年可能會(huì)推出新版本的Siri。
不得不說(shuō),現(xiàn)在這年頭,數(shù)據(jù)是真香~