賠償30億?OpenAI因版權被多方狀告,作家集體起訴,抗議ChatGPT訓練侵權
最近,OpenAI又攤上事了。
之前Sam Altman在國會山舌戰(zhàn)參議員,幫OpenAI搞定了監(jiān)管層。
但俗話說得好,閻王好見,小鬼難纏。
沒想到OpenAI最近卻被美國的律所和作家們給盯上了。
最近紛紛跳出來起訴OpenAI,要求數額不菲的賠償金。
起訴理由是,訓練數據侵權。
律所提起集體訴訟
6月28號,位于北加州的Clarkson律所對OpenAI提起了集體訴訟。
圖片
指控OpenAI在訓練大模型時從網上抓取的數據,嚴重侵犯了16名原告的著作權和隱私,要求賠償30億美金。
克拉克森訴訟的核心主張是 OpenAI 的整個商業(yè)模式都是基于盜竊。
律所合伙人克拉克森 (Ryan Clarkson) 表示:
「律所代表那些信息被竊取,用來創(chuàng)造了這項強大技術的真實存在的普通人主張自己的合法權利?!?/p>
該訴訟特別指控該OpenAI:
「在未經知情同意或不知情的情況下,使用從數億互聯網用戶(包括各個年齡段的兒童)竊取的私人信息(包括個人身份信息)來創(chuàng)建其產品?!?/p>
律師主導的集體訴訟制度
要看懂這個事情的來龍去脈,必須稍微了解一下美國的集體訴訟制度。
簡單來說,大部分的訴訟,原告的個數是有限而且明確的,而集體訴訟,是一大群人提起的訴訟。
集體訴訟制度是因為某個事件的受害人太多,而且往往單個受害人的受到的損害太小,不適合單獨起訴,所以就可以由原告組成集體,集體起訴被告。
比較典型的是環(huán)保類的案件,比如某個公司排污影響了周圍的居民,居民集體起訴公司。
或者是某個大公司的制度侵犯了很多員工的權益。
但是集體訴訟和普通訴訟有一個很大的不同之處在于,發(fā)起者往往不是原告人,而是代理律師。
因為在集體訴訟中,代理律師會要求很高的代理費,可能會超過賠償額的50%,有個別夸張的案件甚至會達到80%。
而原告方,很多時候是被發(fā)起訴訟的律師主動找上家門,簽個字同意律師代理,如果打贏了,能拿到一些賠償金。
如果官司打輸了,大部分情況下就不需要出律師費。
律師在獲得了一大批原告的授權之后,就以「原告集體」的名義向法院提起訴訟,要求被告賠償。
因為原告數量比較多,如果官司打贏了,獲得的總體賠償額往往會比較多。
而律師因為在這類案件中占有主導地位,會有很高的律師費抽成比例,往往會比受害者獲得更多的經濟利益。
比如蘋果公司前不久,就因為下班對員工搜寶檢查的制度,最后在集體訴訟中和員工達成和解,向員工支付了3050萬美元,平均每個員工能獲得1328美元的賠償。
但是卻要向律師支付900萬美元左右的律師費。
而律師或者律所本身,也會因為集體訴訟案件廣泛的影響力,在業(yè)界獲得更高的名聲。
Clarkson律師事務所
某種程度上,很多美國集體訴訟案件真正的「原告」,往往是能獲得更多經濟收入的律師,而非真實的受害「原告」。
而這起針對OpenAI的集體訴訟,代理律所Clarkson LLP,就是一家成立于2014年,幾乎只從事集體訴訟業(yè)務的律所。
相較美國很多有幾十上百年歷史的律所,克拉克森可謂是一家嬰兒律所。
但是最近幾年卻打贏了不少針對食品,藥品制造商的集體訴訟案件。
這次對于OpenAI的起訴也是由律所的冠名合伙人Ryan Clarkson本人親自辦理。
圖片
現在他們律所網站,已經把自己起訴OpenAI的信息置頂了。
網站瀏覽者隨時隨地都可以看到這條信息。
圖片
看得出來,這次他們是要「All in OpenAI」,打響「大模型侵權案件的第一槍」。
無法可依,結局難料
美國對于大模型訓練數據的立法還沒有通過。
而在國會立法程序給出明確規(guī)定之前,法官很有可能會參考已經有的隱私權和著作權的案例,在這個案件中做出對原告有利的認定。
在沒有明確法律規(guī)則的背景之下,案件很有可能會朝著不利于OpenAI的方向發(fā)展。
只要這家律所不是無理取鬧,而OpenAI又急于擺脫類似的訴訟麻煩。
這個案子很有可能會像大多數的集體訴訟案件一樣,以和解結束。
原告和律師很有可能獲得一筆數額不菲的和解金。
原告律所也會因為代理這個可能具有劃時代意義的案件而繼續(xù)鞏固自己在業(yè)界的地位。
而后續(xù),OpenAI和其他大模型提供商可能都會面對更多類似的法律訴訟。
直到有相關的法律出臺,明確訓練數據方面的具體規(guī)則。
更多訴訟事件
而除了上面提到的律所集體訴訟,個人因為被侵權而直接起訴OpenAI的例子也不少。
而這樣的案件,主要是由對書籍享有著作權的作家提起的。
最近,兩位曾獲過獎的作者就起訴了OpenAI,指控他們在未經同意的情況下使用他們出版的書籍來訓練 ChatGPT,違反了版權法。
該訴訟于6月底提起,兩位作家表示,ChatGPT的底層LLM直接拿來就用了原告作者Mona Awad和Paul Tremblay的受版權保護的作品。
圖片
他們認為,ChatGPT能夠生成其作品的詳細摘要,這就表明他們的書籍肯定已經包含在了用于訓練的數據集中。
美國一所大學的法學教授Daniel Gervais在接受Insider采訪時表示,作家的訴訟是全國范圍內針對生成式AI的少數版權案件之一。
「這絕對不會是最后一次?!?/p>
Gervais預計,隨著這些AI在復制作家和藝術家風格方面的能力不斷得到發(fā)展和改進,更多的作者將加入起訴開發(fā)LLM和AI公司的行列。
他認為,全國范圍內,針對ChatGPT等生成式AI工具的一大波法律挑戰(zhàn)即將到來。
投訴中寫道,想要證明該案的作者因OpenAI的數據收集行為而遭受了金錢損失這一點,可能具有一定的挑戰(zhàn)性。
Gervais告訴Insider,ChatGPT也可能從作者以外的其他來源收集了Awad和Tremblay的作品。
Sussex大學AI和版權專家Andres Guadamuz也表達了這種擔憂。
他告訴Insider,即使這些書籍在OpenAI的訓練數據集里,OpenAI其實也可以是通過合法途徑來得到這些作品的。
美國作家協會是一個支持作家工作權利的倡導組織,上周他們發(fā)表了一封公開信,呼吁大型科技和AI公司的CEO能去獲得「作家的許可」,再使用他們的受版權保護的作品來訓練LLM。
圖片
同時,應該「公平地補償作家」。
截止目前,這封公開信已經獲得了超過2000個簽名。
目前,Awad和Tremblay正在尋求損失賠償。
在訴訟中還包含了ChatGPT創(chuàng)作的Awad的小說:「看待胖女孩的13種方式」(13 Ways of Looking at a Fat Girl)和「兔子」(Bunny)的摘要,以及Tremblay的「世界盡頭的小屋」(The Cabin at the End of the World).
OpenAI和Awad、Tremblay都沒有回應Insider的置評請求。
無獨有偶,喜劇演員兼作家Sarah Silverman,以及作家Christopher Golden、Richard Kadrey也在美國地方法院上訴了,他們分別起訴的是OpenAI和Meta ,同樣指控其侵犯版權。
圖片
這些訴訟稱,OpenAI的ChatGPT和Meta的LLaMA都有用非法獲取的數據集進行訓練的行為,而這些數據集中就包含他們的作品。
他們表示,這些數據集是從Bibliotik、Library Genesis、Z-Library等網站獲取的,并指出這些書可以批量獲取。
在針對OpenAI的訴訟中,三人提供的證據表明,當出現相關的prompt時,ChatGPT會總結他們的書籍,他們認為,這是對他們作品版權的侵犯。
Silverman的「Bedwetter」是ChatGPT在展品中展示的第一本書,而Golden的書「Ararat」和Kadrey的「Sandman Slim」也被用作了示例。
至于針對Meta的單獨訴訟,情況也差不多。Meta用于訓練LLaMA模型的數據集中也能訪問該作者的書籍。
而在該投訴,詳細的分步闡述了原告為何認為這些數據集的來源是非法的——在一篇有關LLaMA的論文中,Meta指出了其訓練數據集的來源,其中一個名為「ThePile」。
訴狀指出,EleutherAI的一篇論文將「ThePile」描述為由Bibliotik內容的副本拼湊而成的,而Bibliotik本身就不合法。
圖片
在這兩項聲明中,參與的作者均表示,他們不同意AI公司使用其受版權保護的書籍作為LLM的訓練內容。
他們的訴訟均包含六項不同類型的侵犯版權、疏忽、不當得利和不正當競爭罪名。
圖片
目前,這些作者也正在尋求法定損失賠償、利潤歸還等。
除了書圈,Getty Images還提起了一項訴訟,指控創(chuàng)建Stable Diffusion的Stability AI在「數百萬張受版權保護的圖像」上訓練其模型。
相關各方均未作出回應。
參考資料:
https://www.washingtonpost.com/technology/2023/06/28/openai-chatgpt-lawsuit-class-action/
https://www.businessinsider.com/openai-copyright-lawsuit-authors-chatgpt-trained-on-books-2023-7
https://www.theverge.com/2023/7/9/23788741/sarah-silverman-openai-meta-chatgpt-llama-copyright-infringement-chatbots-artificial-intelligence-a