自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

版權之爭:懸于AI造物之上的達摩克里斯之劍

譯文 精選
人工智能
去年以來,生成式人工智能熱度漸起。但隨著相關工具走向大眾,尚未解決的法律問題可能會影響該領域的未來。

?作者 | JAMES VINCENT

譯者 | 朱先忠

1、生成式人工智能越來越火爆但其產(chǎn)品合法性如何?

自去年以來,生成式人工智能越來越火爆。微軟、Adobe和GitHub等公司正在將該技術集成到他們的產(chǎn)品中;初創(chuàng)企業(yè)正在籌集數(shù)億美元,與之競爭;該軟件甚至具有文化影響力,文本到圖像的人工智能模型催生了無數(shù)的模因文化。但是,仔細聽一聽任何關于生成式人工智能的行業(yè)討論,你會私下里聽到,倡導者和批評者都以越來越擔憂的語氣低聲提出了一個問題:這些事實上是否合法?

問題的產(chǎn)生是因為生成式人工智能系統(tǒng)的訓練方式。與大多數(shù)機器學習軟件一樣,它們通過識別和復制數(shù)據(jù)中的模式來工作。但由于這些程序用于生成代碼、文本、音樂和藝術的訓練數(shù)據(jù)本身是由人類創(chuàng)建的,是從網(wǎng)絡上“搜刮”來的,而且其中大部分數(shù)據(jù)本身以某種方式受到版權保護。

對于經(jīng)歷過渺遠過去 (又名“2010年代”)的人工智能研究人員來說,這不是什么大問題。當時,最先進的模型只能生成指甲大小的模糊黑白人臉圖像。這對人類沒有明顯的威脅。但在2022年,當一個單純的業(yè)余愛好者可以在幾個小時內使用Stable Diffusion這樣的軟件復制一位藝術家的風格,或者當公司銷售人工智能生成的印刷品和社交媒體過濾器,這些都是活生生的設計師的仿制品時,合法性和道德問題變得更加緊迫。

2、生成式人工智能模型是在受版權保護的數(shù)據(jù)上訓練的這合法嗎?

以迪士尼插畫家霍莉·蒙格特(Hollie Mengert)為例,她發(fā)現(xiàn)自己的藝術風格被加拿大的一名機械工程學生克隆為人工智能實驗。這位學生下載了蒙格特的32篇作品,并花了幾個小時訓練了一個可以重現(xiàn)她的風格的機器學習模型。正如蒙格特告訴技術專家Andy Baio(他報道了這起案件):“就我個人而言,這感覺就像有人在做我所做的工作,用我學到的東西——我從2011年藝術學校畢業(yè)以來一直是一名職業(yè)藝術家——并用它來創(chuàng)作我不同意也不允許的藝術?!?/p>

但這公平嗎?蒙格特對此能做些什么嗎?

為了回答這些問題并了解生成式人工智能的法律前景,the Verge公司采訪了一系列有關專家,包括律師、分析師和人工智能初創(chuàng)公司的員工。一些人滿懷信心地表示,這些系統(tǒng)極有可能侵犯版權,并可能在不久的將來面臨嚴重的法律挑戰(zhàn)。其他人則持相反意見:目前在生成式人工智能領域發(fā)生的一切都是合法的,任何訴訟都注定會失敗。

“我看到雙方的人都對自己的立場非常自信,但現(xiàn)實是沒有人知道,”一直密切關注生成式人工智能場景的貝奧告訴the Verge采訪人員?!叭魏稳巳绻f他們自信地知道這件事在法庭上的結果,那就錯了?!?/p>

英國薩塞克斯大學(University of Sussex)專門研究人工智能和知識產(chǎn)權法的學者安德烈斯·瓜達木茲(Andres Guadamuz)表示,盡管有很多未知因素,但也有幾個關鍵問題,這一話題的諸多不確定性由此展開。首先,你能獲得生成式人工智能模型的輸出的版權嗎?如果是,誰擁有它?第二,如果你擁有用于訓練人工智能的輸入的版權,那么你對模型或其創(chuàng)建的內容有任何法律要求嗎?一旦這些問題得到回答,一個更大的問題就出現(xiàn)了:你如何應對這項技術的影響?可以或應該對數(shù)據(jù)收集實施什么樣的法律限制?構建這些系統(tǒng)的人和那些需要數(shù)據(jù)來創(chuàng)建這些系統(tǒng)的人們之間能存在和平嗎?

讓我們逐一回答這些問題。

圖片

3、輸出問題:你能獲得人工智能模型所創(chuàng)造的東西的版權嗎?

至少對于第一個問題,答案并不太難。在美國,僅由機器生成的作品沒有版權保護。然而,在創(chuàng)作者能夠證明有大量人力投入的情況下,版權似乎是可能得到承認的。

今年9月,美國版權局首次批準了一本漫畫書的注冊,這本漫畫書是借助文本到圖像的AI Midstravel(一種類似于Open AI公司的DALL·E產(chǎn)品AI藝術作品生成器軟件)生成的。這部漫畫是一部完整的作品:18頁的敘述,有人物、對話和傳統(tǒng)的漫畫布局。盡管有報道稱美國版權局正在審查其決定,但該漫畫的版權注冊實際上尚未被撤銷??磥?,審查中的一個因素將是制作漫畫所涉及的人力投入程度。創(chuàng)作這部作品的藝術家克里斯蒂娜·卡什塔諾娃(Kristina Kashtanova)告訴ipwatchdog.com,美國版權局要求她“提供我的過程細節(jié),以表明在這部平面小說的創(chuàng)作過程中有大量的人類參與?!保绹鏅嗑直旧聿辉u論具體案例。)

根據(jù)瓜達木茲的說法,這將是一個持續(xù)存在的問題,涉及到為借助人工智能生成的作品授予版權?!叭绻阒皇擎I入‘cat by van Gogh’,我認為這不足以在美國獲得版權,”他說?!暗绻汩_始嘗試使用提示,并制作幾幅圖像,開始微調圖像,開始使用種子數(shù)據(jù),并開始進行更多的工程,我完全可以看到這受到版權保護?!?/p>

4、對于人工智能模型輸出產(chǎn)品的版權可能取決于人類參與的程度

考慮到這一準則,生成式人工智能模型的絕大多數(shù)輸出很可能無法受到版權保護。它們通常都是用幾個關鍵詞作為提示而大批量制作出來的。但更多涉及的過程會產(chǎn)生更好的案例。這些可能包括有爭議的作品,比如人工智能生成的印刷品贏得了國家藝術博覽會的比賽。在這種情況下,創(chuàng)作者表示,他花了數(shù)周時間磨練提示,并手動編輯完成的作品,這表明他有相當高的智力投入。

計算機科學家喬治·弗朗切切利(Giorgio Franceschelli)撰寫了有關人工智能版權問題的文章,他表示,衡量人類輸入對于歐盟的案件判決“尤其正確”。而在英國——西方人工智能初創(chuàng)公司關注的另一個主要司法管轄區(qū)——法律再次不同。不同尋常的是,英國是少數(shù)幾個為僅由計算機生成的作品提供版權的國家之一,但它認為作者是“完成作品創(chuàng)作所需安排的人”。同樣,還存在多個“讀者”的問題(這個“人”是模型的開發(fā)人員還是其操作員?),但它為授予某種版權保護提供了優(yōu)先權。

不過,瓜達木茲警告說,最終,注冊版權只是第一步?!懊绹鏅嗑植皇欠ㄔ海彼f。“如果你要起訴侵犯版權的人,你需要注冊,但最終將是法院來決定這是否具有法律效力。”

圖片

5、輸入問題:你可以使用受版權保護的數(shù)據(jù)來訓練人工智能模型嗎?

對于大多數(shù)專家來說,關于人工智能和版權的最大問題與用于訓練這些模型的數(shù)據(jù)有關。大多數(shù)系統(tǒng)都是根據(jù)從網(wǎng)絡上獲取的大量內容進行訓練的;可以是文本、代碼或圖像。例如,Stable Diffusion的訓練數(shù)據(jù)集——最大和最有影響力的文本轉繪畫技術之一——包含從數(shù)百個域中提取的數(shù)十億張圖像;從WordPress和Blogspot上的個人博客到DeviantArt等藝術平臺以及Shutterstock和Getty Images等股票圖像網(wǎng)站,應有盡有。事實上,生成式人工智能的訓練數(shù)據(jù)集非常龐大,很有可能你已經(jīng)身在其中。

人工智能研究人員、初創(chuàng)公司和數(shù)十億美元的科技公司使用的理由是,使用這些圖像(至少在美國)受到公平使用原則的保護,該原則旨在鼓勵使用受版權保護的作品來促進表達自由。

范德比爾特法學院(Vanderbilt Law School)教授丹尼爾·熱爾維斯(Daniel Gervais)解釋說,在決定某種東西是否合理使用時,有很多考慮因素。熱爾維斯專門研究知識產(chǎn)權法,并撰寫了大量關于這一點與人工智能如何交叉的文章。不過,他表示,有兩個因素“更加突出”?!笆褂玫哪康幕蛐再|是什么,對市場的影響是什么?!睋Q言之:用例是否以某種方式改變了材料的性質(通常被描述為“變革性”使用),以及它是否通過與原創(chuàng)作者的作品競爭而威脅到他們的生計?

6、在受版權保護的數(shù)據(jù)上訓練生成式人工智能可能是合法的但你可能用非法的方式使用這個模型

考慮到這些因素所承擔的責任,Gervais表示,版權數(shù)據(jù)訓練系統(tǒng)“很有可能”會被合理使用。但對于生成內容來說,這一點并不一定如此。換句話說:你可以用別人的數(shù)據(jù)訓練一個人工智能模型,但是你用這個模型做的事情可能是侵權的。我們不妨把它想象成為制造假幣去看電影和試圖用假幣買車的區(qū)別。

考慮在不同場景中部署的同一文本到圖像的AI模型,如果模型在數(shù)百萬張圖片上訓練并用于生成新的圖片,那么這極不可能構成侵犯版權。在這個過程中,訓練數(shù)據(jù)已經(jīng)被轉換,輸出不會威脅到原始藝術的市場。但是,如果你在一個特定藝術家的100張照片上微調模型,并生成與其風格相同的圖片,那么一個不開心的藝術家就可能會對你提出有力的指控。

Gervais說,“如果你給人工智能10本斯蒂芬·金的小說,然后說‘制作一本斯蒂芬·金的小說’,那么你就是直接和史蒂芬·金競爭了。這是對人工智能的合理使用嗎?可能并不是”。

然而至關重要的是,在公平和不公平使用的兩極之間,有無數(shù)種情況下,投入、目的和產(chǎn)出都以不同的方式平衡,并可能以某種方式影響任何法律裁決。

生成式人工智能公司W(wǎng)ombo的參謀長Ryan Khurana表示,大多數(shù)銷售這些服務的公司都意識到了這些差異。他在電子郵件中告訴the Verge:“故意使用基于版權作品的提示來生成輸出……違反了每個主要玩家的服務條款?!钡牵a充道,“這執(zhí)行起來很困難”,公司更感興趣的是“想出防止以侵犯版權的方式使用模型的方法……,而不是限制訓練數(shù)據(jù)”。這對于開源文本到圖像模型(如Stable Diffusion)尤其如此,它可以在零監(jiān)督或過濾的情況下進行訓練和使用。該公司可能會掩護自己,但也可能會為侵犯版權的使用提供便利。

判斷合理使用的另一個變量是訓練數(shù)據(jù)和模型是否由學術研究人員和非營利組織創(chuàng)建。這通常會加強合理使用防御,初創(chuàng)企業(yè)也知道這一點。比如Stability AI沒有直接收集模型的訓練數(shù)據(jù),也沒有在軟件背后訓練模型。相反,它資助并協(xié)調了學者的這項工作,而穩(wěn)定擴散模型是由一所德國大學授權的。這使得Stability AI可以將模型轉化為商業(yè)服務(DreamStudio),同時與其發(fā)明者保持合法的距離。

拜奧將這種做法稱為“AI數(shù)據(jù)清洗”。他指出,這種方法以前在創(chuàng)建面部識別AI軟件時就已經(jīng)使用過,并指出了MegaFace的例子,MegaFace是華盛頓大學的研究人員通過從Flickr上抓取照片匯編的數(shù)據(jù)集。貝奧說:“學術研究人員拿走了數(shù)據(jù),清洗了數(shù)據(jù),然后被商業(yè)公司使用。”他說,這些數(shù)據(jù)——包括數(shù)百萬張個人照片——掌握在“面部識別公司Clearview AI、執(zhí)法部門和中國政府”手中。這種經(jīng)過反復測試和檢驗的清洗過程可能有助于保護生成型人工智能模型的創(chuàng)造者免于承擔責任。

然而,這一切還有最后一個轉折點,正如熱爾韋指出的,由于最高法院涉及安迪·沃霍爾和普林斯的未決案件,當前對合理使用的解釋可能在未來幾個月內發(fā)生變化。該案涉及沃霍爾使用普林斯的照片創(chuàng)作藝術品。這是合理使用,還是侵犯版權?

Gervais說:“最高法院經(jīng)常不正當使用,所以當他們這樣做的時候,他們通常會做一些重大的事情。我認為他們在這里也會這樣做?!薄!岸遥诘却罡叻ㄔ盒薷姆傻耐瑫r,說任何事情都是既定法律的做法是有風險的。”

圖片

7、藝術家和人工智能公司如何實現(xiàn)和平?

即使發(fā)現(xiàn)生成式人工智能模型的訓練被合理使用所覆蓋,這也很難解決該領域的問題。這不會安撫藝術家們的憤怒,因為他們的作品被用來培育商業(yè)模型,也不一定適用于其他生成式人工智能領域,比如代碼和音樂。考慮到這一點,問題是:可以引入哪些補救措施,無論是技術上的還是其他方面的,以允許生成式人工智能蓬勃發(fā)展,同時為那些工作使該領域成為可能的創(chuàng)造者提供信貸或補償?

最明顯的建議是授權數(shù)據(jù)并向其創(chuàng)作者付費。不過,對一些人來說,這將扼殺該行業(yè)?!豆綄W習》(Fair Learning)一書的作者布萊恩·凱西(Bryan Casey)和馬克·萊姆利(Mark Lemley)表示,訓練數(shù)據(jù)集太大,“沒有任何合理的選擇去授權所有底層照片、視頻、音頻文件或文本用于新用途”。他們認為,允許任何版權主張,“相當于說,不是版權所有者會得到報酬,而是根本不允許使用”。允許“公平學習”,正如他們所說的,不僅鼓勵創(chuàng)新,還允許開發(fā)更好的人工智能系統(tǒng)。

然而,其他人指出,我們已經(jīng)解決了類似規(guī)模和復雜性的版權問題,并且可以再次這樣做。The Verge采訪的幾位專家援引了一個比較,那就是音樂盜版時代,當時的文件共享程序建立在大規(guī)模侵犯版權的基礎上,并在出現(xiàn)法律挑戰(zhàn)而導致了尊重版權的新協(xié)議之前繁榮發(fā)展。

本月早些時候,馬修·巴特里克(Matthew Butterick)告訴the Verge:“所以,在21世紀初,你有Napster,大家都很喜歡它,但它完全是非法的。而今天,我們有Spotify和iTunes這樣的公司?!蹦壳埃R修·布特里克是一名律師,他起訴公司為訓練人工智能模型而收集數(shù)據(jù)?!斑@些系統(tǒng)是如何產(chǎn)生的?通過公司進行授權交易并合法地引入內容。所有利益相關者都參與進來,并使其發(fā)揮作用。對我來說,人工智能不可能發(fā)生類似事情的想法有是災難性的。”

8、公司和研究人員已經(jīng)在試驗補償創(chuàng)作者的方法

Wombo的Ryan Khurana預測了類似的結果。他告訴the Verge:“音樂擁有迄今為止最復雜的版權規(guī)則,因為許可證的類型不同、版權持有人的種類繁多,以及涉及各種中介機構?!薄翱紤]到圍繞人工智能的法律問題的細微差別,我認為整個生成的領域將演變成一個類似于音樂的許可制度?!?/p>

其他替代方案也在試驗中。例如,Shutterstock表示,它計劃設立一個基金,以補償那些將其工作賣給人工智能公司以訓練其模型的個人,而DeviantArt為網(wǎng)絡上共享的圖像創(chuàng)建了一個元數(shù)據(jù)標簽,警告人工智能研究人員不要篡改其內容。(至少有一個小型社交網(wǎng)絡Cohost已經(jīng)在其網(wǎng)站上使用了這個標簽,并表示如果發(fā)現(xiàn)研究人員不顧一切地刪減其圖片,“將不排除采取法律行動”。)然而,這些方法遇到了來自藝術社區(qū)的不同群體。一次性許可費能彌補失去的生計嗎?現(xiàn)在部署的無刮擦標簽如何幫助其作品已經(jīng)用于訓練商業(yè)人工智能系統(tǒng)的藝術家?

對于許多創(chuàng)作者來說,損害似乎已經(jīng)造成。但人工智能初創(chuàng)公司至少在為未來提出新的方法。一個明顯的進步是,人工智能研究人員只需在不存在侵犯版權的可能性的情況下創(chuàng)建數(shù)據(jù)庫——要么是因為材料已獲得適當許可,要么是因為它是為人工智能訓練的特定目的而創(chuàng)建的。一個這樣的例子是“The Stack”——一個用于訓練人工智能的數(shù)據(jù)集,旨在專門避免侵犯版權的指控。它只包含具有最許可的開源許可的代碼,并為開發(fā)人員提供了一種根據(jù)請求刪除數(shù)據(jù)的簡單方法。其創(chuàng)建者表示,他們的模型可以在整個行業(yè)中使用。

“The Stack的方法絕對可以適用于其他媒體,”Hugging Face的機器學習與社會主管Yacine Jernite告訴The Verge,該公司與合作伙伴ServiceNow合作創(chuàng)建了The Stack?!斑@是探索廣泛存在的同意機制重要的第一步,這些機制在考慮到從中提取人工智能訓練數(shù)據(jù)的平臺規(guī)則時發(fā)揮最佳作用。”Jernite表示,Hugging Face希望幫助創(chuàng)造人工智能研究人員如何對待創(chuàng)作者的“根本轉變”。但到目前為止,該公司的做法仍屬罕見。

9、接下來會發(fā)生什么?

無論我們在這些法律問題上落在何處,生成式人工智能領域的各個參與者都已經(jīng)在為一些事情做準備。從這項技術中獲利數(shù)百萬的公司正在鞏固自己的地位:一再宣稱他們所做的一切都是合法的(同時可能希望沒有人真正質疑這一說法)。在“無人區(qū)”的另一邊,版權持有者們在沒有完全承諾采取行動的情況下表明了自己的初步立場。蓋蒂圖片社(Getty Images)最近禁止了人工智能內容,因為這會給客戶帶來潛在的法律風險(首席執(zhí)行官克雷格·彼得斯上個月告訴the Verge):“我不認為這是負責任的事情;相反,我認為這可能是非法的)。而音樂行業(yè)貿易組織RIAA宣稱,人工智能驅動的音樂混音器和提取器侵犯了會員的版權(盡管他們沒有發(fā)起任何實際的法律挑戰(zhàn))。

然而,隨著日前針對微軟、GitHub和OpenAI提起的集體訴訟,人工智能版權戰(zhàn)爭的第一槍已經(jīng)打響。該案指控上述三家公司在未獲得正當許可的情況下通過AI編碼助手Copilot故意復制開源代碼。在接受The Verge采訪時,訴訟方的律師表示,這可能會為整個生成式人工智能領域開創(chuàng)先例。

“不過,一旦有人揭發(fā)真相,我認為訴訟將開始橫飛遍地?!?/p>

與此同時,瓜達木茲和拜奧都表示,他們對還沒有更多的相關法律挑戰(zhàn)感到驚訝。“老實說,我大吃一驚,”瓜達穆茲說。“但我認為這在一定程度上是因為這些行業(yè)害怕成為第一個(起訴)敗訴的行業(yè)。不過,一旦有人揭發(fā)真相,我認為訴訟將開始橫飛遍地?!?/p>

拜奧表示,一個困難是,許多受這項技術影響最大的人——藝術家等——根本無法處于一個良好的狀態(tài)去發(fā)起法律挑戰(zhàn)?!八麄儧]有資源,”他說?!斑@類訴訟非常昂貴且耗時,只有在你知道自己會贏的情況下才會進行。這就是為什么我一段時間以來一直認為,圍繞AI藝術的第一場訴訟將來自庫存圖像網(wǎng)站。他們似乎準備從這項技術中損失重大,他們可以清楚地證明,他們的大量語料庫被用于訓練這些模型,而他們有資金將其告上法庭?!?/p>

瓜達木茲表示同意。他說,“每個人都知道它會有多么昂貴”,“無論誰提起訴訟,都將在下級法院得到裁決,然后他們將上訴,然后再次上訴,最終,這可能會一直到最高法院?!?/p>

原文鏈接:https://www.theverge.com/23444685/generative-ai-copyright-infringement-legal-fair-use-training-data

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。?

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2016-03-21 14:14:18

戴爾

2019-08-13 21:38:24

2009-02-10 09:49:11

雅虎CEO互聯(lián)網(wǎng)

2015-02-26 16:13:21

《混合式學習》

2011-04-06 16:49:48

AndroidAndroid Mar

2012-06-26 10:39:42

數(shù)據(jù)中心

2014-01-22 14:10:30

GithubCEO

2024-08-19 07:40:00

奧運計算機

2012-06-25 11:27:43

2024-05-16 12:42:15

AI人工智能ChatGPT

2021-07-06 09:11:40

滴滴出行網(wǎng)絡安全數(shù)據(jù)安全

2015-09-22 18:58:01

2024-08-26 09:15:00

數(shù)學黑洞

2010-01-12 10:01:21

Web2.0創(chuàng)業(yè)公司

2011-08-11 10:39:46

諾基亞iPhoneAndroid

2009-12-22 09:42:35

微軟損失

2015-07-30 11:09:12

架構開源

2010-08-09 12:39:37

2017-03-20 13:09:33

Swift廣度優(yōu)先搜索手游開發(fā)

2020-05-05 22:52:13

物聯(lián)網(wǎng)農(nóng)業(yè)IOT
點贊
收藏

51CTO技術棧公眾號