AI訓(xùn)練數(shù)據(jù)的版權(quán)保護:公地的悲劇還是合作的繁榮?
GPT-4o內(nèi)置聲音模仿「寡姐」一案鬧的沸沸揚揚,雖然以O(shè)penAI發(fā)布聲明暫停使用疑似寡姐聲音的「SKY」的語音、否認曾侵權(quán)聲音為階段性結(jié)束。但是,一時間「即便是AI,也得保護人類版權(quán)」這一話題甚囂塵上,更刺激起了人們本來就對AI是否可控這一現(xiàn)代迷思的焦慮。
近日,普林斯頓大學、哥倫比亞大學、哈佛大學和賓夕法尼亞大學共同推出了一項關(guān)于生成式AI版權(quán)保護的新方案,題為《An Economic Solution to Copyright Challenges of Generative AI》。
生成式人工智能(AI)技術(shù)的快速進展已經(jīng)深刻影響了文藝產(chǎn)業(yè),帶來了文學、視覺藝術(shù)和音樂等領(lǐng)域中由AI生成的內(nèi)容時代。這些AI模型如大型語言模型和擴散模型能夠創(chuàng)作出能夠與人類藝術(shù)家的作品媲美乃至可能取代的高復(fù)雜性內(nèi)容。
這種能力的迅速增長引發(fā)了關(guān)于大模型訓(xùn)練數(shù)據(jù)作者權(quán)利的法律和道德界限的重要問題,特別是在版權(quán)侵犯方面的爭議。
版權(quán)保護一直以來都是各國法律中不可或缺的一部分。保護創(chuàng)作者的權(quán)益,可以更有利于調(diào)動創(chuàng)作者的積極性,使得文化事業(yè)更加繁華。版權(quán)保護為創(chuàng)作者不止提供了精神支持,也同時提供了物質(zhì)支持 (利益分配),這也是為創(chuàng)作者進一步提供了再創(chuàng)作的物質(zhì)基礎(chǔ)和精神動力。
另一方面,版權(quán)保護也更利于優(yōu)秀作品的傳播,因為版權(quán)保護也是在保護傳播者的正當權(quán)益和保護公眾對于分享知識文化成果的權(quán)利。誠然,一部作品的誕生,不是為了孤芳自賞,更多的是為了以某種形式分享給大眾,為大眾所用。而且, 版權(quán)保護也可以讓創(chuàng)作者更加合理地使用他人的結(jié)果,避免引發(fā)剽竊等諸多麻煩。
因此,目前有幾家AI公司因涉嫌生產(chǎn)侵犯版權(quán)的內(nèi)容而卷入法律訴訟。比如說 《紐約時報》起訴 Chatgpt的開發(fā)者 OpenAI [1],控訴后者將數(shù)百萬篇 《紐約時報》的文章被用于訓(xùn)練智能聊天機器人(例如ChatGPT )。這些機器人現(xiàn)在作為新聞消息源與《紐約時報》展開競爭。
《紐約時報》聲稱,OpenAI和微軟大型語言模型 (LLM)能夠模仿《紐約時報》的文字風格從而生成類似內(nèi)容,有時候甚至能原封不動生成已有的內(nèi)容,這種現(xiàn)象影響到《紐約時報》通過訂閱和廣告獲得收入,并且有違版權(quán)許可。
起訴書中,《紐約時報》提及到一個例子 – 微軟的「以必應(yīng)瀏覽(Browse With Bing)」中的功能,能夠幾乎一字不差地重現(xiàn)《紐約時報》旗下網(wǎng)站「The Wirecutter」的內(nèi)容,但完全沒有為提供相關(guān)的鏈接進行引用。這個例子充分體現(xiàn)了AI 非法使用版權(quán)內(nèi)容。
目前,針對OpenAI的類似訴訟案件正在不斷增加,例如近來GPT-4o內(nèi)置聲音模仿「寡姐」一案 [2]。但由于對于AI 非常使用版權(quán)內(nèi)容難以界定,訴訟案件尚在激烈討論中。
圖1:NY Times指控ChatGPT生成內(nèi)容和NY Times文章高度一致。
為了緩解訓(xùn)練數(shù)據(jù)版權(quán)所有者與AI開發(fā)者之間的緊張關(guān)系,人們已經(jīng)開始嘗試修改生成模型的訓(xùn)練或推理過程,以減少生成侵權(quán)內(nèi)容的可能性。然而這些改動可能會因為排除了高質(zhì)量的受版權(quán)保護的訓(xùn)練數(shù)據(jù)或限制內(nèi)容生成而損害模型性能。版權(quán)法的復(fù)雜性和模糊性增加了額外的難度,使得區(qū)分侵權(quán)和非侵權(quán)成果變得模糊不清。
這種不確定性可能導(dǎo)致雙方在法庭爭議中浪費大量資源。
本文提出一種在AI開發(fā)者和版權(quán)所有者之間建立互利的收益分享協(xié)議的方案,此提議呼應(yīng)了經(jīng)濟學中最近提倡的觀點。然而,模型訓(xùn)練和內(nèi)容生成的「黑箱」特性使得傳統(tǒng)的按比例直接分成方法不再適用。
因此,需要一種新的框架來公平合理地處理這些新出現(xiàn)的版權(quán)問題,確保在鼓勵創(chuàng)新的同時,也保護數(shù)據(jù)提供者的合法權(quán)益。
圖2:該工作被Ethan Mollick宣傳。
Shapley版權(quán)分享框架
該文章的框架分為兩步:
- 第一步是評估模型在整個數(shù)據(jù)集的每一個可能子集上訓(xùn)練的效用。直觀上,如果在某數(shù)據(jù)子集上訓(xùn)練的模型能夠有很大的可能性生成與部署模型相似的AI生成內(nèi)容(例如藝術(shù)作品),那么該數(shù)據(jù)子集的效用就會很大。
- 第二步是根據(jù)第一步的效用使用合作博弈論工具(即Shapley值)來確定任何訓(xùn)練數(shù)據(jù)版權(quán)所有者的應(yīng)得份額。簡而言之,如果將其數(shù)據(jù)包括在模型訓(xùn)練中能夠增加效用,那么版權(quán)所有者的份額就會大。
圖3:基于Shapley值的版權(quán)分配框架。
不同數(shù)據(jù)源組合的效用
設(shè)有 n 個版權(quán)所有者,第 i個擁有訓(xùn)練數(shù)據(jù)集的版權(quán),其中i∈N?{1,2,…n}。部署的模型訓(xùn)練在整個數(shù)據(jù)集
上,并生成內(nèi)容
??紤]一個在數(shù)據(jù)子集
上訓(xùn)練的反事實模型,其中S?N表示數(shù)據(jù)所有者的一個子集。
該反事實模型生成同一內(nèi)容的概率密度函數(shù)由
表示。對于生成模型生成的內(nèi)容,一個子集的效用最容易反映在該反事實模型生成目標內(nèi)容的概率。當比較不同模型時,可以通過生成目標內(nèi)容的概率比例衡量它們之間的效用差距。
因此,該文章定義此模型對內(nèi)容的效用為
,這樣可以直接根據(jù)
來比較兩個數(shù)據(jù)集之間的效用。
這種效用提供了一種衡量數(shù)據(jù)源S在生成內(nèi)容方面的責任程度的方式。如果反事實模型不太可能生成與部署模型相同的內(nèi)容,其效用就小,反之亦然。
版權(quán)所有者間的版稅分配
效用v(S)可以解釋為所有S成員為訓(xùn)練生成式AI模型提供數(shù)據(jù)所應(yīng)得的總補償。下一步是基于所有可能的數(shù)據(jù)源組合的效用來確定每個個別版權(quán)所有者的收益。該文章提議使用Shapley值。
Shapley值是博弈論中的一個解決方案概念,它提供了一種根據(jù)每個玩家組合作為聯(lián)盟的效用分配收益的原則性方法。它是由諾貝爾獎獲得者Lloyd Shapley (此后簡稱為Shapley) 提出的。
Shapley (1923-2016)是美國籍數(shù)學家和經(jīng)濟學家,并且由于對穩(wěn)定分配理論和市場設(shè)計的實踐做出突出貢獻,而獲得了2012年的經(jīng)濟學諾貝爾獎 [3]。Shapley是博弈論領(lǐng)域的傳奇,并且在其博士工作和博士論文中引入了Shapley值。
美國經(jīng)濟學會稱Shapley是「博弈論和經(jīng)濟學理論的巨人」。
Shapley值的具體計算如下:
參與者i的Shapley值計算為其在所有可能聯(lián)盟中邊際貢獻的加權(quán)平均:
Shapley值是唯一滿足幾個重要經(jīng)濟屬性的支付規(guī)則,并在機器學習模型的數(shù)據(jù)估值中獲得了普及。利用Shapley值,該文章提出使用SRS(Shapley Royalty Share)來計算版權(quán)分配。
SRS定義如下:
這里,是版權(quán)所有者i的Shapley值。
SRS提供了一種經(jīng)濟學方法解決生成式AI環(huán)境中的版權(quán)和收益分配問題,支持公正的數(shù)據(jù)使用和創(chuàng)新激勵。
該文章用一個簡單的例子來解釋Shapley值的計算過程。在這個例子中,有三個數(shù)據(jù)所有者(A, B, C),他們共同訓(xùn)練一個模型,使用模型對某生成內(nèi)容的log-likelihood作為效用函數(shù)。假設(shè)使用不同的數(shù)據(jù)組合訓(xùn)練后的模型的log-likelihood如下:
可以根據(jù)以下量來計算A的Shapley值:
- 數(shù)據(jù)所有者A單獨貢獻:v({A})=5
- 數(shù)據(jù)所有者A和B的貢獻:v({A,B})-v({B})=15-7=8
- 數(shù)據(jù)所有者A和C的貢獻:v({A,C})-v({C})=10-3=7
- 數(shù)據(jù)所有者A、B和C的貢獻:v({A,B,C})-v({B,C})=20-12=8
根據(jù)Shapley值公式,可以得到
計算考慮
在應(yīng)用SRS框架時,主要挑戰(zhàn)在于其相當大的計算成本。對不同數(shù)據(jù)源組合的效用函數(shù)評估需要多次重新訓(xùn)練模型。在版權(quán)所有者數(shù)量較少的某些應(yīng)用中,計算挑戰(zhàn)可能并不像看起來那么嚴重。
實際上,可以預(yù)見這種基于合約的框架在整個版權(quán)數(shù)據(jù)被少數(shù)幾個版權(quán)所有者分割時效果最佳,這樣每個數(shù)據(jù)源都有足夠的數(shù)據(jù)影響訓(xùn)練結(jié)果。如果數(shù)據(jù)源的規(guī)模非常小,版權(quán)所有者的版稅份額可能微不足道,且由于訓(xùn)練AI模型的隨機性,結(jié)果可能更加噪聲化。
為了減輕這種計算負擔,可以采用兩種方法:
- 第一種是使用蒙特卡洛方法來近似計算Shapley值,這種技術(shù)特別適用于版權(quán)所有者眾多的情況。
- 第二種方法是通過從另一個在較小數(shù)據(jù)子集上訓(xùn)練的模型微調(diào)來訓(xùn)練模型。因此,可以通過對整個訓(xùn)練數(shù)據(jù)只訓(xùn)練一次,來近似在不同數(shù)據(jù)子集上訓(xùn)練的模型。具體來說,對于隨機抽樣的版權(quán)所有者排列,可以首先在第一個版權(quán)所有者上訓(xùn)練,然后是第二個,一直到最后一個版權(quán)所有者。這種技術(shù)可以與著名的Shapley值排列抽樣估計器一起使用。
在實踐中,商業(yè)AI模型可能每天進行數(shù)百萬次交易。僅估計每個版權(quán)所有者應(yīng)得的聚合收益,而不是按照公式為每個AI生成的內(nèi)容計算收益,可以節(jié)省計算成本。理論上,可以僅評估所有交易中一小部分的SRS,然后按比例計算從所有交易中獲得的收入分布。
實驗結(jié)果
該文章通過實驗評估了所提出框架在分配AI生成內(nèi)容版稅方面的有效性,重點關(guān)注創(chuàng)意藝術(shù)和圖像領(lǐng)域的標志設(shè)計。
評估使用了公開可獲取的數(shù)據(jù)集:WikiArt和FlickrLogo-27。
評估SRS的有效性
對于WikiArt數(shù)據(jù)集,該文章選取了四位著名藝術(shù)家的四個不相交的畫作子集。一個最初在更廣泛的訓(xùn)練圖像集(不包括這四位藝術(shù)家的作品)上訓(xùn)練的模型,作為基礎(chǔ)模型。通過在選定藝術(shù)家的四組畫作的各種組合上進一步微調(diào)基礎(chǔ)模型,計算SRS。
類似地,對于FlickrLogo-27數(shù)據(jù)集,該文章選取了四個品牌的四個不相交的標志設(shè)計子集,并使用在其他品牌標志圖像上訓(xùn)練的基礎(chǔ)模型計算SRS。該文章的目標是評估SRS是否能反映每個版權(quán)所有者對圖像生成的貢獻。
圖4:使用SRS評估每個版權(quán)所有者對圖像生成的貢獻。
結(jié)果表明,當的風格與訓(xùn)練數(shù)據(jù)源的風格非常接近時,SRS值最高。這一關(guān)系凸顯了SRS框架準確歸因于AI生成圖像創(chuàng)作貢獻的能力。
評估SRS對于混合風格的生成圖像的歸因能力
在WikiArt數(shù)據(jù)集上,該文章探討了針對要求從多個數(shù)據(jù)源生成內(nèi)容的提示的SRS分布。顯著地,提示要求生成模型融合多位藝術(shù)家的風格。SRS有效地識別并獎勵了融入生成藝術(shù)作品的數(shù)據(jù)源的貢獻,展示了該框架在辨識和評價多樣化數(shù)據(jù)源輸入以生成內(nèi)容的能力。
圖5:使用SRS評估每個版權(quán)所有者對混有不同藝術(shù)家風格的圖像生成的貢獻。
討論與深入研究
生成式AI的快速發(fā)展對傳統(tǒng)版權(quán)法構(gòu)成了深刻挑戰(zhàn),這不僅是因為其強大的內(nèi)容生成能力,還因為對AI生成內(nèi)容版權(quán)的解釋復(fù)雜以及大型AI系統(tǒng)的“黑箱”本質(zhì)。該文章從經(jīng)濟學角度出發(fā),開發(fā)了一個允許在版權(quán)數(shù)據(jù)訓(xùn)練中交換收入分配的版權(quán)分享模型,促進了AI開發(fā)者和版權(quán)所有者之間的互利合作。通過數(shù)值實驗,該文章證明了這一框架的有效性和可行性。
該文章的研究也為未來的研究開辟了道路。例如,版權(quán)所有者可能會通過合并或分割他們的數(shù)據(jù)來最大化版權(quán)分成,SRS可能會被惡意版權(quán)所有者操縱。盡管已經(jīng)探索了抗復(fù)制的解決方案,但這些主要關(guān)注于Shapley值的影響而非復(fù)制下的比率。開發(fā)一種抗操縱的機制是未來工作的一個重要方向。
另一個開放問題是處理無法或不愿意協(xié)商協(xié)議的版權(quán)所有者的版權(quán)數(shù)據(jù),特別是當每個擁有者的數(shù)據(jù)集很小的情況。在這種情況下,該文章的方法可以與生成合法內(nèi)容的方法結(jié)合使用, 增強他們的模型以確定版權(quán)所有者和AI開發(fā)者之間適當?shù)氖杖敕峙?,認識到計算資源、算法設(shè)計和工程專長在開發(fā)高性能AI模型中的關(guān)鍵作用,是另一個研究方向。
該文章已經(jīng)通過采用合作博弈理論中的權(quán)限結(jié)構(gòu)概念來初步適應(yīng)這種情況。
從方法論角度看,未來研究的一個關(guān)鍵方面是使用Shapley值比率進行收入分配。直接使用Shapley值的主要挑戰(zhàn)在于任何版權(quán)所有者數(shù)據(jù)聯(lián)盟的總收入未知。但當考慮比率時,Shapley值的效率屬性(確保所有Shapley值之和等于大聯(lián)盟的效用)失去了意義。
在這種情況下,半值(一種放棄效率公理的Shapley值推廣)可能提供了一個可行的替代方案。未來的工作可以旨在建立公理化的理由,以識別此背景下用于版稅分配的最合適的解決方案概念。
從實用性的角度講,Shapley值最大的不足之處在于計算開銷。盡管Monte Carlo方法可以加速計算過程,但仍需要大量的模型重復(fù)訓(xùn)練。這種計算需求在處理大型數(shù)據(jù)集和復(fù)雜模型時變得尤其突出,可能導(dǎo)致計算資源的極大消耗和時間的延長。
未來的工作可以著重于解決這一問題,通過開發(fā)更高效的算法或啟用新的方法來減少計算開銷,從而使Shapley值在實際應(yīng)用中更加可行和高效。
作者介紹:
1. Jiachen Wang (王嘉宸):現(xiàn)為普林斯頓大學電子工程系博士生,主攻人工智能數(shù)據(jù)估值(data valuation)等方向。
2. Zhun Deng (鄧準):現(xiàn)為哥倫比亞大學計算機系博后,博后導(dǎo)師為 Richard Zemel。此前為哈佛大學計算機系博士生,師從Cynthia Dwork,主攻機器學習可靠性和社會責任性等方向。
3. Hiroaki Chiba-Okabe:現(xiàn)為賓夕法尼亞大學應(yīng)用數(shù)學和計算科學博士生,主攻方向是人工智能引發(fā)的道德問題和社會問題。
4. Boaz Barak: 哈佛大學正教授,主攻方向理論計算機和機器學習方向。同時在OpenAI 任職。
5. Wijie Su (蘇煒杰):現(xiàn)為賓夕法尼亞大學沃頓商學院、計算機系和數(shù)學系副教授,研究方向包括人工智能的理論基礎(chǔ)等方向。