游走在法律邊緣的「圖像生成技術(shù)」:這篇論文教你避免成「被告」
近年來,AI生成內(nèi)容(AIGC)備受矚目,其內(nèi)容涵蓋圖像、文本、音頻、視頻等,不過AIGC儼然已成為一把雙刃劍,因其不負責(zé)任的使用而備受爭議。
圖像生成技術(shù)一旦用不好,就可能成「被告」。
最近來自Sony AI和智源的研究人員從多個方面探討了AIGC當下的問題,以及如何讓AI生成的內(nèi)容更負責(zé)。
論文鏈接:https://arxiv.org/pdf/2303.01325.pdf
本文關(guān)注可能阻礙AIGC健康發(fā)展的三個主要問題,包括:(1)隱私;(2)偏見、毒性、錯誤信息;(3)知識產(chǎn)權(quán)(IP)的風(fēng)險。
通過記錄已知和潛在的風(fēng)險,以及任何可能的AIGC濫用場景,本文旨在引起人們對AIGC潛在風(fēng)險和濫用的關(guān)注,并提供解決這些風(fēng)險的方向,以促進AIGC朝著更符合道德和安全的方向發(fā)展,從而造福社會。
隱私
眾所周知,大型基礎(chǔ)模型存在一系列隱私泄露的問題。
先前的研究表明,入侵者可以從經(jīng)過訓(xùn)練的GPT-2模型中生成序列,并從訓(xùn)練集中識別出那些被記憶的序列,[Kandpal et al., 2022] 將這些隱私入侵的成功歸因于訓(xùn)練集中存在的重復(fù)數(shù)據(jù),研究已經(jīng)證明,出現(xiàn)多次的序列比只出現(xiàn)一次的序列更有可能被生成。
由于 AIGC 模型是在大規(guī)模網(wǎng)絡(luò)抓取的數(shù)據(jù)上進行訓(xùn)練,因此過度擬合和隱私泄露問題變得尤為重要。
例如,Stable Diffusion 模型記憶了訓(xùn)練數(shù)據(jù)中的重復(fù)圖像 [Rombach et al., 2022c]。[Somepalli et al., 2022] 證明了 Stable Diffusion 模型公然從其訓(xùn)練數(shù)據(jù)中復(fù)制圖像,并生成訓(xùn)練數(shù)據(jù)集中前景和背景對象的簡單組合。
此外,該模型還會顯示出重建記憶的能力,從而生成語義上與原始對象相同但像素形式不同的對象。此類圖像的存在引起了對數(shù)據(jù)記憶和所有權(quán)的擔憂。
同樣,最近的研究顯示,Google的Imagen系統(tǒng)也存在泄露真人照片和受版權(quán)保護圖像的問題。在Matthew Butterick最近的訴訟中 [Butterick, 2023],他指出由于系統(tǒng)中所有的視覺信息都來自于受版權(quán)保護的訓(xùn)練圖像,因此生成的圖像無論外觀如何,都必然是來自于這些訓(xùn)練圖像的作品。
類似地,DALL·E 2也遇到了類似的問題:它有時會從其訓(xùn)練數(shù)據(jù)中復(fù)制圖像,而不是創(chuàng)建新的圖像。
OpenAI發(fā)現(xiàn)這種現(xiàn)象的發(fā)生是因為圖像在數(shù)據(jù)集中被多次復(fù)制,類似地,ChatGPT自己也承認了其存在隱私泄露的風(fēng)險。
為了緩解大型模型的隱私泄露問題,許多公司和研究人員都在隱私防御方面進行了大量努力。在產(chǎn)業(yè)層面,Stability AI已經(jīng)認識到Stable Diffusion存在的局限性。
為此,他們提供了一個網(wǎng)站(https://rom1504.github.io/clip-retrieval/)來識別被Stable Diffusion記憶的圖像。
此外,藝術(shù)公司Spawning AI創(chuàng)建了一個名為「Have I Been Trained」的網(wǎng)站(https://haveibeentrained.com),以幫助用戶確定他們的照片或作品是否被用于人工智能訓(xùn)練。
OpenAI試圖通過減少數(shù)據(jù)重復(fù)來解決隱私問題。
此外,微軟和亞馬遜等公司已經(jīng)禁止員工與ChatGPT共享敏感數(shù)據(jù),以防止員工泄露機密,因為這些信息可用于未來版本的ChatGPT的訓(xùn)練。
在學(xué)術(shù)層面,Somepalli等人研究了圖像檢索框架來識別內(nèi)容重復(fù),Dockhorn等人也提出了差分隱私擴散模型來保證生成模型的隱私。
偏見、毒性、錯誤信息
AIGC 模型的訓(xùn)練數(shù)據(jù)來自真實世界,然而這些數(shù)據(jù)可能無意中強化有害的刻板印象,排斥或邊緣化某些群體,并包含有毒的數(shù)據(jù)源,這可能會煽動仇恨或暴力并冒犯個人 [Weidinger et al., 2021]。
在這些有問題的數(shù)據(jù)集上進行訓(xùn)練或微調(diào)的模型可能會繼承有害的刻板印象、社會偏見和毒性,甚至產(chǎn)生錯誤信息,從而導(dǎo)致不公平的歧視和對某些社會群體的傷害。
例如,Stable Diffusion v1 模型主要在 LAION-2B 數(shù)據(jù)集上進行訓(xùn)練,該數(shù)據(jù)集僅包含帶有英文描述的圖像。因此,該模型偏向于白人和西方文化,其他語言的提示可能無法充分體現(xiàn)。
雖然 Stable Diffusion 模型的后續(xù)版本在 LAION 數(shù)據(jù)集的過濾版本上進行了微調(diào),但偏見問題仍然存在。同樣,DALLA·E, DALLA·E 2和 Imagen也表現(xiàn)出社會偏見和對少數(shù)群體的負面刻板印象。
此外,即使在生成非人類圖像時,Imagen 也被證明存在社會和文化偏見。由于這些問題,谷歌決定不向公眾提供Imagen。
為了說明 AIGC 模型固有的偏見,我們對 Stable Diffusion v2.1 進行了測試,使用「草原上奔跑的三名工程師」這個提示生成的圖片全部為男性,并且都不屬于被忽視的少數(shù)民族,這說明生成的圖片缺乏多樣性。
此外,AIGC模型還可能會產(chǎn)生錯誤的信息。例如,GPT及其衍生產(chǎn)品生成的內(nèi)容可能看似準確且權(quán)威,但可能包含完全錯誤的信息。
因此,它可能在一些領(lǐng)域(比如學(xué)校、律法、醫(yī)療、天氣預(yù)報)中提供誤導(dǎo)的信息。例如,在醫(yī)療領(lǐng)域,ChatGPT提供的有關(guān)醫(yī)療劑量的答案可能不準確或不完整,這可能會危及生命。在交通領(lǐng)域,如果司機都遵守ChatGPT給出的錯誤的交通規(guī)則,可能會導(dǎo)致事故甚至死亡。
針對存在問題的數(shù)據(jù)和模型,人們已經(jīng)做出了許多防御措施。
OpenAI通過精細過濾原始訓(xùn)練數(shù)據(jù)集,并刪除了DALLA·E 2訓(xùn)練數(shù)據(jù)中的任何暴力或色情內(nèi)容,然而,過濾可能會在訓(xùn)練數(shù)據(jù)中引入偏見,然后這些偏見會傳播到下游模型。
為了解決這個問題,OpenAI開發(fā)了預(yù)訓(xùn)練技術(shù)來減輕由過濾器引起的偏見。此外,為確保AIGC模型能夠及時反映社會現(xiàn)狀,研究人員必須定期更新模型使用的數(shù)據(jù)集,將有助于防止信息滯后而帶來的負面影響。
值得注意的是,盡管源數(shù)據(jù)中的偏見和刻板印象可以減少,但它們?nèi)匀豢赡茉贏IGC模型的訓(xùn)練和開發(fā)過程中傳播甚至加劇。因此,在模型訓(xùn)練和開發(fā)的整個生命周期中,評估偏見、毒性和錯誤信息的存在至關(guān)重要,而不僅僅停留在數(shù)據(jù)源級別。
知識產(chǎn)權(quán) (IP)
隨著AIGC的迅速發(fā)展和廣泛應(yīng)用,AIGC的版權(quán)問題變得尤為重要。
2022年11月,Matthew Butterick對微軟子公司GitHub提起了一起集體訴訟,指控其產(chǎn)品代碼生成服務(wù)Copilot侵犯了版權(quán)法。對于文本到圖像模型,一些生成模型被指控侵犯了藝術(shù)家的作品原創(chuàng)權(quán)。
[Somepalli et al., 2022]表明,Stable Diffusion生成的圖片可能是從訓(xùn)練數(shù)據(jù)中復(fù)制而來。雖然Stable Diffusion否認對生成圖像擁有任何所有權(quán),并允許用戶在圖像內(nèi)容合法且無害的情況下自由使用它們,但這種自由仍然引發(fā)了有關(guān)版權(quán)的激烈爭議。
像Stable Diffusion這樣的生成模型是在未經(jīng)知識產(chǎn)權(quán)持有人授權(quán)的情況下,對來自互聯(lián)網(wǎng)的大規(guī)模圖像進行訓(xùn)練的,因此,一些人認為這侵犯了他們的權(quán)益。
為了解決知識產(chǎn)權(quán)問題,許多AIGC公司已經(jīng)采取了行動。
例如,Midjourney已經(jīng)在其服務(wù)條款中加入了DMCA刪除政策,允許藝術(shù)家在懷疑侵犯版權(quán)時請求將他們的作品從數(shù)據(jù)集中刪除。
同樣,Stability AI計劃為藝術(shù)家提供一種選項,即將自己的作品從Stable Diffusion未來版本的訓(xùn)練集中排除。此外,文本水印 [He et al., 2022a; He et al., 2022b] 也可以用于識別這些 AIGC 工具是否未經(jīng)許可使用其他來源的樣本。
例如,Stable Diffusion 生成了帶有 Getty Images 水印的圖像 [Vincent, 2023]。
OpenAI 正在開發(fā)水印技術(shù)去識別由 GPT 模型生成的文本,教育工作者可以使用該工具來檢測作業(yè)是否存在剽竊行為。谷歌也已經(jīng)為其發(fā)布的圖像應(yīng)用了 Parti 水印。除了水印之外,OpenAI 最近還發(fā)布了一個分類器,用于區(qū)分人工智能生成的文本和人類編寫的文本。
結(jié)語
盡管 AIGC 目前仍處于起步階段,但其正在迅速擴張,并將在可預(yù)見的未來保持活躍。
為了讓用戶和公司充分了解這些風(fēng)險并采取適當?shù)拇胧﹣砭徑膺@些威脅,我們在本文中總結(jié)了 AIGC 模型中當前和潛在的風(fēng)險。
如果不能全面了解這些潛在風(fēng)險并采取適當?shù)娘L(fēng)險防御措施和安全保障,AIGC 的發(fā)展可能面臨重大挑戰(zhàn)和監(jiān)管障礙。因此,我們需要更廣泛的社區(qū)參與為負責(zé)任的 AIGC 做出貢獻。
最后的最后,感謝SonyAI和BAAI!