作者 | 言征
審校 | 千山
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:TTalkxiaozhuli)
當?shù)貢r間4月18日,知名社交媒體平臺Reddit宣布將開始向過度使用其數(shù)據(jù)API的公司(雖然沒有點名OpenAI、谷歌等)收費,此舉似乎是為了改變免費為別人做嫁衣的局面:被用作大型語言模型的免費訓練庫。
1、事件回顧:停止免費
Reddit作為有著18年歷史的新聞平臺,用戶可以在上面發(fā)帖、評論、交流各種話題。
Reddit說:“過去18年來,作為擁有最大在線人與人對話語料庫之一的平臺,我們有義務讓我們的社區(qū)成為這些內(nèi)容的管理者。”
為此,該公司宣布正在更新其各種開發(fā)工具和服務的使用條款,并將它們?nèi)空系揭惶组_發(fā)人員條款中,包括其數(shù)據(jù)和廣告API、嵌入條款等。據(jù)稱這些條款將管理Reddit的所有開發(fā)人員服務。Reddit解釋,這些是為了幫助開發(fā)人員通過允許訪問Reddit上托管的帖子和其他信息來為Reddit用戶構(gòu)建應用程序和服務。
圖源:reddithelp.com
值得注意的是,在Reddit數(shù)據(jù)API條款中的第三條,明確的提出了費用和使用限制的問題。該公司認為,除了商用用途以外,學術界、研究人員和“社交聆聽工具”也使用它來訪問Reddit數(shù)據(jù),但有些人過度使用它。Reddit會保留訪問API收費的權(quán)利,費率會由Reddit獨家確定。
圖源:reddithelp.com
至于具體的收費標準,Reddit還沒有公布,但表示會分為不同的等級,根據(jù)使用者的規(guī)模和需求來區(qū)分。Reddit的一位發(fā)言人聲稱,它將在6月份分享更多關于在推出付費訪問產(chǎn)品時如何授予許可和費用標準的信息。
2、創(chuàng)始人:現(xiàn)在是收緊政策的好時機
不可否認,Reddit作為優(yōu)質(zhì)的“大模型語料庫”,自然被白嫖的幾率非常大。
OpenAI的GPT系列,就使用了來自維基百科、圖書館、從Reddit帖子鏈接到的網(wǎng)頁等的PB級信息。
雖然沒有直接點名像谷歌和OpenAI這樣的公司,但Reddit首席執(zhí)行官兼聯(lián)合創(chuàng)始人史蒂夫·霍夫曼,此前在一次外媒采訪時就坦誠,Reddit“是進行真實對話的地方”,因此“Reddit的數(shù)據(jù)語料庫非常有價值”。
“爬取Reddit,產(chǎn)生價值而不將任何價值返回給我們的用戶是我們遇到的問題,”霍夫曼認為?!艾F(xiàn)在是我們收緊政策的好時機。我們認為這是公平的?!?/p>
果不其然,作為新條款的一部分,Reddit表示禁止“通過任何方式訪問或使用Reddit服務和數(shù)據(jù)來訓練大型語言、人工智能或其他算法模型”。
圖源:reddithelp.com
在Reddit的幫助頁面上,涵蓋了Reddit開發(fā)人員工具的商業(yè)用途和費用,包括“出售對在Reddit上訓練的模型的訪問權(quán)”只有在獲得許可的情況下才被允許,并且可能需要支付相關費用。
圖源:reddithelp.com
Reddit沒有提供任何線索來說明什么是“附加功能、更高的使用限制和更廣泛的使用權(quán)限”,它表示這將是決定誰必須為數(shù)據(jù)API訪問付費的因素,也沒有提供任何線索關于這些第三方需要為特權(quán)付出多少。
3、矛盾的條款爭議
更新的條款存在一個有趣的爭議:內(nèi)容歸Redditor所有,但Reddit有權(quán)向合作伙伴提供用戶的內(nèi)容。
試圖從近二十年的對話中抓取內(nèi)容的行為,不在少數(shù)。Reddit更新其條款以“進一步 [澄清] 用戶內(nèi)容歸在Reddit上創(chuàng)建和提交內(nèi)容的redditor所有,未經(jīng)許可不得使用”,這一點影響很大。
然而,Reddit的用戶協(xié)議卻也包括自己使用發(fā)帖人發(fā)布的內(nèi)容的條款,包括“我們有權(quán)向與Reddit合作的其他公司、組織或個人提供您的內(nèi)容?!?如果想要訪問數(shù)據(jù)的一方獲得了Reddit的許可,那么內(nèi)容所有權(quán)是否是一個問題,就變得有點模糊了。
4、對于開發(fā)者的影響:速率限制
當被問及開發(fā)者在被要求付費之前,會考慮什么樣的使用門檻時,Reddit表示,它始終對其API使用設置了速率限制。Reddit尚未透露下一步的限制計劃,但GitHub文檔最后一次更新是在2015年,表明它是每個客戶端每分鐘60個請求,沒有提到批量限制。
Reddit的發(fā)言人透露,該公司在執(zhí)行API使用限制或為限制增加的更高一級的“清理空間”方面,一直不太擅長。
Reddit表示,新規(guī)則不出意外的話將于6月19日生效。截至目前,數(shù)據(jù)API仍然可以免費訪問通過Reddit開發(fā)者平臺的適當用例。
5、拔出蘿卜帶出泥用于訓練的數(shù)據(jù)版權(quán)糾紛
數(shù)據(jù)是新時代的石油,大模型就是將油加工成高級產(chǎn)品的煉丹爐。只不過這“石油”的歸屬和使用,卻存在太多的爭議空間。
首先是訓練數(shù)據(jù)侵犯了用戶和企業(yè)的版權(quán)。
此前,在文生圖領域大火的Midjourney和Stability AI,因?qū)⑺鼈兊墓ぞ哂糜诰W(wǎng)絡抓取的圖像而被指控侵犯了數(shù)百萬藝術家的權(quán)利,面臨法律訴訟。
同樣,庫存圖片供應商也對白嫖行為發(fā)起反擊。據(jù)悉Getty Images已將Stability AI單獨告上法庭,指控其未經(jīng)許可使用其網(wǎng)站上數(shù)百萬張圖片來訓練藝術生成模型Stable Diffusion。
不打招呼,就偷用了藝術家和平臺的版權(quán)圖片,被起訴在所難免。但是這些公司認為,他們已經(jīng)重新利用人們的圖像來創(chuàng)造新的東西并且這是對數(shù)據(jù)的合理使用?!罢堊⒁?,我們會認真對待這些問題。任何認為這不是合理使用的人都不了解這項技術并且誤解了法律,”Stability AI的一位發(fā)言人如是說。
其次,生成式AI的輸出也有風險:大模型本身傾向于使用其他來源的圖像和文本,包括版權(quán)內(nèi)容(輸入決定輸出)。一些圖像托管平臺已經(jīng)禁止使用AI生成的內(nèi)容,因為他們擔心會引起法律糾紛。
專家警告說,如果企業(yè)無意中將生成的AI工具所生成的受版權(quán)保護的內(nèi)容,納入他們銷售的任何產(chǎn)品中,這些企業(yè)可能會面臨風險。
不過,業(yè)內(nèi)有一個可以借鑒的方案,就是Adobe Firefly。同樣是生成式AI模型,它僅使用公司的免版稅媒體庫Adobe Stock,以及經(jīng)過版權(quán)公開授權(quán)和公共領域內(nèi)容,訓練Firefly模型。
同時,未來用戶將能夠使用自己的內(nèi)容訓練和微調(diào)Firefly模型,使其輸出具有特定的風格和設計語言。
而且,Adobe似乎在去年8月更新了其內(nèi)容分析政策,并表示不會訪問存儲在用戶設備本地的內(nèi)容。
6、寫在最后
樹欲靜而風不止。盡管OpenAI創(chuàng)始人阿爾特曼近日說大模型時代迎來終結(jié),但大模型給社會帶來的影響才剛剛凸顯。此次Reddit突然要向生成式AI大模型收數(shù)據(jù)費,也將不會是個例。
不管是對話聊天,還是文生圖,保管數(shù)據(jù)的平臺都不得不卷入這場“生態(tài)戰(zhàn)”。版權(quán)、隱私、報酬、安全等都是這場戰(zhàn)斗的重要議題。