LLaMA都在用的開源數(shù)據(jù)集慘遭下架:包含近20萬本書,對標(biāo)OpenAI數(shù)據(jù)集
開源數(shù)據(jù)集因侵權(quán)問題,慘遭下架。
如LLaMA、GPT-J等,都用它訓(xùn)練過。
如今,托管了它3年的網(wǎng)站,一夜之間刪除了所有相關(guān)內(nèi)容。
這就是Books3,一個由將近20萬本圖書組成的數(shù)據(jù)集,大小將近37GB。
圖片
丹麥一家反盜版組織表示,在該數(shù)據(jù)集中發(fā)現(xiàn)了150本其成員的書籍,構(gòu)成侵權(quán),所以要求平臺下架。
現(xiàn)在該平臺上的Books3網(wǎng)頁鏈接已經(jīng)“404”。
數(shù)據(jù)集的最初開發(fā)者無奈表示,Books3的下架是開源圈的一場悲劇。
Books3是什么?
Books3在2020年發(fā)布,由AI開發(fā)者Shawn Presser上傳,被收錄在Eleuther AI的開源數(shù)據(jù)集Pile中。
它總計包含197000本書,包含來自盜版網(wǎng)站Bibliotik的所有書籍,意在對標(biāo)OpenAI的數(shù)據(jù)集,但主打開源。
這也是Books3名字的來源之處——
GPT-3發(fā)布后,官方披露其訓(xùn)練數(shù)據(jù)集中15%的內(nèi)容來自兩個名為“Books1”、“Books2”的電子圖書語料庫,不過具體內(nèi)容一直沒有被透露。
圖片
開源的Books3則給更多項目提供了一個和OpenAI競爭的機(jī)會。
比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.
要知道,圖書數(shù)據(jù)一直是大模型預(yù)訓(xùn)練中核心的語料素材,它能為模型輸出高質(zhì)量長文本提供參考。
很多AI巨頭使用的圖書數(shù)據(jù)集都是不開源,甚至是非常神秘的。比如Books1/2,關(guān)于其來源、規(guī)模的了解,更多都是各界猜測。
由此,開源數(shù)據(jù)集對于AI圈內(nèi)相當(dāng)重要。
為了更方便獲取,Books3被放到了The Eye上托管。這是一個可以存檔信息、提取公開數(shù)據(jù)的平臺。
而這一次慘遭下架,說的也是這一平臺。
丹麥反盜版組織權(quán)利聯(lián)盟向The Eye提出了下架請求,并且通過了。
不過好消息是,Books3并沒有完全消失,還是有其他辦法獲取的。
Wayback Machine上還有備份,或者可以從Torrent客戶端下載。
作者老哥在推特上給出了多個方法。
圖片
“沒有Books3就沒法做自己的ChatGPT”
實際上,對于這次下架風(fēng)波,數(shù)據(jù)集作者老哥有很多話想說。
他談到,想要做出像ChatGPT一樣的模型,唯一的方法就是創(chuàng)建像Books3這樣的數(shù)據(jù)集。
每一個盈利性質(zhì)的公司都在秘密做數(shù)據(jù)集,如果沒有Books3,就意味著只有OpenAI等科技巨頭才能訪問這些圖書數(shù)據(jù),由此你將無法做出自己的ChatGPT。
在作者看來,ChatGPT就像是90年代的個人網(wǎng)站一樣,任何人都能做是很關(guān)鍵的。
不過由于Books3很大一部分?jǐn)?shù)據(jù)來自于盜版網(wǎng)站,所以作者也表示,希望之后能有人做出來比Books3更好的數(shù)據(jù)集,不僅提升數(shù)據(jù)質(zhì)量,而且尊重書籍版權(quán)。
圖片
這種類似的情況在OpenAI也有發(fā)生。
一個多月以前,兩位全職作者以未經(jīng)允許擅自將作品用來訓(xùn)練ChatGPT,起訴了OpenAI。
而之所以會發(fā)生這種情況,很有可能是OpenAI的數(shù)據(jù)集Books2從影子圖書館(盜版網(wǎng)站)中獲取了大量數(shù)據(jù)。
所以也有聲音調(diào)侃說,AI不僅帶來了新的技術(shù)突破,也給反盜版組織帶來了新任務(wù)。
參考鏈接:
[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/