自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLaMA都在用的開源數(shù)據(jù)集慘遭下架:包含近20萬本書,對標(biāo)OpenAI數(shù)據(jù)集

人工智能
GPT-3發(fā)布后,官方披露其訓(xùn)練數(shù)據(jù)集中15%的內(nèi)容來自兩個名為“Books1”、“Books2”的電子圖書語料庫,不過具體內(nèi)容一直沒有被透露。

開源數(shù)據(jù)集因侵權(quán)問題,慘遭下架。

如LLaMA、GPT-J等,都用它訓(xùn)練過。

如今,托管了它3年的網(wǎng)站,一夜之間刪除了所有相關(guān)內(nèi)容。

這就是Books3,一個由將近20萬本圖書組成的數(shù)據(jù)集,大小將近37GB。

圖片圖片

丹麥一家反盜版組織表示,在該數(shù)據(jù)集中發(fā)現(xiàn)了150本其成員的書籍,構(gòu)成侵權(quán),所以要求平臺下架。

現(xiàn)在該平臺上的Books3網(wǎng)頁鏈接已經(jīng)“404”。

數(shù)據(jù)集的最初開發(fā)者無奈表示,Books3的下架是開源圈的一場悲劇。

Books3是什么?

Books3在2020年發(fā)布,由AI開發(fā)者Shawn Presser上傳,被收錄在Eleuther AI的開源數(shù)據(jù)集Pile中。

它總計包含197000本書,包含來自盜版網(wǎng)站Bibliotik的所有書籍,意在對標(biāo)OpenAI的數(shù)據(jù)集,但主打開源。

這也是Books3名字的來源之處——

GPT-3發(fā)布后,官方披露其訓(xùn)練數(shù)據(jù)集中15%的內(nèi)容來自兩個名為“Books1”、“Books2”的電子圖書語料庫,不過具體內(nèi)容一直沒有被透露。

圖片圖片

開源的Books3則給更多項目提供了一個和OpenAI競爭的機(jī)會。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.

要知道,圖書數(shù)據(jù)一直是大模型預(yù)訓(xùn)練中核心的語料素材,它能為模型輸出高質(zhì)量長文本提供參考。

很多AI巨頭使用的圖書數(shù)據(jù)集都是不開源,甚至是非常神秘的。比如Books1/2,關(guān)于其來源、規(guī)模的了解,更多都是各界猜測。

由此,開源數(shù)據(jù)集對于AI圈內(nèi)相當(dāng)重要。

為了更方便獲取,Books3被放到了The Eye上托管。這是一個可以存檔信息、提取公開數(shù)據(jù)的平臺。

而這一次慘遭下架,說的也是這一平臺。

丹麥反盜版組織權(quán)利聯(lián)盟向The Eye提出了下架請求,并且通過了。

不過好消息是,Books3并沒有完全消失,還是有其他辦法獲取的。

Wayback Machine上還有備份,或者可以從Torrent客戶端下載。

作者老哥在推特上給出了多個方法。

圖片圖片

“沒有Books3就沒法做自己的ChatGPT”

實際上,對于這次下架風(fēng)波,數(shù)據(jù)集作者老哥有很多話想說。

他談到,想要做出像ChatGPT一樣的模型,唯一的方法就是創(chuàng)建像Books3這樣的數(shù)據(jù)集。

每一個盈利性質(zhì)的公司都在秘密做數(shù)據(jù)集,如果沒有Books3,就意味著只有OpenAI等科技巨頭才能訪問這些圖書數(shù)據(jù),由此你將無法做出自己的ChatGPT。

在作者看來,ChatGPT就像是90年代的個人網(wǎng)站一樣,任何人都能做是很關(guān)鍵的。

不過由于Books3很大一部分?jǐn)?shù)據(jù)來自于盜版網(wǎng)站,所以作者也表示,希望之后能有人做出來比Books3更好的數(shù)據(jù)集,不僅提升數(shù)據(jù)質(zhì)量,而且尊重書籍版權(quán)。

圖片圖片

這種類似的情況在OpenAI也有發(fā)生。

一個多月以前,兩位全職作者以未經(jīng)允許擅自將作品用來訓(xùn)練ChatGPT,起訴了OpenAI。

而之所以會發(fā)生這種情況,很有可能是OpenAI的數(shù)據(jù)集Books2從影子圖書館(盜版網(wǎng)站)中獲取了大量數(shù)據(jù)。

所以也有聲音調(diào)侃說,AI不僅帶來了新的技術(shù)突破,也給反盜版組織帶來了新任務(wù)。

參考鏈接:
[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2022-05-06 15:14:20

視頻數(shù)據(jù)

2020-12-29 10:56:38

惡意軟件SoReL-20M網(wǎng)絡(luò)安全

2011-03-21 09:38:47

數(shù)據(jù)挖掘企業(yè)

2020-08-10 15:11:30

數(shù)據(jù)庫工具技術(shù)

2024-07-11 11:07:41

2020-07-02 14:25:06

數(shù)據(jù)庫工具技術(shù)

2024-01-02 11:47:00

自動駕駛數(shù)據(jù)

2021-01-08 08:04:40

JavaScript開發(fā)

2025-03-11 00:00:15

2023-09-12 13:59:41

OpenAI數(shù)據(jù)集

2022-02-16 13:46:00

模型數(shù)據(jù)開源

2023-12-01 16:23:52

大數(shù)據(jù)人工智能

2021-04-12 17:47:25

Facebook開源AI

2010-09-06 17:05:52

DB2數(shù)據(jù)集

2018-06-21 15:15:05

數(shù)據(jù)庫Redis書籍

2010-04-21 09:49:10

Oracle數(shù)據(jù)庫字符

2019-05-06 09:10:55

網(wǎng)絡(luò)安全黑客攻擊

2013-08-19 14:01:01

程序員創(chuàng)意

2015-11-13 10:38:53

Github系統(tǒng)內(nèi)部開源軟件

2009-12-29 14:41:13

ADO.NET 數(shù)據(jù)集
點贊
收藏

51CTO技術(shù)棧公眾號