Llama3背后的秘密:HuggingFace發(fā)布萬億級數(shù)據集Fineweb 原創(chuàng) 精華
Llama3是在15萬億個公共數(shù)據標記上進行訓練的。但是,您可以在哪里找到這樣的數(shù)據集和處理方法呢?
近日,HuggingFace發(fā)布??Fineweb,一個高質量的大規(guī)模篩選網絡數(shù)據集,優(yōu)于目前所有同等規(guī)模的數(shù)據集。HuggingFace訓練了200多個消融模型,精心制作了這個數(shù)據集,對Common Crawl進行了解析和過濾。HuggingFace對2013年至2024年間的所有CommonCrawl數(shù)據進行了篩選和去重。在FineWeb上訓練的模型優(yōu)于RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama
所有的處理方法、數(shù)據、消融模型和超參數(shù)都是開源的,并且HuggingFace計劃持續(xù)改進Fineweb。
這是什么?
?? FineWeb數(shù)據集由超過15T標記的英文網絡數(shù)據組成,經過了清洗和去重處理,數(shù)據來源于CommonCrawl。數(shù)據處理流程針對LLM性能進行了優(yōu)化,并在我們的大規(guī)模數(shù)據處理庫?? datatrove上運行。
?? FineWeb最初旨在成為?? RefinedWeb的完全開放復制品,全套數(shù)據集將根據ODC-By 1.0許可證發(fā)布。然而,通過謹慎添加額外的過濾步驟,研究人員成功將?? FineWeb的性能推高到原始?? RefinedWeb的水平之上,并且在基準任務組上,基于數(shù)據集訓練的模型也優(yōu)于基于其他常用高質量網絡數(shù)據集(如C4、Dolma-v1.6、The Pile、SlimPajama)訓練的模型。
發(fā)布了什么?
除了數(shù)據集之外,還包括自2013年以來的所有CommonCrawl轉儲數(shù)據。HuggingFace還在此處共享了使用?? datatrove庫完全重現(xiàn)我們處理設置所需的所有代碼。為了實現(xiàn)對結果的完全復制,HuggingFace還發(fā)布了我們使用nanotron訓練的小型消融模型,以驗證數(shù)據集并與其他參考數(shù)據集進行比較。您可以在此處找到它們,每1000步進行一次檢查點。HuggingFace還在此處發(fā)布了我們的評估結果。
如何下載和使用?? FineWeb
方法1
from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)
方法2
from huggingface_hub import snapshot_download
folder = snapshot_download(
"HuggingFaceFW/fineweb",
repo_type="dataset",
local_dir="./fineweb/",
allow_patterns="data/CC-MAIN-2023-50/*")
譯自(有刪改):https://huggingface.co/datasets/HuggingFaceFW/fineweb
本文轉載自公眾號AIGC最前線
