自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集

發(fā)布于 2024-8-6 10:49
瀏覽
0收藏

華盛頓大學、斯坦福大學、Salesforce等研究人員聯(lián)合開源了多模態(tài)數(shù)據(jù)集MINT-1T。


據(jù)悉,MINT-1T共包含了大約1萬億個文本標記和34億張圖像,是現(xiàn)有開源多模態(tài)數(shù)據(jù)集的10倍,同時還首次從ArXiv網(wǎng)站中爬取了專業(yè)論文,進一步提升了數(shù)據(jù)質(zhì)量。這對于開源領(lǐng)域開發(fā)GPT-4o、Gemini等多模態(tài)模型,提供了全面、多元化的數(shù)據(jù)集。

開源地址:https://github.com/mlfoundations/MINT-1T

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

MINT-1T數(shù)據(jù)集包含了多種來源,其中,HTML文檔的主要來源于CommonCrawl,是一個非盈利性的組織,通過爬取互聯(lián)網(wǎng)上的網(wǎng)頁生成了大量的數(shù)據(jù)集,被廣泛用于各種學術(shù)研究和模型訓練。


在提取的過程中,為了確保數(shù)據(jù)集的質(zhì)量和多樣性,研究人員對文檔進行了數(shù)據(jù)過濾,排除了那些不包含圖像或包含超過三十張圖像的文檔,同時剔除了那些圖像URL中包含不適當子字符串(例如,logo、avatar、porn、xxx等)的文檔


在處理HTML文檔時,團隊采用了OBELICS的方法,通過解析WARC條目的DOM樹來提取交錯的多模態(tài)文檔。這種方法允許團隊在保持圖像和文本原始順序的同時,提取出有用的數(shù)據(jù)。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

此外,團隊還對HTML文檔進行了去重處理,使用了Bloom Filter技術(shù),通過設(shè)置0.01的誤報率,對13-gram段落進行去重。如果一個文檔中超過80%的段落是重復的,那么整個文檔就會被丟棄。這種方法有效地減少了數(shù)據(jù)集中的冗余內(nèi)容,提高了數(shù)據(jù)的質(zhì)量和可用性。


PDF文檔是MINT-1T數(shù)據(jù)集中的另一個重要組成部分。這些文檔主要來源于CommonCrawl WAT文件,涵蓋了2023年2月——2024年4月的數(shù)據(jù)。與HTML文檔的處理方法類似,研究人員首先從這些轉(zhuǎn)儲中提取所有PDF鏈接,然后嘗試使用PyMuPDF 2下載和讀取PDF文件。


在處理的過程中,研究人員對PDF文件的大小和頁數(shù)進行了限制,排除了超過50MB大或超過50頁的PDF文檔。這是因為這些文檔通常包含大量的圖像,可能會影響數(shù)據(jù)處理的效率和效果。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

ArXiv是全球著名提供物理、數(shù)學、計算機科學、AI等領(lǐng)域的專業(yè)論文網(wǎng)站,研究人員從這里提取了大量基于LaTeX源代碼的文檔,包含了論文的文本內(nèi)容、圖像、表格、參考文獻等所有元素。


在處理LaTeX源代碼時首先需要識別圖形標簽,這些標簽通常以\includegraphics的形式出現(xiàn),指示了圖像在文檔中的位置。


通過分析這些標簽,研究人員能夠確定圖像在文本中的相對位置,并據(jù)此將圖像與文本內(nèi)容進行交錯,這對于保持文檔的原始結(jié)構(gòu)和閱讀順序至關(guān)重要。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

在獲取了經(jīng)過初步處理的PDF、HTML等數(shù)據(jù)后,研究人員對這些數(shù)據(jù)做了進一步處理。首先,使用Fasttext的語言識別模型排除了非英語文檔,以確保數(shù)據(jù)集的語言一致性。


其次,刪除了URL包含NSFW子字符串的文檔,以排除色情和不良內(nèi)容。還使用了RefinedWeb的文本過濾方法,移除了包含過多重復n-gram或被識別為低質(zhì)量的文檔。


在圖像過濾方面,團隊嘗試下載HTML數(shù)據(jù)集中的所有圖像URL,丟棄了任何無法檢索的鏈接,并移除了沒有有效圖像鏈接的文檔。為了提高圖像質(zhì)量,移除了小于150像素的圖像,以避免包含諸如徽標和圖標等噪聲圖像。


為了確保數(shù)據(jù)集的安全性和合規(guī)性,研究人員對所有圖像使用了NSFW圖像檢測器。如果發(fā)現(xiàn)文檔包含單個NSFW圖像,則丟棄整個文檔。同時對對文本數(shù)據(jù)中的電子郵件地址和IP地址等個人信息,進行了匿名化處理防止敏感數(shù)據(jù)泄露。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/b9OqedOwVpNMuvp2ViHedg??

收藏
回復
舉報
回復
相關(guān)推薦