自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集

發(fā)布于 2024-8-6 10:49

瀏覽

0收藏

華盛頓大學、斯坦福大學、Salesforce等研究人員聯(lián)合開源了多模態(tài)數(shù)據(jù)集MINT-1T。

據(jù)悉，MINT-1T共包含了大約1萬億個文本標記和34億張圖像，是現(xiàn)有開源多模態(tài)數(shù)據(jù)集的10倍，同時還首次從ArXiv網(wǎng)站中爬取了專業(yè)論文，進一步提升了數(shù)據(jù)質(zhì)量。這對于開源領(lǐng)域開發(fā)GPT-4o、Gemini等多模態(tài)模型，提供了全面、多元化的數(shù)據(jù)集。

開源地址：https://github.com/mlfoundations/MINT-1T

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

MINT-1T數(shù)據(jù)集包含了多種來源，其中，HTML文檔的主要來源于CommonCrawl，是一個非盈利性的組織，通過爬取互聯(lián)網(wǎng)上的網(wǎng)頁生成了大量的數(shù)據(jù)集，被廣泛用于各種學術(shù)研究和模型訓練。

在提取的過程中，為了確保數(shù)據(jù)集的質(zhì)量和多樣性，研究人員對文檔進行了數(shù)據(jù)過濾，排除了那些不包含圖像或包含超過三十張圖像的文檔，同時剔除了那些圖像URL中包含不適當子字符串（例如，logo、avatar、porn、xxx等）的文檔。

在處理HTML文檔時，團隊采用了OBELICS的方法，通過解析WARC條目的DOM樹來提取交錯的多模態(tài)文檔。這種方法允許團隊在保持圖像和文本原始順序的同時，提取出有用的數(shù)據(jù)。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

此外，團隊還對HTML文檔進行了去重處理，使用了Bloom Filter技術(shù)，通過設(shè)置0.01的誤報率，對13-gram段落進行去重。如果一個文檔中超過80%的段落是重復的，那么整個文檔就會被丟棄。這種方法有效地減少了數(shù)據(jù)集中的冗余內(nèi)容，提高了數(shù)據(jù)的質(zhì)量和可用性。

PDF文檔是MINT-1T數(shù)據(jù)集中的另一個重要組成部分。這些文檔主要來源于CommonCrawl WAT文件，涵蓋了2023年2月——2024年4月的數(shù)據(jù)。與HTML文檔的處理方法類似，研究人員首先從這些轉(zhuǎn)儲中提取所有PDF鏈接，然后嘗試使用PyMuPDF 2下載和讀取PDF文件。

在處理的過程中，研究人員對PDF文件的大小和頁數(shù)進行了限制，排除了超過50MB大或超過50頁的PDF文檔。這是因為這些文檔通常包含大量的圖像，可能會影響數(shù)據(jù)處理的效率和效果。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

ArXiv是全球著名提供物理、數(shù)學、計算機科學、AI等領(lǐng)域的專業(yè)論文網(wǎng)站，研究人員從這里提取了大量基于LaTeX源代碼的文檔，包含了論文的文本內(nèi)容、圖像、表格、參考文獻等所有元素。

在處理LaTeX源代碼時首先需要識別圖形標簽，這些標簽通常以\includegraphics的形式出現(xiàn)，指示了圖像在文檔中的位置。

通過分析這些標簽，研究人員能夠確定圖像在文本中的相對位置，并據(jù)此將圖像與文本內(nèi)容進行交錯，這對于保持文檔的原始結(jié)構(gòu)和閱讀順序至關(guān)重要。

斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集-AI.x社區(qū)

在獲取了經(jīng)過初步處理的PDF、HTML等數(shù)據(jù)后，研究人員對這些數(shù)據(jù)做了進一步處理。首先，使用Fasttext的語言識別模型排除了非英語文檔，以確保數(shù)據(jù)集的語言一致性。

其次，刪除了URL包含NSFW子字符串的文檔，以排除色情和不良內(nèi)容。還使用了RefinedWeb的文本過濾方法，移除了包含過多重復n-gram或被識別為低質(zhì)量的文檔。

在圖像過濾方面，團隊嘗試下載HTML數(shù)據(jù)集中的所有圖像URL，丟棄了任何無法檢索的鏈接，并移除了沒有有效圖像鏈接的文檔。為了提高圖像質(zhì)量，移除了小于150像素的圖像，以避免包含諸如徽標和圖標等噪聲圖像。

為了確保數(shù)據(jù)集的安全性和合規(guī)性，研究人員對所有圖像使用了NSFW圖像檢測器。如果發(fā)現(xiàn)文檔包含單個NSFW圖像，則丟棄整個文檔。同時對對文本數(shù)據(jù)中的電子郵件地址和IP地址等個人信息，進行了匿名化處理防止敏感數(shù)據(jù)泄露。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/b9OqedOwVpNMuvp2ViHedg??

標簽

數(shù)據(jù)

贊

收藏

回復

舉報

回復

相關(guān)推薦

港中文深圳提出ALLaVA-4V：百萬級別的開源多模態(tài)GPT-4V數(shù)據(jù)集

kcoufee ? 2252瀏覽 ? 0回復
斯坦福團隊新作：喊話就能指導機器人，任務(wù)成功率暴增，網(wǎng)友：特斯拉搞快點

Crystalcxt ? 2232瀏覽 ? 0回復
斯坦福學者推出專為Android移動設(shè)備打造的大模型，開源！

AIGC最前線 ? 2.5w瀏覽 ? 0回復
耶魯&斯坦福聯(lián)合發(fā)表，融合channel獨立/聯(lián)合建模提升多元時序預測效果

海因斯DK ? 4200瀏覽 ? 0回復
Llama3背后的秘密：HuggingFace發(fā)布萬億級數(shù)據(jù)集Fineweb

AIGC最前線 ? 7745瀏覽 ? 0回復
斯坦福團隊發(fā)現(xiàn)語言模型的新路徑為Q函數(shù)

xuxiangda ? 3189瀏覽 ? 0回復
哈佛MIT巡演繼續(xù)，斯坦福演講完整版公開

Crystalcxt ? 2256瀏覽 ? 0回復
開源15T tokens！HuggingFace放出規(guī)模最大、質(zhì)量最高預訓練數(shù)據(jù)集

duhorse ? 2788瀏覽 ? 0回復
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 2318瀏覽 ? 0回復
CVD：第一個生成具有相機控制的多視圖一致視頻方案?。?em>斯坦福&港中文）

angel ? 2543瀏覽 ? 0回復
思維鏈緩存-Buffer of Thoughts，北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

angel ? 4449瀏覽 ? 0回復
斯坦福學者提出Edu-ConvoKit：洞察課堂對話大數(shù)據(jù)！

AIGC最前線 ? 2095瀏覽 ? 0回復
斯坦福&MIT聯(lián)合發(fā)布WonderWorld：高質(zhì)量交互生成

angel ? 2612瀏覽 ? 0回復
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2436瀏覽 ? 0回復
開源大模型如何治理？斯坦福基礎(chǔ)模型研究中心給您支招

AIGC最前線 ? 2642瀏覽 ? 0回復
斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術(shù)，精準描繪3D/4D世界!

angel ? 1941瀏覽 ? 0回復
英偉達NVLM多模態(tài)大模型細節(jié)和數(shù)據(jù)集

大模型自然語言處理 ? 2234瀏覽 ? 0回復
斯坦福等開源代碼定位AI Agent，極大提升開發(fā)、維護效率

Aceryt ? 1222瀏覽 ? 0回復
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓練方法、訓練數(shù)據(jù)淺析

大模型自然語言處理 ? 1007瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦 6天前發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風險降50% 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇： Stability.ai開源3D模型，僅需0.5秒就能快速生成

下一篇：比OpenAI的Whisper快50%，最新開源語音模型

社區(qū)精華內(nèi)容

目錄

<abbr id="6ltbi"><tt id="6ltbi"></tt></abbr>

^{<sub id="6ltbi"></sub>}