自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="c0kct"></ruby>

<center id="c0kct"></center>

<cite id="c0kct"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

萬億token！史上最大多模態(tài)數(shù)據(jù)集誕生

作者：機(jī)器之心 2024-07-29 08:52:00

人工智能新聞

近日，華盛頓大學(xué)、Salesforce Research 和斯坦福大學(xué)等機(jī)構(gòu)的聯(lián)合團(tuán)隊(duì)填補(bǔ)了這一空白，構(gòu)建了一個(gè)萬億 token 級(jí)的交織多模態(tài)的開源數(shù)據(jù)集 MINT-1T（Multimodal INTerleaved）。

值此 Llama 3.1 占領(lǐng)各大頭條之際，又突然冒出了另一個(gè)也非常重要的發(fā)布 —— 一個(gè)規(guī)?？涨暗拈_源多模態(tài)數(shù)據(jù)集。

對(duì)大模型來說，數(shù)據(jù)集的重要性無需多言，甚至可以說沒有大型數(shù)據(jù)集就不可能有大模型?，F(xiàn)在正是多模態(tài)大模型（LMM）發(fā)展正盛的時(shí)候，規(guī)模足夠大的優(yōu)質(zhì)且開源的多模態(tài)數(shù)據(jù)集已經(jīng)成為該領(lǐng)域的一大「剛需」。

不過，相比于開源的文本數(shù)據(jù)集，現(xiàn)有的開源多模態(tài)數(shù)據(jù)集都比較小、多樣性也不足，并且來源基本都是 HTML 文檔 —— 這就限制了數(shù)據(jù)的廣度和多樣性。這無疑限制了開源 LMM 的發(fā)展，讓開源 LMM 與閉源 LMM 之間的差異變得非常大。

近日，華盛頓大學(xué)、Salesforce Research 和斯坦福大學(xué)等機(jī)構(gòu)的聯(lián)合團(tuán)隊(duì)填補(bǔ)了這一空白，構(gòu)建了一個(gè)萬億 token 級(jí)的交織多模態(tài)的開源數(shù)據(jù)集 MINT-1T（Multimodal INTerleaved）。毫無疑問，這是目前最大的開源多模態(tài)數(shù)據(jù)集。

數(shù)據(jù)集地址：https://github.com/mlfoundations/MINT-1T
論文地址：https://arxiv.org/abs/2406.11271
論文標(biāo)題：MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一萬億文本 token 和三十億張圖像，并且其有 HTML/PDF/ArXiv 等多種不同來源。在 MINT-1T 問世之前，該領(lǐng)域最大的開源數(shù)據(jù)集是 OBELICS，其包含 1150 億文本 token 和 3.53 億張圖像，并且來源只有 HTML。圖 1 比較了這些數(shù)據(jù)集。

數(shù)據(jù)集的構(gòu)建

首先，該團(tuán)隊(duì)從多樣化的來源（包括 HTML、PDF、ArXiv）收集了大量多模態(tài)數(shù)據(jù)，圖 2 展示了這些不同來源的多模態(tài)文檔樣本。

然后，為了提高數(shù)據(jù)質(zhì)量和安全性，他們執(zhí)行了文本質(zhì)量過濾、圖像過濾、安全過濾（包括去除 NSFW 圖像和可識(shí)別個(gè)人身份的信息）以及去重。圖 3 簡(jiǎn)要展示了這些數(shù)據(jù)過濾過程。

最終，他們得到的 MINT-1T 數(shù)據(jù)集包含 9220 億 HTML token、1060 億 PDF token 和 90 億 ArXiv token。值得注意的是，整個(gè)數(shù)據(jù)處理過程耗費(fèi)了大約 420 萬 CPU 小時(shí)數(shù)。表 1 對(duì)比了一些常見的開源或閉源多模態(tài)數(shù)據(jù)集。

模型實(shí)驗(yàn)

該團(tuán)隊(duì)也實(shí)驗(yàn)了使用該數(shù)據(jù)集訓(xùn)練多模態(tài)模型的效果，并與其它數(shù)據(jù)集進(jìn)行了比較。

他們使用的模型架構(gòu)是 Salesforce 的 XGen-MM，評(píng)估的則是模型在數(shù)據(jù)集上學(xué)習(xí)之后的上下文學(xué)習(xí)和多圖像推理能力。評(píng)估基準(zhǔn)包括：視覺描述基準(zhǔn)（COCO 和 TextCaps）、視覺問答基準(zhǔn)（VQAv2、OK-VQA、TextVQA 和 VizWiz）、多圖像推理基準(zhǔn)（MMMU 和 Mantis-Eval）。

實(shí)驗(yàn)結(jié)果

在 HTML 文檔上訓(xùn)練

該團(tuán)隊(duì)首先對(duì)比了 MINT-1T 的 HTML 部分與 OBELICS；因?yàn)?OBELICS 是之前領(lǐng)先的多模態(tài)數(shù)據(jù)集并且也是基于 HTML 文檔，他們基于這兩個(gè)數(shù)據(jù)集分別用 100 億多模態(tài) token 訓(xùn)練了兩個(gè)模型，并評(píng)估了它們的上下文學(xué)習(xí)性能。

表 2 給出了在常見基準(zhǔn)上的 4-shot 和 8-shot 性能。

可以看到，對(duì)于 VQA（視覺問答）任務(wù)，在 MINT-1T HTML 文檔上訓(xùn)練的模型表現(xiàn)優(yōu)于在 OBELICS 訓(xùn)練的模型，但前者在視覺描述任務(wù)上表現(xiàn)更差一些。平均而言，OBELICS 比 MINT-1T (HTML) 略好一點(diǎn)。

添加 PDF 和 ArXiv 文檔

之后，該團(tuán)隊(duì)又在 MINT-1T 全數(shù)據(jù)集上進(jìn)行了測(cè)試，即同時(shí)包含 HTML、PDF 和 ArXiv 文檔。他們通常采樣了 100 億多模態(tài) token，其中 50% 來自 HTML、45% 來自 PDF、5% 來自 ArXiv。

結(jié)果同樣見表 2，可以看到在 MINT-1T 混合數(shù)據(jù)上訓(xùn)練的模型在大多數(shù)基準(zhǔn)上都優(yōu)于在 OBELICS 和 MINT-1T (HTML) 上訓(xùn)練的模型。

而在更為復(fù)雜的多模態(tài)推理任務(wù)上，如表 3 所示，用 MINT-1T 訓(xùn)練的模型在 MMMU 上優(yōu)于用 OBELICS 訓(xùn)練的模型，但在 Mantis-Eval 基準(zhǔn)上不及后者。

更細(xì)粒度的測(cè)試和模型架構(gòu)的影響請(qǐng)參考原論文。

這個(gè)超大規(guī)模的開源多模態(tài)數(shù)據(jù)集能否成為一系列傳奇的起點(diǎn)，最終造就一個(gè)類似 Llama 系列模型那樣的多模態(tài)大模型系列呢？讓我們拭目以待吧。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<var id="czcs1"><rp id="czcs1"></rp></var>

<sup id="czcs1"></sup>