1億組圖文對,填補中文開源多模態(tài)數(shù)據(jù)集空白
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
華為諾亞方舟實驗室開源了第一個億級中文多模態(tài)數(shù)據(jù)集:悟空。
這個新發(fā)布的數(shù)據(jù)集不僅規(guī)模大——包含1億組圖文對,而且質(zhì)量也很高。
所有圖像都是篩選過的,長寬都在200個像素以上,比例從1/3-3不等。
而和圖像對應(yīng)的文本也根據(jù)其語言、長度和頻率進(jìn)行了過濾,隱私和敏感詞也都考慮在內(nèi)。
例如這一組數(shù)據(jù)集中的例子,內(nèi)容還相當(dāng)新,像進(jìn)門掃碼登記,社區(qū)疫苗接種的防疫內(nèi)容都有。
這一波可以說是填上了大規(guī)模中文多模態(tài)數(shù)據(jù)集的缺口。
悟空數(shù)據(jù)集
自一年前OpenAI的CLIP+Dall·E組合開啟新一輪多模態(tài)學(xué)習(xí)浪潮以來,算上后續(xù)的ALIGN和FILIP,都在視覺語言預(yù)訓(xùn)練(VLP)領(lǐng)域表現(xiàn)優(yōu)異。
世界范圍內(nèi)的成功離不開大規(guī)模數(shù)據(jù)集的支持,但中文開源數(shù)據(jù)方面,有是有,規(guī)模大的不多。
有了“悟空”數(shù)據(jù)集之后,就可以支持更多預(yù)訓(xùn)練模型用于下游任務(wù)。
數(shù)據(jù)集之外,團(tuán)隊還附贈了一款基本模型,參考了流行的文本圖像雙編碼器架構(gòu):
其中視覺標(biāo)記和文本標(biāo)記作為輸入。然后,將兩種模式的輸入標(biāo)記連接起來,并用位置嵌入來顯示標(biāo)記位置。
有意思的一點是,這里的圖像編碼器是從英文數(shù)據(jù)集上訓(xùn)練的,上面預(yù)加載并鎖定了從外部模型中訓(xùn)練的英文數(shù)據(jù)集中的權(quán)重。
但是仍然可以中文文本進(jìn)行跨模態(tài)預(yù)訓(xùn)練,在下游任務(wù)中也表現(xiàn)得很好。
除此之外,華為諾亞還提供了不同下游任務(wù)的基準(zhǔn)測試。
例如零樣本圖像分類,下圖中除了WukongViT-500M,其他的悟空模型變體都是在這個一億的數(shù)據(jù)庫上訓(xùn)練的:
再比如在圖像檢索文本和文本檢索圖像這兩個任務(wù)上,在五個不同的數(shù)據(jù)集上的測試結(jié)果如下:
而這也證明了將在英語數(shù)據(jù)集上預(yù)訓(xùn)練的圖像編碼器應(yīng)用于中文多模態(tài)預(yù)訓(xùn)練的良好效果。未來也可能會探索更多的解決方案,利用悟空數(shù)據(jù)集訓(xùn)練多語言跨模態(tài)模型。
目前悟空數(shù)據(jù)集在官網(wǎng)即可下載(鏈接在文末),趕快用起來吧~
數(shù)據(jù)集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html
論文地址:
https://arxiv.org/abs/2202.06767