自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華為諾亞開(kāi)源首個(gè)億級(jí)中文多模態(tài)數(shù)據(jù)集,填補(bǔ)中文NLP社區(qū)空白

數(shù)據(jù)庫(kù) 開(kāi)源
華為諾亞方舟實(shí)驗(yàn)室的研究者提出了一個(gè)大規(guī)模的中文的跨模態(tài)數(shù)據(jù)庫(kù) ——「悟空」,并在此基礎(chǔ)上對(duì)不同的多模態(tài)預(yù)訓(xùn)練模型進(jìn)行基準(zhǔn)測(cè)試,有助于中文的視覺(jué)語(yǔ)言預(yù)訓(xùn)練算法開(kāi)發(fā)和發(fā)展。

在大數(shù)據(jù)上預(yù)訓(xùn)練大規(guī)模模型,對(duì)下游任務(wù)進(jìn)行微調(diào),已經(jīng)成為人工智能系統(tǒng)的新興范式。BERT 和 GPT 等模型在 NLP 社區(qū)中越來(lái)越受歡迎,因?yàn)樗鼈儗?duì)廣泛的下游任務(wù)甚至零樣本學(xué)習(xí)任務(wù)具有很高的可遷移性,從而產(chǎn)生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP 進(jìn)一步將這一范式擴(kuò)展到視覺(jué)語(yǔ)言聯(lián)合預(yù)訓(xùn)練 (VLP) 領(lǐng)域,并在各種下游任務(wù)上顯示出優(yōu)于 SOTA 方法的結(jié)果。這一有希望的方向引起了行業(yè)和研究人員的極大關(guān)注,將其視為通向下一代 AI 模型的途徑。

促成 VLP 模型成功的原因有兩個(gè)。一方面,更高級(jí)的模型架構(gòu)(如 ViT/BERT)和訓(xùn)練目標(biāo)(如對(duì)比學(xué)習(xí))通常能夠提升模型泛化能力和學(xué)得表示的穩(wěn)健性。另一方面,由于硬件和分布式訓(xùn)練框架的進(jìn)步,越來(lái)越多的數(shù)據(jù)可以輸入到大規(guī)模模型中,來(lái)提高模型的泛化性、可遷移性和零樣本能力。在視覺(jué)或者語(yǔ)言任務(wù)中,先在大規(guī)模數(shù)據(jù)(例如圖像分類中的 JFT-300M、T5 中的 C4 數(shù)據(jù)集)上預(yù)訓(xùn)練,之后再通過(guò)遷移學(xué)習(xí)或者 prompt 學(xué)習(xí)已被證明對(duì)提高下游任務(wù)性能非常有用。此外,最近的工作也已經(jīng)顯示了 VLP 模型在超過(guò) 1 億個(gè)來(lái)自網(wǎng)絡(luò)的有噪聲圖像 - 文本對(duì)上訓(xùn)練的潛力。

因此,在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的 VLP 模型的成功促使人們不斷地爬取和收集更大的圖文數(shù)據(jù)集。下表 1 顯示了 VLP 領(lǐng)域中許多流行的數(shù)據(jù)集的概述。諸如 Flickr30k、SBU Captions 和 CC12M 等公開(kāi)可用的視覺(jué)語(yǔ)言(英語(yǔ))數(shù)據(jù)集的樣本規(guī)模相對(duì)較?。ù蠹s 1000 萬(wàn)),而規(guī)模更大的是像 LAION-400M 的數(shù)據(jù)集。但是,直接使用英文數(shù)據(jù)集來(lái)訓(xùn)練模型會(huì)導(dǎo)致中文翻譯任務(wù)的性能大幅下降。比如,大量特定的中文成語(yǔ)和俚語(yǔ)是英文翻譯無(wú)法覆蓋的,而機(jī)器翻譯往往在這些方面會(huì)帶來(lái)錯(cuò)誤,進(jìn)而影響任務(wù)執(zhí)行。

目前,社區(qū)缺乏大規(guī)模公開(kāi)可用的中文數(shù)據(jù)集,不僅導(dǎo)致社區(qū)發(fā)展受阻,而且每項(xiàng)工作都使用一個(gè)私密的大型數(shù)據(jù)集來(lái)實(shí)現(xiàn),達(dá)到一個(gè)其它工作無(wú)法公平比較的驚人性能。

為了彌補(bǔ)這一差距,華為諾亞方舟實(shí)驗(yàn)室的研究者發(fā)布了一個(gè)名為「悟空」的大型中文跨模態(tài)數(shù)據(jù)集,其中包含來(lái)自網(wǎng)絡(luò)的 1 億個(gè)圖文對(duì)。為了保證多樣性和泛化性,悟空數(shù)據(jù)集是根據(jù)一個(gè)包含 20 萬(wàn)個(gè)高頻中文單詞列表收集的。本文還采用基于圖像和基于文本的過(guò)濾策略來(lái)進(jìn)一步完善悟空數(shù)據(jù)集,使其成為了迄今為止最大的中文視覺(jué)語(yǔ)言跨模態(tài)數(shù)據(jù)集。研究者分析了該數(shù)據(jù)集,并表明它涵蓋了廣泛的視覺(jué)和文本概念。

  • 論文地址:https://arxiv.org/pdf/2202.06767.pdf
  • 數(shù)據(jù)集地址:https://wukong-dataset.github.io/wukong-dataset/benchmark.html

研究者還進(jìn)一步發(fā)布了一組使用不同架構(gòu)(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)大型預(yù)訓(xùn)練模型。本文的主要貢獻(xiàn)如下:

  • 發(fā)布了具有 1 億個(gè)圖文對(duì)的大規(guī)模視覺(jué)和中文語(yǔ)言預(yù)訓(xùn)練數(shù)據(jù)集,涵蓋了更全面的視覺(jué)概念;
  • 發(fā)布了一組使用各種流行架構(gòu)和方法預(yù)訓(xùn)練好的大規(guī)模視覺(jué) - 語(yǔ)言模型,并提供針對(duì)已發(fā)布模型的全面基準(zhǔn)測(cè)試;
  • 發(fā)布的預(yù)訓(xùn)練模型在數(shù)個(gè)中文基準(zhǔn)測(cè)試任務(wù),例如由 17 個(gè)數(shù)據(jù)集組成的零樣本圖像分類任務(wù)和由 5 個(gè)數(shù)據(jù)集組成的圖像文本檢索任務(wù),表現(xiàn)出了最優(yōu)性能。

「悟空」數(shù)據(jù)集

研究者構(gòu)建了一個(gè)名為悟空的新數(shù)據(jù)集,該數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的 1 億個(gè)圖文對(duì)。為了涵蓋足夠多樣的視覺(jué)概念,悟空數(shù)據(jù)集是由包含 20 萬(wàn)個(gè)詞條的查詢列表里收集的。這個(gè)基礎(chǔ)查詢列表取自 Yan Song 等人的論文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根據(jù)華為的海量新聞文本語(yǔ)料庫(kù)中出現(xiàn)的中文單詞和短語(yǔ)的頻率進(jìn)行過(guò)濾后所得。

查詢列表建好后,研究者在百度圖片搜索每個(gè)查詢,以獲取圖片 URL 列表和相應(yīng)的標(biāo)題信息。為了保持不同查詢結(jié)果間的平衡,他們每個(gè)查詢最多搜索 1000 個(gè)樣本。然后使用先前獲得的圖像 URL 下載圖像,最終共收集了 1.66 億個(gè)圖文對(duì)。然后按照慣例,研究者通過(guò)下文的一系列過(guò)濾策略來(lái)構(gòu)建最終的悟空數(shù)據(jù)集。下圖 2 顯示了悟空數(shù)據(jù)集中的一些樣本。

基于圖像的過(guò)濾

研究者首先根據(jù)圖像的大小和長(zhǎng)寬比對(duì)數(shù)據(jù)進(jìn)行過(guò)濾。只保留長(zhǎng)或?qū)挸^(guò) 200 像素且長(zhǎng)寬比不超過(guò) 3 的圖像。這種方式過(guò)濾掉了太小、太高或太寬的圖像,因?yàn)檫@些圖像在預(yù)訓(xùn)練期間經(jīng)過(guò)上采樣和方形裁剪等圖像增強(qiáng)手段后,可能變成低分辨率。

基于文本的過(guò)濾

其次,為了使選擇的樣本具有對(duì)應(yīng)圖像的高質(zhì)量中文描述,研究者根據(jù)圖像所附文本的語(yǔ)言、長(zhǎng)度和頻率對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步過(guò)濾。具體來(lái)說(shuō),他們首先檢查了語(yǔ)言和長(zhǎng)度,保留了包含至少一個(gè)但少于 32 個(gè)漢字的句子。同時(shí)還會(huì)丟棄無(wú)意義的圖像描述,例如「000.jpg」。之后,與太多圖片配對(duì)的文字通常與圖片內(nèi)容無(wú)關(guān),例如「查看源網(wǎng)頁(yè)」(View source page)、「展開(kāi)全文」(Expand text)、「攝影部落」(Photography community)。實(shí)際中,研究者將此閾值設(shè)置為 10,即丟棄掉在收集的整個(gè)語(yǔ)料庫(kù)中出現(xiàn)超過(guò) 10 次的圖文對(duì)。

為了保護(hù)文本中出現(xiàn)的個(gè)人隱私,研究者將人名替換為特殊標(biāo)記「< 人名 >」,此外,他們還構(gòu)建了一個(gè)中文敏感詞列表,包含敏感詞的圖文對(duì)也被丟棄。

應(yīng)用上述過(guò)濾策略后,研究者最終得到一個(gè)約 1 億對(duì)的數(shù)據(jù)集。下表 2 顯示了數(shù)據(jù)集的統(tǒng)計(jì)量:數(shù)據(jù)集文本中有 20,442 個(gè)唯一 token,每個(gè)描述中的平均 token 數(shù)為 22。

在下圖 3 中,研究者可視化了數(shù)據(jù)集中單詞(由一個(gè)或多個(gè) token 組成)的分布。然后,他們使用中文文本分詞工具 Jieba 來(lái)截取單詞并構(gòu)建數(shù)據(jù)集的詞云。

方法架構(gòu)

文本 - 圖像聯(lián)合對(duì)齊

與最近經(jīng)過(guò)充分驗(yàn)證的方法類似,研究者采用了對(duì)比預(yù)訓(xùn)練架構(gòu),如下圖 1 所示。他們使用一個(gè)帶有基于 Transformer 的文本和圖像編碼器的雙流模型。這兩個(gè)編碼器將文本和視覺(jué)輸入 token 轉(zhuǎn)換為相同維度的嵌入。在這個(gè)學(xué)習(xí)到的聯(lián)合嵌入空間中,研究者使用對(duì)比損失來(lái)鼓勵(lì)成對(duì)的圖像和文本具有相似的嵌入,而不成對(duì)的具有不同的嵌入。

模型架構(gòu)

由于視覺(jué)和文本模態(tài)的編碼器是解耦的,因此可以為這兩種模態(tài)探索不同的編碼器架構(gòu)。研究者試驗(yàn)了三種視覺(jué)編碼器變體(即 ResNet、Vision Transformer 和 Swin Transformer)以及一個(gè)單一的類 BERT 文本編碼器來(lái)訓(xùn)練中文 VLP 模型。

預(yù)訓(xùn)練目標(biāo)

跨模態(tài)對(duì)比學(xué)習(xí)是一種從成對(duì)的圖像 - 文本數(shù)據(jù)中訓(xùn)練模型的特別有效的方法,它可以通過(guò)區(qū)分成對(duì)和不成對(duì)的樣本同時(shí)學(xué)習(xí)兩種模態(tài)的表示。研究者遵循 FILIP(Yao 等人,2022)中的公式標(biāo)記,使用

去定義圖像樣本集合,同時(shí)

代表文本數(shù)據(jù)。給定一個(gè)圖像樣本

和一個(gè)文本樣本

,該模型的目標(biāo)是讓聯(lián)合多模態(tài)空間中的配對(duì)的圖像和文本表示接近,不配對(duì)的則遠(yuǎn)離。

在這項(xiàng)工作中,研究者探索了兩種衡量圖像和文本之間相似度的方法。圖像和文本的學(xué)得表示分別標(biāo)記為

。這里,n_1 和 n_2 是每個(gè)圖片和文本中的(未填充的)詞 token 的數(shù)量。

LiT-tuning

研究者受到了最近提出的一種微調(diào)范式 LiT-tuning(Locked-image Text tuning)的啟發(fā),該范式表明權(quán)重固定的圖像編碼器和可學(xué)習(xí)的文本編碼器在 VLP 模型中效果最好。他們?cè)趯?duì)比學(xué)習(xí)設(shè)置中也采用了同樣的方式,即只更新文本編碼器的權(quán)重,而不更新圖像編碼器的權(quán)重。

具體而言,研究者采用的 LiT-tuning 方法旨在教一個(gè)中文的文本編碼器從一個(gè)現(xiàn)有的圖像編碼器中讀取合適的表示,該圖像編碼器是在英文數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)。他們還為每個(gè)編碼器添加了一個(gè)可選的可學(xué)習(xí)線性變換層,它將兩種模式的表示映射到相同的維度。LiT-tuning 之所以效果很好,是因?yàn)樗怦盍擞糜趯W(xué)習(xí)圖像特征和視覺(jué)語(yǔ)言對(duì)齊的數(shù)據(jù)源和技術(shù)(Zhai 等人,2021b)。并且,圖像描述器事先使用相對(duì)干凈或(半)手動(dòng)標(biāo)記的圖像進(jìn)行了良好的預(yù)訓(xùn)練。

研究者將這一想法擴(kuò)展到多語(yǔ)言數(shù)據(jù)源,并嘗試將在英文數(shù)據(jù)源上預(yù)訓(xùn)練的固定了的圖像編碼器和可訓(xùn)練的中文文本編碼器對(duì)齊。此外,LiT-tuning 方法顯著加快了訓(xùn)練過(guò)程并減少了內(nèi)存需求,因?yàn)樗恍枰獮橐曈X(jué)編碼器計(jì)算梯度。

實(shí)驗(yàn)結(jié)果

下表 3 描述了模型參數(shù)和視頻編碼器的細(xì)節(jié)。

零樣本圖像分類。研究者在 17 個(gè)零樣本圖像分類任務(wù)上評(píng)估預(yù)訓(xùn)練模型。零樣本圖像分類的結(jié)果如下表 5 所示。他們比較了使用不同視覺(jué)編碼器的多個(gè) LiT -tuning 模型,即從 CLIP 或 Swin Transformer 加載現(xiàn)有的視覺(jué)編碼器并在訓(xùn)練階段固定它們的權(quán)重。結(jié)果發(fā)現(xiàn),使用 token 水平的相似度比使用全局相似度會(huì)帶來(lái)更顯著的改進(jìn)。

圖文檢索任務(wù)。研究者在兩個(gè)子任務(wù),即以圖搜文和以文搜圖上做了評(píng)估。下表 6 和表 7 分別顯示了零樣本設(shè)定和可以微調(diào)的圖文檢索的結(jié)果。對(duì)于零樣本設(shè)置,相比其它模型,Wukong_ViT 在 4 個(gè)數(shù)據(jù)集中的 3 個(gè)上取得了最好的結(jié)果,而 Wukong_ViT-500M 在更大的 MUGE 數(shù)據(jù)集上取得了最好的結(jié)果。對(duì)于微調(diào)設(shè)置,Wukong_ViT-500M 則在除 AIC-ICC 之外的所有數(shù)據(jù)集上都取得了最好的結(jié)果,其中 Wukong_ViT 效果最好。

詞匯 - 圖塊對(duì)齊的可視化。研究者使用預(yù)訓(xùn)練模型 Wukong_ViT 和 Wukong_Swin 進(jìn) 行可視化。如圖 4 所示,其中可視化來(lái)自中文的 ImageNet 的六個(gè)標(biāo)簽(即豆娘、救生艇、蜂鳥(niǎo)、平板手機(jī)、教堂和電風(fēng)扇)的圖像。然后應(yīng)用與 FILIP(Yao 等人,2022)相同的可視化方法來(lái)對(duì)齊文本和圖塊 token。

從下圖 4 中,研究者發(fā)現(xiàn)兩種模型都能夠預(yù)測(cè)目標(biāo)物體的圖像塊。對(duì)于具有更多圖像塊的 Wukong_ViT,這種詞匯 - 圖塊對(duì)齊比 Wukong_Swin 更加細(xì)粒度。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2022-02-16 13:46:00

模型數(shù)據(jù)開(kāi)源

2024-11-13 15:00:00

模型數(shù)據(jù)

2020-07-06 10:59:00

智慧城市大數(shù)據(jù)人工智能

2024-07-29 08:52:00

模型數(shù)據(jù)

2011-03-21 14:48:20

魂芯一號(hào)

2023-08-30 08:30:03

2022-08-05 08:48:16

員工技能數(shù)據(jù)

2024-12-18 18:57:58

2022-07-17 13:07:26

模型開(kāi)源

2023-03-30 15:54:50

開(kāi)源安全

2023-08-04 13:22:46

AI開(kāi)源

2015-07-17 11:00:30

DCIMBMS數(shù)據(jù)中心

2020-03-02 11:50:05

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-04-27 09:33:01

EasyNLP開(kāi)源框架

2023-04-05 19:33:14

文心一言ChatGPT人工智能

2024-01-29 07:15:00

模型數(shù)據(jù)

2023-05-15 15:08:34

2023-05-15 12:14:02

ChatGPT語(yǔ)音模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)