自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Ilya錯(cuò)了?Scaling另有他用,ViT大佬力挺谷歌1000億數(shù)據(jù)新發(fā)現(xiàn)

人工智能 新聞
谷歌發(fā)布了1000億文本-圖像對數(shù)據(jù)集,是此前類似數(shù)據(jù)集的10倍,創(chuàng)下新紀(jì)錄!基于新數(shù)據(jù)集,發(fā)現(xiàn)預(yù)訓(xùn)練Scaling ?Law,雖然對模型性能提升不明顯,但對于小語種等其他指標(biāo)提升明顯。讓ViT大佬翟曉華直呼新發(fā)現(xiàn)讓人興奮!

預(yù)訓(xùn)練Scaling  Law到盡頭了?

ViT大佬翟曉華(Xiaohua Zhai)并不這樣認(rèn)為,至少在多模態(tài)模型上并非如此。

他公布了最新的關(guān)于多模態(tài)Scaling的最新見解,而訓(xùn)練數(shù)據(jù)達(dá)到了1000億的規(guī)模!

圖片

什么長尾任務(wù)的新發(fā)現(xiàn)讓他興奮?

一句話就是,Illya所說的「Scaling Law」即將終結(jié),不太對。

新研究通過實(shí)驗(yàn)表明,1000億數(shù)據(jù)規(guī)模對已有基準(zhǔn)測試提升可能非常小,但顯著影響了一些「非主流」的小眾探索領(lǐng)域。

讓大牛翟曉華眼前一亮點(diǎn)是:泰盧固語(Telugu)表現(xiàn)顯著提升,即使僅占數(shù)據(jù)集的0.036%!

圖片

數(shù)據(jù)集中語言的長尾分布:左二表示泰盧固語的比例

圖1總結(jié)了通過數(shù)據(jù)擴(kuò)展實(shí)現(xiàn)的文化多樣性和多語言性的提升。

圖片

圖1:數(shù)據(jù)擴(kuò)展所實(shí)現(xiàn)的文化多樣性和多語言性的提升

左圖顯示了將數(shù)據(jù)規(guī)模從100億擴(kuò)展到1000億訓(xùn)練數(shù)據(jù),在文化多樣性和多語言能力方面的提升比其他指標(biāo)更加顯著。

右圖給出了數(shù)據(jù)規(guī)模影響的示例說明。最左邊的兩個(gè)是以為西方中心的指標(biāo),擴(kuò)展數(shù)據(jù)到1000億時(shí),收益不大;而最右邊的兩個(gè)則展示了文化多樣性和多語言能力的提升。

這讓OpenAI的工程師Lucas  Beyer不禁發(fā)帖質(zhì)疑下列流傳甚廣的觀點(diǎn):

預(yù)訓(xùn)練scaling結(jié)束了


10-40億圖片足夠了

他認(rèn)為這類觀點(diǎn)都是些縹緲的「神話」,而此類論斷之所以甚囂塵上,是因?yàn)楹鲆暳讼铝刑嵝眩?/span>

-你一葉障目,目光短淺


-不要只盯著美國可疑的評估指標(biāo)


-拓展到1000億預(yù)訓(xùn)練圖片,會極大促進(jìn)模型的文化和語言包容性

2023年,還在谷歌的Lucas Beyer見到實(shí)驗(yàn)結(jié)果時(shí),就燃起了對泰盧固語的興趣:

圖片

新研究的主要貢獻(xiàn)如下:

1. 數(shù)據(jù)規(guī)模對于構(gòu)建真正包容的多模態(tài)系統(tǒng)至關(guān)重要。

2. 質(zhì)量過濾器(例如基于CLIP的過濾器)雖然通常用于提高整體數(shù)據(jù)質(zhì)量,但可能會不經(jīng)意限制數(shù)據(jù)集的多樣性。

3. 發(fā)布了史無前例的1000億視覺-語言數(shù)據(jù)集,并實(shí)證研究了數(shù)據(jù)集的潛力。

圖片

論文鏈接:https://arxiv.org/abs/2502.07617

Scaling  Law的信仰:數(shù)據(jù)規(guī)模x10

視覺-語言模型(VLMs)的進(jìn)展,與大規(guī)模數(shù)據(jù)集的可用性密切相關(guān)。

在過去,模型的發(fā)展,就是「大力出奇跡」:數(shù)據(jù)規(guī)模越大,模型誤差越小,性能越高。

數(shù)據(jù)規(guī)模與模型性能之間的關(guān)系通常遵循冪律:

??(??) = ?????? + ??,

其中??(??)是模型性能指標(biāo)如誤差率,??是數(shù)據(jù)規(guī)模。

這就是「縮放定律」(Scaling Law)。

重要的是,冪律表明,增加訓(xùn)練數(shù)據(jù)的量雖然會導(dǎo)致準(zhǔn)確性和性能的收益逐漸遞減,但依然能夠帶來物超所值的提升。

在Scaling Law信念的引領(lǐng)下,擴(kuò)大數(shù)據(jù)集規(guī)模是視覺-語言(vision-language)的領(lǐng)域重點(diǎn):

  1. 早期的數(shù)據(jù)集如Conceptual Captions,提供了數(shù)百萬對圖像-描述對用于預(yù)訓(xùn)練。
  2. 利用大規(guī)模網(wǎng)絡(luò)爬蟲技術(shù)Common Crawl項(xiàng)目,將數(shù)據(jù)集規(guī)模推向了數(shù)十億對圖像-文本對,從而加速了視覺-語言模型(VLMs)的進(jìn)展。
  3. 截至文章發(fā)表時(shí),報(bào)告的最大圖像-文本對數(shù)據(jù)集已經(jīng)停留在約100億的規(guī)模上。
  4. 新的數(shù)據(jù)集WebLI100B包含1000億圖像-文本對,數(shù)據(jù)量增長了10倍。

圖片

項(xiàng)目鏈接:https://commoncrawl.org/

這類似于圖像識別領(lǐng)域的情形, 比如數(shù)據(jù)集ImageNet加速了監(jiān)督圖像預(yù)訓(xùn)練的進(jìn)展。

這引出了問題:將數(shù)據(jù)規(guī)模提高10倍,達(dá)到1000億這個(gè)規(guī)模,能解鎖哪些進(jìn)一步的好處?

比如說:對人而言「讀萬卷書,行萬里路」「見多識廣」,對AI模型這些話也成立嗎?

實(shí)驗(yàn)設(shè)置

訓(xùn)練數(shù)據(jù)

為了評估視覺-語言模型在大規(guī)模圖像-文本數(shù)據(jù)上的表現(xiàn),新研究構(gòu)建了一個(gè)包含1000億對圖像-文本的數(shù)據(jù)集,稱為WebLI-100B。

從1000億數(shù)據(jù)集中分別隨機(jī)抽取1%和10%的樣本,創(chuàng)建了分別代表1億和10億樣本的子集,分別稱為WebLI-1B和WebLI-10B。

在此研究中,僅應(yīng)用了必要的數(shù)據(jù)過濾,如去除有害圖像和個(gè)人身份信息。這種方法確保數(shù)據(jù)集保持盡可能多語言和多樣化。使用與每張圖像關(guān)聯(lián)的alt文本和頁面標(biāo)題作為配對文本。

為了確保公平評估,從數(shù)據(jù)集中去除了90多個(gè)常見視覺-語言任務(wù)中的近重復(fù)圖像。

為了研究數(shù)據(jù)擴(kuò)展對質(zhì)量過濾數(shù)據(jù)的影響,采用常見方法,使用 CLIP-L/14 模型作為過濾器,保留一個(gè)包含50億對圖像和英文替代文本的高質(zhì)量數(shù)據(jù)集。

圖片

論文鏈接:https://arxiv.org/abs/2103.00020

為了進(jìn)一步鞏固研究結(jié)果,研究人員在網(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練了一個(gè)VLM,用于對齊或不對齊圖像-文本對分類,并調(diào)整其閾值,以重新訓(xùn)練另一個(gè)大小相同的過濾數(shù)據(jù)集。

對比視覺-語言預(yù)訓(xùn)練

為了研究數(shù)據(jù)規(guī)模對模型性能的影響,使用三種不同的數(shù)據(jù)集大?。?0億、100億和1000億)訓(xùn)練了SigLIP模型,見表2中1B,10B, 100B對應(yīng)的數(shù)據(jù)列。

還通過使用ViT-B/16、ViT-L/16和ViT-H/14架構(gòu)來調(diào)整模型大小,分別用于圖像和文本編碼器,見表2中B、L以及H對應(yīng)的數(shù)據(jù)行。

在大型、嘈雜的網(wǎng)絡(luò)數(shù)據(jù)集上,對比學(xué)習(xí)已成為獲取強(qiáng)大視覺表示的主導(dǎo)方法,這種弱監(jiān)督范式超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)方法。

這里采用SigLIP對比學(xué)習(xí)方法。

與標(biāo)準(zhǔn)的對比學(xué)習(xí)方法不同,Sigmoid損失僅在圖像-文本對上操作。

同時(shí)允許批量大小的進(jìn)一步擴(kuò)展,而且在批量較小時(shí)也表現(xiàn)得更好。

圖片

論文鏈接:https://arxiv.org/abs/2303.15343

在對比訓(xùn)練過程中,其他設(shè)置如下:

批量大?。?2K;

學(xué)習(xí)率:逆平方根調(diào)度;

預(yù)熱和冷卻階段數(shù)據(jù)量:2億;

學(xué)習(xí)率:0.001

權(quán)重衰減:0.0001。

在預(yù)處理階段,圖像被調(diào)整為224x224像素的分辨率,文本則使用多語言mt5分詞器進(jìn)行分詞,最大序列長度為64個(gè)tokens。

所有模型的訓(xùn)練最大示例數(shù)為1000億。

在多個(gè)訓(xùn)練步驟后冷卻模型,并評估它們在冷卻后的表現(xiàn)。所有模型在計(jì)算資源匹配的條件下進(jìn)行比較。

通過這種方法,能夠評估不同數(shù)據(jù)規(guī)模和模型規(guī)模對SigLIP模型性能的影響,并探討如何根據(jù)數(shù)據(jù)規(guī)模調(diào)整訓(xùn)練過程以實(shí)現(xiàn)最優(yōu)的性能。

測試結(jié)果

流行的基準(zhǔn)測試結(jié)果

第一組評估使用了多樣且廣泛認(rèn)可的基準(zhǔn)測試,主要從上到下分為3類任務(wù):

  1. 表2頂部表示零樣本分類(zero-shot classification部分),使用ImageNet、CIFAR-100和Oxford-IIIT Pet數(shù)據(jù)集。
  2. 表2中間部分表示零樣本檢索(retirval@1部分),使用COCO Captions和Flickr30k數(shù)據(jù)集,包括圖像到文本檢索和文本到圖像檢索。
  3. 表2底部表示10-shot評估(10-shot部分),使用了Caltech-UCSD Birds、Caltech 101、Cars196、Colorectal Histology和Describable Textures Dataset (DTD)基準(zhǔn)測試來評估視覺模型的表示能力。

如表2所示,將數(shù)據(jù)集的規(guī)模從100億增加到1000億個(gè)樣本并未顯著提升性能,通過Wilcoxon符號秩檢驗(yàn),該檢驗(yàn)的??值為0.9,表明差異不具有統(tǒng)計(jì)顯著性。

此外,針對模型和數(shù)據(jù)集的不同組合,擬合了數(shù)據(jù)Scaling Law,從而評估在無限計(jì)算資源的情況下,性能差距是否會增加或減少。在表2中報(bào)告了結(jié)果中的擴(kuò)展指數(shù)和漸近性能極限。同樣,在95%的置信水平下,沒有觀察到顯著差異(??值為0.09)。

下圖中,帶下劃線表示結(jié)果較差,而加粗的表示評估結(jié)果較好,可以看到1000億(下圖100B)的訓(xùn)練數(shù)據(jù)并不總會帶來最佳結(jié)果,而且普遍提升的效果有限。

圖片

表2:從10B到100B的訓(xùn)練樣本擴(kuò)展,收益有限。

在ImageNet和CoCo檢索中出現(xiàn)了收益遞減現(xiàn)象,與縮放定律保持一致。

但這些基準(zhǔn)測試的評估,主要反映的是西方(特別是英語國家)的語言文化。

文化多樣性測評結(jié)果

近期的研究表明,為了提升視覺-語言模型性能而采用的流行技術(shù),如基于英語語言的篩選,可能會無意中削弱文化理解。因此,研究人員這次也對文化多樣性進(jìn)行了評估,這些評估分為兩類:

第一類:地理定位,涉及通過少量樣本分類預(yù)測圖像的來源國或地區(qū)。

第二類:在從不同地理區(qū)域策劃的數(shù)據(jù)集上進(jìn)行zero-shot分類,包括Dollar Street、GeoDE和Google Landmarks Dataset v2 (GLDv2)。

其中Dollar Street包含來自63個(gè)國家的38K張家庭物品圖像。GeoDE包含來自不同地理位置的62K張手動標(biāo)注圖像。最后,GLDv2包含來自84個(gè)國家的1,542張圖像,代表884個(gè)地標(biāo),用于評估模型在識別具有文化重要性的地點(diǎn)方面的表現(xiàn)。

與以西方為導(dǎo)向的測試標(biāo)準(zhǔn)不同,文化多樣性呈現(xiàn)出完全不同的結(jié)果。

新研究發(fā)現(xiàn),當(dāng)數(shù)據(jù)集的規(guī)模從100億擴(kuò)展到1000億時(shí),文化多樣性任務(wù)的表現(xiàn)有顯著提升。

如表3所示,將訓(xùn)練數(shù)據(jù)從100億擴(kuò)展到1000億個(gè)樣本,在Dollar Street的10-shot分類任務(wù)中,ViT-L和ViT-H的絕對提升分別為5.8%和5.4%,遠(yuǎn)超在以西方為導(dǎo)向的10-shot度量標(biāo)準(zhǔn)上通常觀察到的不到1%的改善。

使用Wilcoxon符號秩檢驗(yàn),得到??值為0.002,表明在99%的置信水平下,這一差異具有統(tǒng)計(jì)學(xué)顯著性。

圖片

表3 | 文化多樣性基準(zhǔn)的評估和擴(kuò)展規(guī)律,其中從100億到1000億個(gè)樣本的擴(kuò)展顯示出更大的優(yōu)勢。

多語言性

使用Crossmodal-3600數(shù)據(jù)評估模型的多語言能力,該數(shù)據(jù)集包含來自36種語言的3600張具有人工生成標(biāo)題的地理多樣化圖像。

下圖3展示了性能提升的差異:低資源語言在1000億規(guī)模下比高資源語言受益更多。這種差異不論模型參數(shù)規(guī)模大小都存在,而且隨著模型規(guī)模的增大,差距逐漸加大。

圖片

每種語言的詳細(xì)結(jié)果,可以參考下表8。

圖片

實(shí)驗(yàn)分析

質(zhì)量過濾器的影響

盡管這些過濾器在傳統(tǒng)任務(wù)中通常有益,但它們通過減少某些文化背景的表現(xiàn),可能會對數(shù)據(jù)多樣性產(chǎn)生負(fù)面影響。

原始網(wǎng)絡(luò)數(shù)據(jù)通常噪聲過大,難以有效訓(xùn)練視覺-語言模型。為了解決這一問題,常見的一種策略是使用數(shù)據(jù)過濾模型,去除不太相關(guān)的圖像-文本對。

在新研究中,在下列三個(gè)數(shù)據(jù)集上訓(xùn)練了ViT-L模型:

  1. 利用CLIP-L/14模型對原始數(shù)據(jù)進(jìn)行過濾,并重新訓(xùn)練了50億個(gè)高質(zhì)量的英文圖像-文本對。
  2. 為了進(jìn)行對比,還在原始網(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練了一個(gè)分類模型,得到了一個(gè)大小相同的過濾數(shù)據(jù)集。
  3. 此外,還從原始數(shù)據(jù)中抽取了一個(gè)相同大小的英文子集,作為基準(zhǔn)。

CLIP過濾器在以西方為中心的任務(wù)中表現(xiàn)出色,這與數(shù)據(jù)驅(qū)動的研究一致,表明有效的數(shù)據(jù)過濾能夠提升模型性能。

然而,所有經(jīng)過過濾的數(shù)據(jù)集在其他任務(wù)中表現(xiàn)較差,尤其是在涉及文化多樣性的任務(wù)中。

這是數(shù)據(jù)過濾的一個(gè)主要缺點(diǎn),即它可能無意中將偏見引入過濾后的數(shù)據(jù)集,這與先前的研究結(jié)果一致。

數(shù)據(jù)質(zhì)量過濾可能會妨礙文化多樣性(圖4中)和公平性(圖4右),即使它在以西方為中心的任務(wù)(圖4左)中有所幫助,具體結(jié)果如下:

圖片

圖4:數(shù)據(jù)質(zhì)量過濾對不同任務(wù)的影響

語言再平衡

在原始數(shù)據(jù)中,低資源語言的比例僅為0.5%,這導(dǎo)致模型無法充分學(xué)習(xí)這些語言或地區(qū)中的概念。

為了解決這個(gè)問題,將每種低資源語言的樣本量上采樣到固定的1%比例。

通過這種再平衡,如圖5所示,模型在低資源語言基準(zhǔn)上的表現(xiàn)有所提升。相應(yīng)地,高資源語言的表現(xiàn)略有下降,但仍然保持在可比范圍內(nèi)(這也適用于其他僅基于英文的zero-shot檢索任務(wù)),從而在整個(gè)多語言基準(zhǔn)上實(shí)現(xiàn)了總體的提升。

此外,還觀察到,在文化多樣性任務(wù)中有輕微的改善,而在其他任務(wù)中結(jié)果略有下降,這可能是由于減少了以西方為中心的示例所致,因?yàn)榇蠖鄶?shù)評估都基于英文數(shù)據(jù)。

具體結(jié)果見圖5。

圖片

圖5:語言再平衡的結(jié)果

定性示例

通常,經(jīng)過更大規(guī)模數(shù)據(jù)訓(xùn)練的模型,會更加專注于語義相關(guān)的區(qū)域。

例如,在「伊戈洛舞蹈」(Igorot Dance)圖像中,100B訓(xùn)練的模型能夠捕捉到更精細(xì)的細(xì)節(jié),如傳統(tǒng)裝飾品上的復(fù)雜圖案和具有文化意義的物品。

在「冰屋」(Igloo)圖像中,100B訓(xùn)練的模型準(zhǔn)確地聚焦于冰屋的結(jié)構(gòu)細(xì)節(jié)(其圓頂形狀),與其他模型不同,后者被背景中的山脈和冰雪等元素分散了注意力。

除了低資源概念,100B數(shù)據(jù)還可以提高常見概念的性能。如「野牛」(Bison)圖像所示,經(jīng)過更大數(shù)據(jù)集訓(xùn)練的模型能夠更準(zhǔn)確地捕捉到野牛,而不是周圍的景觀。

圖片

不同數(shù)據(jù)規(guī)模下,訓(xùn)練的 ViT-L/16 模型的注意力圖可視化區(qū)域比較。

作者簡介

另外值得一提的是,共一華人作者Xiao Wang。

圖片

2008年,他本科畢業(yè)于南京大學(xué)計(jì)算機(jī)軟件工程專業(yè);2011年,碩士畢業(yè)于北京大學(xué)計(jì)算機(jī)軟件工程專業(yè)。

在國內(nèi)積累了5年經(jīng)驗(yàn)后,于2015年加入谷歌DeepMind,任高級軟件工程師。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-14 09:17:00

2012-06-20 09:39:02

惡意網(wǎng)站

2016-10-09 13:19:43

2019-04-04 13:00:19

Linuxshell命令

2016-07-06 11:38:10

移動 出海

2022-08-16 08:35:45

Black Hat網(wǎng)絡(luò)安全

2013-02-28 10:24:18

2021-10-11 14:30:50

人工智能數(shù)據(jù)技術(shù)

2021-10-15 10:11:00

遠(yuǎn)程管理監(jiān)控數(shù)據(jù)中心

2025-02-20 09:21:51

2021-01-15 07:22:51

APP時(shí)間規(guī)劃局證件照相機(jī)

2021-03-03 11:13:30

APP手機(jī)打車軟件

2023-02-21 21:50:07

2013-03-05 09:04:38

Java 60day

2021-06-06 16:19:46

微軟Windows 10Windows

2014-09-25 09:59:00

2009-05-05 11:06:19

存儲技術(shù)藍(lán)寶石高數(shù)據(jù)存儲

2019-03-25 22:04:19

編程PythonJava

2010-03-26 17:50:17

Python設(shè)計(jì)理念
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號