自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="g6job"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

打破紀(jì)錄！谷歌全網(wǎng)扒1000億圖像文本對(duì)，ViT大佬坐鎮(zhèn)：數(shù)據(jù)Scaling潛力依舊

作者：量子位 2025-02-14 09:17:00

人工智能新聞

在英文世界之外的多元文化、多語(yǔ)言維度，1000億規(guī)模數(shù)據(jù)集能更好覆蓋長(zhǎng)尾場(chǎng)景，由此帶來(lái)明顯性能提升。

史上最大規(guī)模視覺(jué)語(yǔ)言數(shù)據(jù)集：1000億圖像-文本對(duì)！

什么概念？

較此前紀(jì)錄擴(kuò)大10倍。

這就是由谷歌推出的最新數(shù)據(jù)集WebLI-100B。

它進(jìn)一步證明，數(shù)據(jù)Scaling Law還遠(yuǎn)沒(méi)有到上限。

在英文世界之外的多元文化、多語(yǔ)言維度，1000億規(guī)模數(shù)據(jù)集能更好覆蓋長(zhǎng)尾場(chǎng)景，由此帶來(lái)明顯性能提升。

這意味著，想要構(gòu)建更加多元的多模態(tài)大模型，千億級(jí)數(shù)據(jù)規(guī)模，將成為一個(gè)重要參考。

同時(shí)研究還進(jìn)一步證明，CLIP等模型的過(guò)濾篩選步驟，會(huì)對(duì)這種多元性提升帶來(lái)負(fù)面影響。

該研究由谷歌DeepMind帶來(lái)，一作為Xiao Wang、 Ibrahim Alabdulmohsin。

作者之列中還發(fā)現(xiàn)了ViT核心作者翟曉華。2024年12月，他在推特上官宣，將入職OpenAI蘇黎世實(shí)驗(yàn)室。

數(shù)據(jù)規(guī)模越大對(duì)細(xì)節(jié)理解越好

論文主要工作有三方面。

驗(yàn)證VLMs在1000億規(guī)模數(shù)據(jù)集上的效果
證明1000億規(guī)模數(shù)據(jù)集能增強(qiáng)VLMs文化多樣性、多語(yǔ)言能力以及減少不同子組之間的性能差異。
發(fā)現(xiàn)CLIP這類(lèi)模型過(guò)濾篩選數(shù)據(jù)的過(guò)程會(huì)對(duì)無(wú)意中降低模型的文化多元性，在1000億規(guī)模數(shù)據(jù)集上亦是如此。

具體來(lái)看，研究人員從網(wǎng)絡(luò)上搜集了1000億圖像-文本對(duì)，初步去除有害內(nèi)容以及敏感信息。

然后使用CLIP模型對(duì)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估，篩選出與圖像內(nèi)容高度對(duì)齊的圖像-文本對(duì)。

他們訓(xùn)練了一個(gè)分類(lèi)器模型，對(duì)圖像-文本進(jìn)行對(duì)齊和錯(cuò)位分類(lèi)，并調(diào)整閾值以重新篩選數(shù)據(jù)集。為了評(píng)估多語(yǔ)言能力，還使用網(wǎng)頁(yè)的語(yǔ)言標(biāo)簽來(lái)確定數(shù)據(jù)集中的語(yǔ)言分布。

為了評(píng)估不同數(shù)據(jù)規(guī)模對(duì)模型性能的影響，研究人員從1000億數(shù)據(jù)集中隨機(jī)抽取了1%和10%的數(shù)據(jù)，分別創(chuàng)建了10億和100億規(guī)模的數(shù)據(jù)集。

同時(shí)為了提高低資源語(yǔ)言的代表性，研究人員對(duì)低資源語(yǔ)言進(jìn)行了上采樣，將它們的占比從0.5%提高到1%。

實(shí)驗(yàn)方面，研究人員使用SigLIP模型在不同規(guī)模的數(shù)據(jù)集上進(jìn)行對(duì)比視覺(jué)語(yǔ)言預(yù)訓(xùn)練。

他們訓(xùn)練了不同大小的模型（ViTB/16、ViT-L/16、ViT-H/14），并使用了大規(guī)模的批量大小和學(xué)習(xí)率調(diào)度。

從結(jié)果來(lái)看，1B數(shù)據(jù)集訓(xùn)練的模型在注意力圖上無(wú)法很好捕捉細(xì)節(jié)。10B數(shù)據(jù)集有所改善，100B數(shù)據(jù)集能更精準(zhǔn)。

同時(shí)使用多語(yǔ)言mt5分詞器對(duì)文本進(jìn)行分詞，并訓(xùn)練了多種語(yǔ)言的模型。

在模型評(píng)估上，研究人員主要進(jìn)行以下幾個(gè)維度分析：

傳統(tǒng)基準(zhǔn)測(cè)試：多個(gè)傳統(tǒng)基準(zhǔn)測(cè)試（如ImageNet、COCO Captions等）上評(píng)估。
文化多樣性：使用Dollar Street、GeoDE和Google Landmarks Dataset v2等數(shù)據(jù)集評(píng)估了模型在文化多樣性任務(wù)上的性能。
多語(yǔ)言能力：使用Crossmodal-3600數(shù)據(jù)集評(píng)估了模型在多語(yǔ)言任務(wù)上的性能。
公平性：評(píng)估了模型在不同子組（如性別、收入水平、地理區(qū)域）上的性能差異，以評(píng)估模型的公平性。

結(jié)果顯示，從100億到1000億規(guī)模數(shù)據(jù)，在以西方文化為主的傳統(tǒng)基準(zhǔn)測(cè)試上帶來(lái)的提升比較有限，但在多語(yǔ)言能力和公平性相關(guān)任務(wù)上顯著提高。

數(shù)據(jù)過(guò)濾可以提高模型在傳統(tǒng)任務(wù)上的性能，但可能會(huì)減少某些文化背景的代表性，從而限制數(shù)據(jù)集的多樣性。

此外，通過(guò)調(diào)整低資源語(yǔ)言的混合比例，可以顯著提高模型在低資源語(yǔ)言基準(zhǔn)測(cè)試上的性能。

主創(chuàng)翟曉華已被OpenAI挖走

該研究的一作為Xiao Wang和Ibrahim Alabdulmohsin。

Xiao Wang本科畢業(yè)于南京大學(xué)，碩士畢業(yè)于北京大學(xué)。

領(lǐng)英資料顯示，他畢業(yè)后先后任職于IBM中國(guó)開(kāi)發(fā)實(shí)驗(yàn)室、網(wǎng)易有道。2015年加入谷歌DeepMind至今，職位是高級(jí)軟件工程師，主要從事視覺(jué)語(yǔ)言研究。

主創(chuàng)中還發(fā)現(xiàn)了翟曉華的身影。

他同樣本科畢業(yè)于南京大學(xué)，在北京大學(xué)攻讀博士學(xué)位后，赴蘇黎世加入谷歌。

翟曉華和盧卡斯·拜爾（Lucas Beyer）、亞歷山大·科列斯尼科夫（Alexander Kolesnikov）一起在谷歌提出多項(xiàng)重要工作。

2021年，他們?nèi)俗鳛楣餐蛔鞯挠?jì)算機(jī)視覺(jué)領(lǐng)域神作ViT發(fā)布即刷新ImageNet最高分。

這項(xiàng)研究證實(shí)了CNN在CV領(lǐng)域不是必需的，Transformer從NLP跨界，一樣可以取得先進(jìn)效果。開(kāi)創(chuàng)了Transformer在CV領(lǐng)域應(yīng)用的先河。

目前這篇論文被引用量已超過(guò)5.3萬(wàn)。

他在谷歌DeepMind時(shí)領(lǐng)導(dǎo)蘇黎世多模態(tài)研究小組，重點(diǎn)研究多模態(tài)數(shù)據(jù)（WebLI）、開(kāi)放權(quán)重模型 ( SigLIP、PaliGemma )以及文化包容性。

2024年12月，爆料稱(chēng)OpenAI挖走ViT三大核心作者。隨后，該消息被本人證實(shí)。

論文地址：https://arxiv.org/abs/2502.07617

責(zé)任編輯：張燕妮來(lái)源：量子位

模型數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<thead id="u4vuh"></thead>}