自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布大模型數(shù)據(jù)篩選方法:效率提升13倍,算力降低10倍

發(fā)布于 2024-8-8 08:09
瀏覽
0收藏

隨著GPT-4o、Gemini等多模態(tài)大模型的出現(xiàn),對(duì)訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級(jí)上升。無(wú)論是自然語(yǔ)言文本理解、計(jì)算機(jī)視覺(jué)還是語(yǔ)音識(shí)別,使用精心標(biāo)注的數(shù)據(jù)集能帶來(lái)顯著的性能提升,同時(shí)大幅減少所需的訓(xùn)練數(shù)據(jù)量。


但目前多數(shù)模型的數(shù)據(jù)處理流程嚴(yán)重依賴于人工篩選,不僅費(fèi)時(shí)、費(fèi)力并且成本非常高,難以應(yīng)對(duì)大規(guī)模數(shù)據(jù)集的需求。


因此,谷歌Deepmind的研究人員提出了創(chuàng)新數(shù)據(jù)篩選方法JEST,通過(guò)聯(lián)合選擇數(shù)據(jù)批次來(lái)加速多模態(tài)大模型的學(xué)習(xí)效率。與目前最先進(jìn)的算法相比,JEST可以將大模型的數(shù)據(jù)篩選效率提升13倍,算力需求降低10倍。


論文地址:https://arxiv.org/abs/2406.17711

谷歌發(fā)布大模型數(shù)據(jù)篩選方法:效率提升13倍,算力降低10倍-AI.x社區(qū)

JEST三種評(píng)分策略

傳統(tǒng)的數(shù)據(jù)標(biāo)注方法通常針對(duì)單個(gè)數(shù)據(jù)點(diǎn)進(jìn)行操作,但一個(gè)批次數(shù)據(jù)的質(zhì)量不僅取決于其內(nèi)部各個(gè)數(shù)據(jù)點(diǎn)的獨(dú)立質(zhì)量,還受到它們組合方式的影響。那些難解的負(fù)樣本,也就是標(biāo)簽雖不同卻緊密聚集在一起的點(diǎn),被證明比容易解決的例子更能提供有效的學(xué)習(xí)信號(hào)。


而JEST算法可以從更大的超級(jí)批次中高效地挑選出相關(guān)性高的子批次。與傳統(tǒng)的優(yōu)先級(jí)采樣方法不同,JEST不是給每個(gè)單獨(dú)的例子打分,而是對(duì)整個(gè)子批次進(jìn)行評(píng)分,根據(jù)這些批次級(jí)別的分?jǐn)?shù)進(jìn)行采樣。

谷歌發(fā)布大模型數(shù)據(jù)篩選方法:效率提升13倍,算力降低10倍-AI.x社區(qū)

JEST的核心在于使用模型為基礎(chǔ)的評(píng)分函數(shù),這些函數(shù)結(jié)合了學(xué)習(xí)者模型的損失或預(yù)訓(xùn)練參考模型的損失,并提供硬學(xué)習(xí)者、易參考和可學(xué)習(xí)性三種評(píng)分策略。


硬學(xué)習(xí)者策略通過(guò)計(jì)算子批次在當(dāng)前學(xué)習(xí)者模型下的高損失,選擇那些模型尚未掌握的樣本,以避免浪費(fèi)資源在已知信息上。但是,對(duì)于大而雜亂的數(shù)據(jù)集,這種策略可能適得其反,因?yàn)闀?huì)過(guò)度采樣噪聲樣本。


易參考策略恰好相反,它優(yōu)先選擇對(duì)預(yù)訓(xùn)練參考模型而言比較的數(shù)據(jù),損失較低的樣本。這種策略在多模態(tài)學(xué)習(xí)中已被成功應(yīng)用,用于識(shí)別高質(zhì)量的例子,但缺點(diǎn)是過(guò)于依賴參考模型的選擇,可能不適用于大規(guī)模計(jì)算預(yù)算。

谷歌發(fā)布大模型數(shù)據(jù)篩選方法:效率提升13倍,算力降低10倍-AI.x社區(qū)

可學(xué)習(xí)性策略則合了前兩種方法的優(yōu)點(diǎn),通過(guò)計(jì)算學(xué)習(xí)者模型和參考模型的損失之差,選擇那些既未被學(xué)習(xí)者掌握又對(duì)參考模型相對(duì)簡(jiǎn)單的樣本。


這種策略既能避免噪聲數(shù)據(jù)的干擾,又能保證選取的數(shù)據(jù)是模型可以學(xué)習(xí),因此在大規(guī)模學(xué)習(xí)中即使對(duì)單個(gè)例子進(jìn)行優(yōu)先級(jí)排序也能加速訓(xùn)練過(guò)程。

模型近似和多分辨率訓(xùn)練

為了進(jìn)一步增強(qiáng)JEST算法的性能以及對(duì)算力需求的降低,還使用了模型近似和多分辨率訓(xùn)練兩種方法。


模型近似主要通過(guò)兩種方式實(shí)現(xiàn):一是降低圖像分辨率,二是減少模型層的計(jì)算,幫助大模型在保持模型性能的同時(shí),顯著減少每次迭代所需的算力需求。


降低圖像分辨率是一種直觀的近似方法。在傳統(tǒng)的高分辨率圖像處理中,模型需要對(duì)每一個(gè)像素點(diǎn)進(jìn)行分析和學(xué)習(xí),這無(wú)疑增加了算力負(fù)擔(dān)。


而在JEST算法中,通過(guò)將圖像分辨率降低,減少了模型需要處理的像素?cái)?shù)量,從而降低了單次迭代的計(jì)算成本,并且對(duì)模型的性能影響很小。

谷歌發(fā)布大模型數(shù)據(jù)篩選方法:效率提升13倍,算力降低10倍-AI.x社區(qū)

減少模型層的計(jì)算則是另一種有效的近似手段。深度學(xué)習(xí)模型通常包含多個(gè)層次,每個(gè)層次都可能帶來(lái)計(jì)算量的增加。JEST算法通過(guò)在評(píng)分階段使用簡(jiǎn)化的模型結(jié)構(gòu),減少了模型在每次迭代中的算力負(fù)荷,也不會(huì)影響模型最終的訓(xùn)練結(jié)果。


多分辨率訓(xùn)練允許模型在不同的分辨率下處理數(shù)據(jù),從而在訓(xùn)練過(guò)程中實(shí)現(xiàn)更高的靈活性和效率。


在多分辨率訓(xùn)練中,模型首先在較低分辨率下對(duì)數(shù)據(jù)進(jìn)行初步處理,這有助于快速捕捉數(shù)據(jù)的大致特征。然后,模型在較高分辨率下對(duì)數(shù)據(jù)進(jìn)行更細(xì)致的分析,以提取更精細(xì)的特征信息。這種分階段的處理方式不僅提高了模型對(duì)數(shù)據(jù)的理解能力,也使得模型能夠在不同層次上進(jìn)行有效的學(xué)習(xí)。


此外,多分辨率訓(xùn)練還有助于提高模型的泛化能力。通過(guò)在不同分辨率下訓(xùn)練,模型能夠?qū)W習(xí)到不同尺度的特征,這使得模型在面對(duì)不同尺寸和分辨率的輸入數(shù)據(jù)時(shí),都能夠表現(xiàn)出良好的適應(yīng)性。


為了測(cè)試JEST算法的有效性,在ImageNet、COCO等數(shù)據(jù)集上,對(duì)圖像分類、零樣本學(xué)習(xí)、圖像到文本的檢索和文本到圖像檢索等任務(wù)上進(jìn)行了綜合測(cè)試。

谷歌發(fā)布大模型數(shù)據(jù)篩選方法:效率提升13倍,算力降低10倍-AI.x社區(qū)

結(jié)果顯示,JEST在多個(gè)任務(wù)上都取得了顯著的數(shù)據(jù)篩選效率,例如,當(dāng)過(guò)濾90%的數(shù)據(jù)時(shí),JEST僅需使用6700萬(wàn)樣本即可達(dá)到傳統(tǒng)方法使用30億樣本的性能水平,相當(dāng)于效率提升13倍和算力降低了10倍,同時(shí)還能幫助大模型提升大約6%的性能。


本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/sSzTWr8xEP8M8Wslqaj4qg??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦