自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌:性能不佳的微調(diào)模型不要扔,求一下平均權(quán)重就能提升性能

人工智能 新聞
Module soup一共有三種“配方”(實(shí)現(xiàn)):統(tǒng)一湯(uniform soup)、貪婪湯(greedy soup)和學(xué)習(xí)湯(learned soup)。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

如何最大限度地提升模型精度?

最近,谷歌等機(jī)構(gòu)發(fā)現(xiàn):

性能不好的微調(diào)模型先不要扔,求一下平均權(quán)重!

就能在不增加推理時(shí)間以及內(nèi)存開銷的情況下,提高模型的準(zhǔn)確性和魯棒性。

比如,研究人員就使用該方法創(chuàng)造了ImageNet1K的新紀(jì)錄:90.94%。

將它擴(kuò)展到多個(gè)圖像分類以及自然語言處理任務(wù)中,也能提高模型的分布外性能,并改善新下游任務(wù)的零樣本性能。

而這個(gè)方法還有一個(gè)有趣的名字,叫Module soup——

是不是讓人一下子就讓人聯(lián)想到了斐波那契湯的笑話?(昨天的湯+前天的湯=今天的新湯)

△ 知乎網(wǎng)友@hzwer,已授權(quán)

一共三種配方

回想一下在此之前,大家是如何給模型漲點(diǎn)的呢?

是不是先用各種超參數(shù)訓(xùn)練出多個(gè)微調(diào)模型,然后再挑出驗(yàn)證集上表現(xiàn)最好的那一個(gè)留下,其余丟掉?

由于神經(jīng)網(wǎng)絡(luò)是非線性的,在不同的loss basin中可能有許多解,因此Module soup這一采用保留所有微調(diào)模型的權(quán)重,對(duì)其進(jìn)行平均的方法就可以提高性能,還是讓人有點(diǎn)驚訝的。

不過,最近就已有研究發(fā)現(xiàn),從相同的初始化配置中中獨(dú)立優(yōu)化的微調(diào)模型,位于相同的誤差范圍內(nèi) (lie in the same basin of the error landscape)。

之前也有研究證明,沿單個(gè)訓(xùn)練軌跡進(jìn)行權(quán)重平均,可以提高隨機(jī)初始化訓(xùn)練模型的性能。

作者正是從這些結(jié)論中受到啟發(fā)。

Module soup一共有三種“配方”(實(shí)現(xiàn)):統(tǒng)一湯(uniform soup)、貪婪湯(greedy soup)和學(xué)習(xí)湯(learned soup)。

其中greedy soup是最主要采用的實(shí)現(xiàn),因?yàn)樗男阅鼙戎苯泳鶆虻仄骄袡?quán)重更高。

具體來說,Greedy soup通過順序添加每個(gè)模型作為“湯”中的潛在成分構(gòu)建而成,并且只有在保持驗(yàn)證集上的性能有所提高時(shí)才將相應(yīng)模型保留在“湯”中。

排序按驗(yàn)證集精度的降序排列。

性能超越單個(gè)最佳微調(diào)模型

作者進(jìn)行了全面的微調(diào)實(shí)驗(yàn)來確定Module soup的有效性。

首先是微調(diào)CLIP和ALIGN,這兩個(gè)模型在圖像-文本對(duì)上進(jìn)行了對(duì)比損失預(yù)訓(xùn)練。

結(jié)果經(jīng)過module soup操作后,兩者在分布內(nèi)和自然分布轉(zhuǎn)移(distribution shifts)測(cè)試集上的表現(xiàn)都比最佳的單個(gè)微調(diào)模型性能更佳。

△ 左為CLIP,右為ALIGN

然后是在JFT數(shù)據(jù)集上預(yù)訓(xùn)練的ViT-G模型。

也就是它在ImageNet1K數(shù)據(jù)集實(shí)現(xiàn)了90.94%的精度,打破了此前CoAtNet保持的90.88%,同時(shí)在推理階段還減少了25%的FLOPs。

在圖像分類任務(wù)以外,作者在NLP領(lǐng)域也對(duì)module soup進(jìn)行了驗(yàn)證。

下表是BERT和T5模型在GLUE benchmark的四個(gè)文本分類任務(wù)上的結(jié)果:

可以發(fā)現(xiàn),雖然改進(jìn)不如圖像分類中的效果明顯,但在多數(shù)任務(wù)下,greedy soup都可以相較最好的單個(gè)模型提高性能。

當(dāng)然,作者也指出,module soup在適用性等方面存在局限,比如現(xiàn)在測(cè)試的都是在大型異構(gòu)數(shù)據(jù)集上預(yù)先訓(xùn)練的模型,在這些模型之外,效果并不是非常明顯。

最后,知乎網(wǎng)友@宮醬手藝人表示,其實(shí)這樣的模型參數(shù)平均是一個(gè)經(jīng)典trick,transformer原始論文就用了。

你發(fā)現(xiàn)了嗎?

論文地址:
?https://arxiv.org/abs/2203.0548

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-03-25 22:25:10

AI模型訓(xùn)練

2013-11-21 11:03:29

Nginx性能優(yōu)化

2024-02-21 12:10:00

模型數(shù)據(jù)

2023-03-01 15:14:48

數(shù)據(jù)集機(jī)器學(xué)習(xí)

2020-07-17 08:36:16

JVM性能監(jiān)控

2013-12-25 09:32:52

測(cè)試平均性能

2024-04-11 08:00:00

人工智能機(jī)器學(xué)習(xí)

2023-08-16 17:44:38

2017-03-22 14:08:33

閃存存儲(chǔ)DIMM

2022-11-25 17:24:20

谷歌研究

2017-07-04 17:43:07

架構(gòu)CQRSEvent Sourc

2021-10-25 10:23:49

Webpack 前端Tree shakin

2013-05-22 09:38:03

GoGo語言Go性能

2016-09-29 15:51:27

LinuxNtop性能

2024-03-27 13:34:00

模型訓(xùn)練

2023-11-14 18:04:26

SQL語句性能

2020-05-28 13:20:49

算法谷歌性能

2022-02-07 15:05:07

模型AI訓(xùn)練

2023-12-01 08:27:53

MySQLjoin

2023-03-08 07:46:53

面試官優(yōu)化結(jié)構(gòu)體
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)