自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR2024杰出論文——Never Train from Scratch!

發(fā)布于 2024-5-11 10:40
瀏覽
0收藏

今天給大家介紹一篇ICLR2024的杰出論文,這篇文章深入探討了自監(jiān)督預(yù)訓(xùn)練對(duì)于使用Transformer進(jìn)行長(zhǎng)序列建模的重要性。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

論文標(biāo)題:Never Train from Scratch: FAIR COMPARISON OF LONGSEQUENCE MODELS REQUIRES DATA-DRIVEN PRIORS

下載地址:??https://arxiv.org/pdf/2310.02980??

1、背景介紹

在一些長(zhǎng)序列建模數(shù)據(jù)集benchmark中,例如Long Range Arena,使用RNN或者SSM這種基礎(chǔ)的序列模型效果要顯著優(yōu)于Transformer模型。

然而,文中提出這種評(píng)估方式并不科學(xué)?,F(xiàn)有的基于LRA這類benchmark評(píng)估模型效果的方法,都是直接在這些長(zhǎng)序列上從0開(kāi)始擬合目標(biāo)。這種情況下,Transformer的效果確實(shí)會(huì)比RNN、SSM等模型效果差很多。

但是如果使用這些數(shù)據(jù)先對(duì)模型做一下預(yù)訓(xùn)練,就會(huì)發(fā)現(xiàn)Transformer的效果和SSM基本一致。如下圖所示,從頭訓(xùn)練,Transformer的效果和S4有很大差距;而如果使用mask language model等預(yù)訓(xùn)練任務(wù)進(jìn)行自監(jiān)督學(xué)習(xí),就會(huì)發(fā)現(xiàn)Transformer的效果取得了大幅提升。同時(shí),S4的效果也會(huì)有一定的提升。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

2、實(shí)驗(yàn)方法

針對(duì)上述現(xiàn)象,文中提出在進(jìn)行長(zhǎng)序列benchmark等任務(wù)上的評(píng)估時(shí),直接從0訓(xùn)練對(duì)比不同模型效果是不公平的,因?yàn)槟P筒](méi)有被充分訓(xùn)練。文中提出應(yīng)該先用SFT在目標(biāo)數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型有一個(gè)良好的初始化點(diǎn),再進(jìn)行finetune,才能實(shí)現(xiàn)不同模型公平的對(duì)比。

文中主要在LRA數(shù)據(jù)集上進(jìn)行Transformer和SSM的效果對(duì)比驗(yàn)證。LRA主要包括6個(gè)長(zhǎng)序列分類任務(wù),包括長(zhǎng)文本的匹配任務(wù)、列表分類任務(wù)、一維化圖像的分類任務(wù)等等。

在訓(xùn)練方法使用,增加預(yù)訓(xùn)練緩解,使用自回歸預(yù)測(cè)下一個(gè)token,或者mask序列中部分token進(jìn)行還原,作為自監(jiān)督學(xué)習(xí)的目標(biāo)。整個(gè)預(yù)訓(xùn)練都是在目標(biāo)數(shù)據(jù)集中進(jìn)行的,不會(huì)引入其他外部數(shù)據(jù)。

3、實(shí)驗(yàn)效果

下表是一個(gè)主要的實(shí)驗(yàn)結(jié)果,其中上半部分是各個(gè)模型從頭進(jìn)行訓(xùn)練的效果,由A benchmark for efficient transformers. In 9th International Conference on Learning Representations(ICLR 2021)論文中發(fā)表,包括各類優(yōu)化版Transformer效果。下面兩行是本文提出的使用預(yù)訓(xùn)練進(jìn)行Transformer充分訓(xùn)練后,再在目標(biāo)數(shù)據(jù)上進(jìn)行finetune??梢钥吹剑?jīng)過(guò)SFT,Transformer的效果得到了非常大幅度的提升。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

即使是在S4模型上,引入自監(jiān)督預(yù)訓(xùn)練后,在某些困難數(shù)據(jù)集上也會(huì)取得提升。并且從下面實(shí)驗(yàn)來(lái)看,充分預(yù)訓(xùn)練的公平對(duì)比下,Transformer效果和S4接近,遠(yuǎn)沒(méi)有從頭訓(xùn)練時(shí)二者效果差異大。

ICLR2024杰出論文——Never Train from Scratch!-AI.x社區(qū)

由此可見(jiàn),充分的自監(jiān)督訓(xùn)練,找到一個(gè)比較好的初始點(diǎn),對(duì)于公平對(duì)比不同模型性能是非常重要的。同時(shí),這也啟發(fā)我們?cè)谑褂肨ransformer這類inductive bias較少的模型時(shí),可以通過(guò)自監(jiān)督學(xué)習(xí)來(lái)提升模型效果。

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦