ViT作者飛機上也要讀的改進版Transformer論文,花2個小時詳細批注解讀分享出來
ViT核心作者Lucas Beyer,長文分析了一篇改進Transformer架構(gòu)的論文,引起推薦圍觀。
他前不久從谷歌跳槽到OpenAI,這次是在飛機上閱讀論文并寫下了分析。
這篇論文被他簡寫為DiffTranformer,不過不是Sora底層架構(gòu)的那個Diffusion Transformer,而是不久前來自微軟的Differencial Transformer。
論文中介紹,整體思路類似差分放大電路或降噪耳機,用兩個信號的差值來濾除共模噪聲,解決Transformer模型信噪比低的問題。
這篇論文發(fā)布時引起大量關(guān)注,但也面對一些質(zhì)疑,在彈幕版alphaXiv上作者與讀者進行了很多討論。
Beyer起初也對這篇文章持保留態(tài)度,覺得“難道MHA中的兩個注意力頭不能學習到這些嗎?”。
但經(jīng)過近期和同行的一些互動,覺得不應該輕易下定論,重新看了一遍論文后,他改變了看法
我的最初印象被團隊的實驗徹底打破了,他們的實驗非常公平和謹慎。
此外還有一個彩蛋:
大佬通常會用坐飛機的時間來打4把Dota 2游戲快速模式。
現(xiàn)在寫這個帖子也不能當論文評審工作寫進簡歷,是純純的貢獻個人時間了,以后也不會常寫。
總之先給大佬點贊。
大佬解讀熱點論文
Beyer評價這篇論文的核心創(chuàng)新非常simple和nice,可以用一句話概括。
將兩個注意力頭配對,然后執(zhí)行(softmax(Q1K1) - λ*softmax(Q2K2)) V,其中λ是一個可學習的標量。
他認為這項研究的動機非常充分:隨著上下文變長,(微小的)對不相關(guān)token的注意力之和可能超過對少數(shù)相關(guān)token的注意力,從而淹沒它們。
這一洞見表明,隨著輸入長度的增加,經(jīng)典Transformer可能越來越難以捕捉到關(guān)鍵信息。DIFF Transformer試圖解決這一問題。
但他仍不確定對于訓練充分的模型來說這是個多大的問題,希望在DIFF Transformer論文中有一些關(guān)于attention分布/熵的圖表,以實際證明這個插圖的合理性。
接下來,他指出了幾個容易被忽視的細節(jié):
- 與Figure1不同,DiffAttn實際上并沒有對差值重新歸一化。那么它究竟如何放大”相關(guān)”的分數(shù)呢?
Beyer建議論文中能提供更多實際訓練的DIFF Transformer的分析圖表。
- λ的計算相當復雜,涉及兩個可學習的指數(shù)函數(shù)之差,加上一些基線λ_init,在早期的層是0.1,后面又是0.8。
Beyer認為λ不一定需要是正值,并建議提供更多對可學習λ參數(shù)的分析。
- 每個注意力頭的輸出都經(jīng)過了層歸一化并乘以(1-λ_init),然后再concat并乘以WO,這里也需要更多圖表來證明。
接下來看論文中大量的實驗。研究者基本上分叉了了StableLM-3B-4E1T,稱之為Diff-3B,作為基線模型進行比較。
可惜的是,基線模型只在其中3個數(shù)據(jù)集上報告了結(jié)果,其中2個Diff-3B的表現(xiàn)都相當好。
Beyer懷疑這個StableLM-3B是否真的是一個強基線。
在參數(shù)量和token數(shù)的縮放曲線上,DIFF Transformer乍一看很有前景。但仔細觀察后,Beyer提出了兩點質(zhì)疑:
- 縮放曲線明顯分為兩組,在它們之間畫一條線有點牽強。查看附錄可知,研究者為較大的兩個模型降低了學習率。這是否意味著他們遇到了不穩(wěn)定性問題?
- 每次實驗只用了10B個token訓練,這個數(shù)量非常小。Beyer理解其中的計算資源限制,但仍然感到有點不安。
這些實驗表明,在相同大小的情況下,DIFF Transformer性能會更好一些,并且訓練時間相同。
然而,它的的推理速度也會慢一些(慢5-10%)。
Beyer提出最好能看到以計算量或?qū)嶋H時間為橫軸的縮放曲線。
在長文本評測和對輸入樣本順序的魯棒性方面,DIFF Transformer表現(xiàn)出了明顯的優(yōu)勢。
特別是在上下文學習的魯棒性實驗中,DIFF Transformer在不同的樣本排列順序下,性能方差遠小于經(jīng)典Transformer。
這表明它更不容易被輸入的細微變化擾亂,而經(jīng)典Transformer容易受到樣本順序的影響,在最好和最壞情況下表現(xiàn)相差很大。
總的來說,Beyer對這篇論文的看法有所改觀:
研究者的實驗非常全面和謹慎,的確展現(xiàn)了DIFF Transformer比單純的”兩個注意力頭相減”更多的潛力。
這項工作展現(xiàn)了一些有前景的火花。它在其他人的訓練任務中能否很好地復現(xiàn)、或帶來幫助,還有待進一步觀察。
Lucas Beyer是誰
12月初,Lucas Beyer與Xiaohua Zhai、Alexander Kolesnikov集體從谷歌被挖到OpenAI。
他們曾共同提出Vision Transformer,開創(chuàng)了Transformer在CV領(lǐng)域應用的先河。
據(jù)他個人官網(wǎng)中介紹,他在比利時長大,曾夢想制作電子游戲以及從事AI研究。
他在德國亞琛工業(yè)大學學習機械工程,并在那里獲得了機器人感知和計算機視覺博士學位,2018年加入谷歌。
除了這次長文分析DIFF Transformer之外,他還經(jīng)常對新研究發(fā)表一些短的評論,比如最近火爆的DeepSeek v3,他也提出自己的建議。
總之是一位非常值得關(guān)注的學者。
DIFF Transformer論文:https://arxiv.org/abs/2410.05258