Meta 重磅發(fā)布 DyT 函數(shù):Transformer 無需歸一化層,性能反超傳統(tǒng)方案!
1. Transformers without Normalization
在現(xiàn)代深度學(xué)習(xí)模型中,歸一化層幾乎成了標(biāo)配,大家普遍認(rèn)為不可或缺。但我們的研究發(fā)現(xiàn),其實(shí)不用歸一化層也能讓Transformer模型表現(xiàn)優(yōu)異——只需要一個簡單的小技巧就夠了。我們提出的動態(tài)雙曲正切函數(shù)(DyT),本質(zhì)上就是通過調(diào)整參數(shù)α來控制tanh函數(shù)的形狀(DyT(x)=tanh(αx)),這個方法能完美替代歸一化層的功能。這靈感來自于Transformer中常用的層歸一化,它其實(shí)和tanh函數(shù)的S型曲線很像。而通過引入DyT,即使去掉歸一化層,Transformer在大多數(shù)任務(wù)上的表現(xiàn)也能和傳統(tǒng)方法持平甚至更好。
我們在各種實(shí)驗(yàn)中驗(yàn)證了這一點(diǎn),無論是圖像識別還是文本生成,從有監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí),這個方法都表現(xiàn)穩(wěn)定。這似乎顛覆了我們對歸一化層必須存在的傳統(tǒng)認(rèn)知,說明深度網(wǎng)絡(luò)的訓(xùn)練機(jī)制可能還有更多未被發(fā)現(xiàn)的特性。有趣的是,這個簡單方法甚至能幫助模型在某些場景下取得更好的效果,說明傳統(tǒng)設(shè)計可能還存在優(yōu)化空間。
論文: ??https://arxiv.org/pdf/2503.10622??
2. Charting and Navigating Hugging Face's Model Atlas
現(xiàn)在網(wǎng)上公開的神經(jīng)網(wǎng)絡(luò)模型多如繁星,要在這么多模型里找合適的用起來可不太容易。想象一下,要是有一張導(dǎo)航地圖該多好——但現(xiàn)實(shí)是大部分模型連說明書都懶得寫,畫地圖就成了一件挺頭疼的事。為了探索這些模型的潛力,我們先試著畫了一張初步的地圖,主要參考了Hugging Face平臺上那些有詳細(xì)說明的模型。這張地圖不僅讓人一眼看懂模型家族的分布和演化路徑,還能直觀感受技術(shù)發(fā)展的脈絡(luò)。
我們試著用這個地圖做了些有意思的事,比如預(yù)測模型的性能表現(xiàn),分析視覺模型的發(fā)展趨勢等等。不過現(xiàn)在這個地圖還不夠完整,特別是那些沒寫文檔的'隱秘角落'。為此我們想了個辦法:根據(jù)實(shí)際訓(xùn)練模型的經(jīng)驗(yàn)總結(jié)出一些常見規(guī)律(比如大家訓(xùn)練模型時常用的結(jié)構(gòu)設(shè)計),把這些規(guī)律作為參考依據(jù),就能推測出那些沒被記錄的區(qū)域大概長啥樣。
論文: ??https://arxiv.org/pdf/2503.10??633
3. World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
最近這些能同時處理圖像和文字的大模型(比如Qwen2-VL、LLaVA這些)雖然在規(guī)劃任務(wù)上有了新突破,但它們總在一些基本問題上卡殼——比如如何高效執(zhí)行任務(wù),或者在復(fù)雜約束下做出合理選擇。仔細(xì)看現(xiàn)有的解決方案會發(fā)現(xiàn),要么只顧著優(yōu)化動作選擇,要么依賴模擬環(huán)境預(yù)測,但都沒把'理解環(huán)境'和'做決策'這兩個關(guān)鍵點(diǎn)結(jié)合起來。
我們這次想了個新方法,叫雙重偏好優(yōu)化(D2PO)。簡單來說,就是讓模型一邊學(xué)習(xí)'預(yù)測環(huán)境變化',一邊優(yōu)化'下一步該做什么',就像同時培養(yǎng)它的'預(yù)判能力'和'行動力'。為了訓(xùn)練這個模型,我們設(shè)計了一個智能搜索機(jī)制:讓模型自己通過試錯積累經(jīng)驗(yàn),自動收集訓(xùn)練數(shù)據(jù),而且完全不用人工標(biāo)注。這樣既省時又省力。
在真實(shí)任務(wù)測試中(比如讓模型完成需要多步驟的視覺任務(wù)),這個方法表現(xiàn)特別好。比如用在Qwen2-VL、LLaVA這些70億參數(shù)的模型上時,任務(wù)成功率比之前的方法高很多,甚至超過了GPT-4o這樣的大模型。更厲害的是,它找到的解決路徑還更簡潔高效,說明模型真的學(xué)會了'聰明規(guī)劃'
論文: ??https://arxiv.org/pdf/2503.10480??
4. CoRe^2: Collect, Reflect and Refine to Generate Better and Faster
現(xiàn)在文本生成圖像(比如讓AI畫圖)的技術(shù)發(fā)展很快,但一直有個兩難問題:要么追求畫質(zhì)就得等很久,想快速出圖又總覺得效果差點(diǎn)意思。更麻煩的是,之前的方法要么只對擴(kuò)散模型(比如Stable Diffusion)有效,要么只能用在自回歸模型(比如LlamaGen)上,很少有通用方案能同時兼顧速度和質(zhì)量。
我們團(tuán)隊這次開發(fā)了一個叫CoRe2的'加速神器',它像搭積木一樣分三步走:
收集:先讓模型自由發(fā)揮,不加限制地生成圖像軌跡
反思:用這些素材訓(xùn)練個'小助手',專門記住容易生成的部分,這樣計算量直接砍半
精修:最后用'小助手'和原模型配合,重點(diǎn)強(qiáng)化那些原模型總畫不好的細(xì)節(jié)(比如復(fù)雜紋理或真實(shí)感)
實(shí)測發(fā)現(xiàn)這個方法特別實(shí)用!它在Stable Diffusion XL、LlamaGen等主流模型上都表現(xiàn)穩(wěn)定,生成的圖像在清晰度和創(chuàng)意度上都比之前的方法強(qiáng)。比如用Stable Diffusion 3.5時,不僅比Z-Sampling快了6秒,畫作質(zhì)量評分還分別高了0.3和0.16分。更厲害的是,它能無縫對接現(xiàn)有的加速方案,相當(dāng)于給模型裝了個'渦輪增壓器'。
論文: ???https://arxiv.org/pdf/2503.09662??
本文轉(zhuǎn)載自??AI-PaperDaily??
