谷歌&MIT何愷明團隊:視覺大模型像LLM一樣高效Scaling,指路連續(xù)token+隨機生成順序
視覺自回歸模型的Scaling,往往不像在語言模型里那樣有效。
谷歌&MIT何愷明團隊聯(lián)手,有望打破這一局面,為自回歸文生圖模型的擴展指出一個方向:
- 基于連續(xù)token的模型比離散token模型在視覺質量上更好。
- 隨機順序生成與光柵順序相比在GenEval測試上得分明顯更好。
受到這些發(fā)現(xiàn)啟發(fā),團隊訓練了Fluid,一個基于連續(xù)標記的隨機順序自回歸模型。
擴展至百億參數(shù)的Fluid在MS-COCO 30K上zero-shot條件下實現(xiàn)了6.16的FID分數(shù),并在GenEval基準測試中獲得了0.69的整體得分。
團隊希望這些發(fā)現(xiàn)和結果能夠鼓勵未來進一步彌合視覺和語言模型之間的規(guī)模差距。
100億參數(shù)自回歸文生圖模型
回顧過去,兩個關鍵設計因素限制了自回歸圖像生成模型的性能表現(xiàn):
- 離散token。大多數(shù)此類模型借鑒NLP的做法,先用vector-quantized(VQ)方法將圖像離散化為一組token,每個token只能取有限的離散值。這種量化難免損失大量信息。
- 光柵順序。即按從左到右、從上到下的固定順序生成token。這種方式雖有利于推理加速,但也影響了生成質量。
Fluid繼承了團隊在今年6月份研究《Autoregressive Image Generation without Vector Quantization》的思路,拋棄離散token,改用連續(xù)token。
它借鑒了擴散模型,用一個小型去噪網絡近似每個token的連續(xù)分布。
具體而言,模型為每個位置的token生成一個向量z作為條件,輸入一個小型去噪網絡。這個去噪網絡定義了token x在給定z時的條件分布p(x|z)。訓練時,該網絡與自回歸模型聯(lián)合優(yōu)化;推理時,從p(x|z)中采樣即可得到token。整個過程無需離散化,避免了量化損失。
再來看看生成token的順序。按固定的光柵順序逐個生成token,推理時雖然可以用kv緩存加速,但因果關系的限制也影響了生成質量。
Fluid另辟蹊徑,隨機選擇要生成的token,并用類似BERT雙向注意力的機制捕捉全局信息。
在推理時采用完全隨機順序,訓練和推理過程的序列分布更一致;同時還能對每個token進行類似GPT的temperature采樣,進一步提升了生成多樣性。
得益于擴散損失和MAR范式的雙重加持,作者將模型參數(shù)量擴展到超過100億,在MS-COCO和GenEval數(shù)據(jù)集上取得領先結果。
更重要的是,隨著參數(shù)量和訓練輪數(shù)的增加,模型在驗證損失、FID、GenEval Score等指標上表現(xiàn)出良好的可擴展性,為進一步擴大規(guī)模提供了理論支撐。這與語言模型的Scaling現(xiàn)象非常類似,表明視覺大模型的潛力尚未被充分挖掘。
更多Fuild模型生成圖像精選:
論文地址:https://arxiv.org/abs/2410.13863v1