自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型 精華

發(fā)布于 2024-5-23 17:52
瀏覽
0收藏

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

一、結(jié)論寫在前面

近期,多模態(tài)大型語言模型(LLMs)的發(fā)展主要集中在通過增加文本-圖像配對數(shù)據(jù)和增強LLMs來提高多模態(tài)任務(wù)的性能。然而,這些擴展方法計算成本高昂,且忽視了從視覺方面有效提升模型能力的重要性。受到混合專家(MoE)在LLMs中成功應(yīng)用的啟發(fā),該技術(shù)在訓練過程中提高了模型的可擴展性,同時保持推理成本與小型模型相似,論文將稀疏混合專家設(shè)計引入了多模態(tài)大型語言模型。

具體而言,論文用Top-K稀疏MoE塊替換了MLP連接器和視覺編碼器中的每個MLP塊。為了增強訓練穩(wěn)定性,論文采用了三階段訓練方法,在視覺指令調(diào)優(yōu)階段引入了再利用的MoE塊,以及輔助bzloss來維持專家的均衡加載。所有CuMo模型都在完全開源的數(shù)據(jù)集和基準測試上進行訓練和評估。通過廣泛的實驗和消融研究,論文驗證了每個模塊中再利用的MoE塊的有效性。CuMo在多個競爭基準測試中超過了同等模型大小組別內(nèi)的最新模型。 

CuMo的代碼和模型權(quán)重已在??https://github.com/SHI-Labs/CuMo??上開源。

二、論文的簡單介紹

2.1 論文的背景

最近的多模態(tài)LLMs 通常將預(yù)訓練的視覺編碼器和LLMs與視覺指令調(diào)整數(shù)據(jù)集成,以微調(diào)預(yù)訓練的LLMs,增強其視覺理解能力。為了進一步擴展多模態(tài)LLMs,以往的努力主要集中在使用更廣泛的文本-圖像配對數(shù)據(jù)集訓練模型,并采用更強大的LLMs,顯著增加了訓練工作量。在視覺方面,最近的工作集中在利用多個視覺編碼器來豐富視覺內(nèi)容,采用更大的視覺編碼器,并使用先進的視覺-語言連接器來提高多模態(tài)任務(wù)的性能。然而,這些技術(shù)導(dǎo)致了額外的參數(shù)數(shù)量增加,并為LLMs處理生成了額外的視覺token,使得擴展變得低效。 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

在高效擴展模型方面,混合專家(MoE)已成為現(xiàn)代大規(guī)模神經(jīng)網(wǎng)絡(luò),特別是在自然語言處理(NLP)中的事實標準框架。大多數(shù)大型語言模型(LLM)都是基于transformer 架構(gòu),其中稀疏MoE被用來替換密集MLP塊,采用Top-K稀疏門控MoE塊。最近,最先進的開源和私有LLMs主要采用了稀疏MoE架構(gòu)。這些模型在訓練過程中通過MoE設(shè)計進行擴展,同時保持相對較低的推理成本,因為只有選定的MLP專家在向前傳播過程中被激活。然而,MoE模型的開發(fā)和優(yōu)化主要針對LLMs,而使用MoE擴展多模態(tài)LLMs,特別是在視覺方面的探索,仍然很大程度上未被探索。 

受這些觀察的啟發(fā),論文引入了CuMo,它將Top-K稀疏門控MoE塊融入多模態(tài)LLMs的視覺編碼器和MLP連接器中,如圖2所示。論文還探索了CuMo相關(guān)的訓練配方和方法。首先,論文預(yù)訓練MLP連接器,并在不引入MoE架構(gòu)的情況下進行預(yù)微調(diào),以穩(wěn)定后續(xù)的視覺指令調(diào)整階段,該階段引入了新的稀疏MoE塊。然后,論文通過協(xié)同升級,將MLP連接器和視覺編碼器中的每個MLP塊替換為稀疏MoE塊。稀疏MoE塊中的每個專家都從預(yù)訓練和預(yù)微調(diào)階段的相應(yīng)MLP塊初始化。此外,每個MoE塊包含一個從頭開始訓練的Top-K路由器,在視覺指令調(diào)整階段選擇專家,路由器上的輔助損失用于維持專家負載的平衡。論文進一步比較了協(xié)同升級的LLMs和預(yù)訓練的MoE基LLMs。


2.2 論文的方法

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

2.2.1. 回顧稀疏MoE

稀疏MoE結(jié)構(gòu):以前的主流實踐[60]是替換密集MLP塊與稀疏門控專家混合塊。為了通過并行多個MLP塊擴展模型,稀疏MoE塊包括一個路由網(wǎng)絡(luò)來從S個總專家中選擇Top-K專家。這個路由網(wǎng)絡(luò)有一個線性層來根據(jù)輸入計算歸一化權(quán)重矩陣以進行投票。對于每個token,根據(jù)選擇前K個專家,并使用下式計算重新歸一化的權(quán)重 。每個選擇的專家都由一個多層感知器(MLP)塊表示,最終的輸出是通過對這些專家的加權(quán)求和獲得的。

從頭開始訓練基于MoE的設(shè)計可能不穩(wěn)定且成本高昂。稀疏再利用[33]通過從預(yù)訓練的密集檢查點中對應(yīng)的MLP塊初始化每個MoE塊中的專家,來解決這一挑戰(zhàn)。這種初始化方式為訓練基于MoE的模型提供了一個更好的起點,并且與從頭訓練相比降低了訓練成本。

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

 

圖4. CuMo的訓練階段。第一階段涉及預(yù)訓練MLP以獲得更好的對齊。隨后,預(yù)微調(diào)階段訓練所有參數(shù)作為下一階段的預(yù)熱。最后,每個MoE塊內(nèi)的MLP專家從相應(yīng)MLP塊的權(quán)重初始化,隨后在視覺指令調(diào)優(yōu)階段訓練所有參數(shù)

2.2.2. CuMo架構(gòu)

MLP連接器中的稀疏MoE: MLP連接器將視覺token轉(zhuǎn)換為單詞嵌入空間,對齊視覺和文本token之間的維度。視覺語言連接器的有效架構(gòu)是一個包含兩個線性層的MLP塊。論文從單個MLP塊開始,將其替換為Top-K稀疏MoE塊,結(jié)合Top-K路由器和一組專家將視覺token投影到單詞嵌入空間。

視覺編碼器中的稀疏MoE: 視覺編碼器提取圖像特征作為視覺token序列,用于在LLMs中進行推理。CLIP是多模態(tài)LLM最流行的預(yù)訓練視覺編碼器之一,因為它在大規(guī)模圖像-文本對上進行了預(yù)訓練,適合處理多模態(tài)用途的圖像。CLIP的視覺編碼部分是一個ViT模型,其轉(zhuǎn)換器編碼器中有連續(xù)的MLP塊。論文將每個MLP塊替換為Top-K稀疏MoE塊,保留MoE塊輸出的跳躍連接。

LLM中的稀疏MoE: 在使用MoE的LLM方面,論文將共升級的LLM與預(yù)訓練的基于MoE的LLM進行比較。論文從Mistral-7B開始,升級的Mistral-7B-MoE在某些基準測試中略微優(yōu)于Mistral-7B。然而,考慮到從Mistral-7B升級的專家的知識庫有限,論文將其與具有多樣化知識庫預(yù)訓練專家的預(yù)訓練Mixtral 8x7B進行比較。實驗結(jié)果表明,預(yù)訓練的Mixtral 8x7B顯著優(yōu)于Mistral-7B-MoE。因此,LLM沒有與CLIP和MLP連接器共升級,因為它帶來了邊際改進,但參數(shù)增加了很多。

2.2.3. 訓練配方

共升級MoE塊:論文從從頭開始訓練添加的MoE塊開始,而模型在收斂方面遇到困難。嘗試通過降低學習率來解決這個問題,但結(jié)果比基線更差。因此,論文采用共升級方法,將每個集成稀疏門控MoE塊的模塊初始化為預(yù)訓練的MLP,以替換相應(yīng)的MLP塊,如圖3所示。

三階段訓練:為了進一步增強訓練穩(wěn)定性,論文為CuMo模型采用了一種三階段訓練策略,如圖4所示。在第一階段,論文只預(yù)訓練MLP連接器,因為視覺編碼器和LLM已經(jīng)在大型數(shù)據(jù)上進行了預(yù)訓練。在第二階段預(yù)微調(diào)期間,論文使用高質(zhì)量的標題數(shù)據(jù)訓練所有參數(shù),以在引入MoE塊的后續(xù)階段之前預(yù)熱整個模型。第三階段涉及視覺指令微調(diào),其中多模態(tài)LLM通過升級的MoE塊進行擴展,并在視覺指令微調(diào)數(shù)據(jù)上進行訓練。 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

*表1. CuMo與其他最先進的多模態(tài)LLM在競爭基準上的比較。這些模型根據(jù)基礎(chǔ)LLM的大小分組。由于空間有限,基準測試是雙行的:SQA-IMG [50];TextVQA [62];GQA [24];POPE [40];MME [19];MMBench [49];MMVet [71];VQAv2 [21];LLaVA-Wild [47];SEED-IMG [37];MMMU [72];MathVista [51]。                
激活參數(shù)。數(shù)字?是通過查詢GPT API的三次推理運行平均得到的*

損失函數(shù):為了在每個MoE塊中保持專家之間的負載平衡,論文采用了基于語言建模交叉熵損失的輔助損失。輔助損失包括加載平衡損失和路由器z損失[77]。

2.3 論文的效果

論文在一個混合的開源數(shù)據(jù)集上訓練CuMo模型,這些數(shù)據(jù)集被轉(zhuǎn)換為視覺指令調(diào)整格式。然后,論文在各種競爭性的VQA基礎(chǔ)和指令遵循基礎(chǔ)的基準上對CuMo模型的性能進行全面評估。此外,論文對每個模塊進行消融研究,使用升級的MoE塊,并對結(jié)果進行定性分析。 

2.3.1. 實現(xiàn)細節(jié)

訓練數(shù)據(jù)集 在預(yù)訓練期間,論文僅使用LLaVA-558K [47]來訓練MLP連接器,以獲得更好的對齊。在隨后的預(yù)微調(diào)階段,使用來自ALLaVA 的詳細的圖像標題數(shù)據(jù)來預(yù)熱多模態(tài)LLM的所有參數(shù)。對于最終的視覺指令調(diào)整階段,使用包括LLaVA-665K 、ShareGPT4V 、LAION-GPT-V 、DocVQA 、ChartQA 、AI2D 、InfoVQA 、SynDog-EN 、ALLaVA和LIMA在內(nèi)的混合數(shù)據(jù)集來訓練帶有升級MoE塊的CuMo模型。視覺指令調(diào)整的總數(shù)據(jù)大小約為165萬,所有訓練數(shù)據(jù)都是公開可訪問的。

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

表2. CuMo Mistral-7B與其他具有有限訓練數(shù)據(jù)的多模態(tài)LMM模型的比較

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

表3. 對MLP-MoE模塊的消融研究。每一行代表一個不同的配置,使用?和+符號token更改或添加。在表1中為MLP-MoE模塊采用的設(shè)置以淺藍色背景突出顯示 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

表4. 對CLIP-MoE模塊的消融研究。所有CLIP中的MoE塊都使用升級進行初始化

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

表5. 對LLM-MoE模塊的消融研究。Mixtral 8×7B在很大程度上優(yōu)于升級的Mistral MoE模型。

評估基準:CuMo模型的評估主要集中在學術(shù)VQA基礎(chǔ)數(shù)據(jù)集,如VQAv2 、GQA 、Science-QA 和TextVQA ,以及指令遵循基礎(chǔ)的LMM基準,包括POPE 、MME 、MM-Bench 、SEED-Bench 、LLaVA-Wild和MM-Vet。此外,還評估了具有挑戰(zhàn)性的MMMU [72]和MathVista [51]數(shù)據(jù)集,以評估多模態(tài)LLM的視覺推理能力。

訓練設(shè)置:論文采用預(yù)訓練的CLIP ViT-L 作為視覺編碼器,一個兩層MLP作為視覺-語言連接器,以及Mistral-7B 作為LLM,以遵循LLaVA v1.5 建立基線模型。論文僅使用LLaVA-558K作為預(yù)訓練數(shù)據(jù),使用LLaVA-665K 作為視覺指令調(diào)整數(shù)據(jù)來訓練基線模型,并進行消融研究以進行比較。學習率設(shè)置為1e-3用于預(yù)訓練MLP連接器,并降低到2e-5用于MLP連接器和CLIP的視覺指令調(diào)整。為了在擴展額外數(shù)據(jù)后進一步穩(wěn)定視覺指令調(diào)整過程,最終結(jié)果中CuMo模型的所有參數(shù)的學習率降低到2e-6。 

評估設(shè)置:在評估過程中,論文遵循LLaVA系列中概述的設(shè)置,為所有基準測試采用貪婪解碼策略。                
數(shù)據(jù)和問題被轉(zhuǎn)換成視覺指令,以提示多模態(tài)大型語言模型(LLMs)。對于使用GPT API進行評估的基準測試,論文為LLaVA-Wild采用gpt-4-0613,為MathVista[51]采用gpt-3.5-turbo。

2.3.2. 主要結(jié)果

與最先進的(SoTA)多模態(tài)LLMs的比較:在表1中,論文展示了CuMo模型與其他基于指令跟隨的最先進多模態(tài)LLMs的比較。論文根據(jù)基礎(chǔ)LLMs的大小對模型進行分類,包括7B模型、13B模型和7B MoE模型。CuMo Mistral-7B在多個基準測試中超越了其他基于7B的最先進多模態(tài)LLMs。此外,CuMo Mistral-7B模型的性能與許多基于13B的多模態(tài)LLMs相當。在Mixtral-8×7B模型的情況下,CuMo實現(xiàn)了與SPHINX-MoE、MM1和Mini-Gemini相當?shù)慕Y(jié)果。由于許可限制,論文沒有在論文的實驗中使用基于LLaMA的LLMs。

在有限訓練數(shù)據(jù)下的比較:為了進一步評估共同升級的MoE塊的有效性,論文在表2中展示了在有限訓練數(shù)據(jù)下訓練的純CuMo mistral-7B。結(jié)果顯示,CuMo在相同的訓練數(shù)據(jù)下超越了其他7B模型,并達到了與LLaVA-v1.5 Vicuna-13B相當?shù)男阅堋?/p>

2.3.3. 消融研究

將MLP連接器升級為MLP-MoE:論文通過將MLP連接器替換為升級的MLP-MoE來開始消融研究,如表3所示。論文從一個Top 2-in-4路由器開始,并從頭開始訓練MoE塊,這導(dǎo)致在所有基準測試上的性能明顯下降。然后,論文采用升級策略來初始化MLP專家。論文觀察到相對于基線有邊際改進,考慮到每個專家只包含兩個線性層。隨后,將bzloss納入以確保MLP-MoE中專家的平衡加載,在MMVet上產(chǎn)生了明顯的改進。然而,使用帶有升級和bzloss的Top 2-in-8路由器導(dǎo)致性能略有下降,可能是由于訓練強大的、平衡的八個專家所需的視覺指令調(diào)整數(shù)據(jù)有限。

增強CLIP與CLIP-MoE:在表4中,最初基于MLP-MoE解凍CLIP在TextVQA和MMVet基準測試上導(dǎo)致了明顯的改進。然而,從頭開始訓練添加的Top2-in-4 MoE塊在CLIP中被證明是不成功的,因為即使使用降低的學習率,模型也無法收斂。因此,在視覺指令調(diào)整階段采用升級的MoE塊在TextVQA、MMVet和SEED基準測試上產(chǎn)生了進一步的改進。 

升級LLM與預(yù)訓練LLM-MoE:在視覺部分替換所有MLP塊為稀疏門控MoE塊后,論文進一步研究了LLM中MoE架構(gòu)的使用。從Mistral-7B模型開始,論文首先將學習率降低到2e-6以設(shè)置基線和隨后的實驗,因為2e-5的學習率會導(dǎo)致訓練不穩(wěn)定。然后,論文將每個MLP塊與一個稀疏門控MoE塊升級,每個專家的權(quán)重從預(yù)訓練的MLP塊初始化。如表5所示,升級的Mistral-4×7B和8×7B在除了TextVQA之外略微超越了Mistral-7B模型。然而,考慮到升級的專家顯著增加了參數(shù)而沒有引入新知識,論文將升級的Mistral 8×7B替換為Mixtral 8×7B[30]。在Mixtral 8×7B中,所有專家層都在大規(guī)模語言數(shù)據(jù)上預(yù)訓練,提供了比升級更優(yōu)越的初始化。結(jié)果表明,CuMo Mixtral-8x7B顯著超越了其升級的對應(yīng)物,并在最終模型中使用bzloss來維持專家的平衡加載。

 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

多分辨率視覺特征:將多分辨率輸入納入對于增強多模態(tài)LLMs對圖像內(nèi)容的理解至關(guān)重要。遵循S2[61]中概述的方法,論文將多分辨率輸入引入到CLIP中,并在通道上連接特征圖,以保持與低分辨率輸入一致的總視覺token數(shù)。如表6所示,3×和1×的經(jīng)驗組合產(chǎn)生了最佳性能,論文為最終的CuMo模型采用了這種配置。

預(yù)微調(diào)階段:之前的消融研究直接在MLP連接器預(yù)訓練后進行,導(dǎo)致在視覺指令調(diào)優(yōu)期間觀察到訓練不穩(wěn)定性。為了解決這個問題,論文引入了一個利用高質(zhì)量圖像描述數(shù)據(jù)的預(yù)微調(diào)階段,在這個階段所有參數(shù)都被解凍。在表7中,論文利用ALLaVA數(shù)據(jù)集進行這個階段的訓練。結(jié)果表明,ALLaVA數(shù)據(jù)證明是一個更好的選擇,它提供的描述數(shù)據(jù)雖然更少但質(zhì)量更高,最終導(dǎo)致性能的提升。

                 

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

圖6. 用戶與多模態(tài)LLMs在挑戰(zhàn)性圖像上的對話。論文強調(diào)了多模態(tài)LLMs回答中的正確答案和幻覺 

2.3.4. 定性分析

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴展多模態(tài)大型語言模型-AI.x社區(qū)

專家分布: 如圖5所示,論文可視化了CLIP-MoE中選定層的MoE塊中的專家分布。分析的數(shù)據(jù)集是MME基準測試集。分布顯示,在推理過程中選擇的專家均勻分布在各層,進一步證明了輔助損失在維持負載平衡方面的有效性。

對話比較: 在圖6中,論文對比了CuMo-Mistral-7B、LLaVA-Yi-34B和MiniGemini-Yi-34B的響應(yīng)。它展示了CuMo-Mistral7B能夠有效地執(zhí)行指令,并且主要能對源自復(fù)雜場景的具有挑戰(zhàn)性的問題給出正確答復(fù)。然而,CuMo也展現(xiàn)了一些產(chǎn)生幻覺的情況,比如回答"2個人站在桌子上",這凸顯了需要進一步研究來減少CuMo中的幻覺。


論文標題:CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts

論文鏈接:???https://arxiv.org/pdf/2405.05949?

本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦