大模型融合!最新「進(jìn)化算法」全自動(dòng)組合開(kāi)源模型,刷榜多項(xiàng)基準(zhǔn)測(cè)試
人類智慧的基礎(chǔ)并不在于單個(gè)聰明的個(gè)體,而在于集體智慧。
比如說(shuō),我們的社會(huì)和經(jīng)濟(jì)體系就是建立在由具有不同專業(yè)和專長(zhǎng)的不同個(gè)人組成的許多機(jī)構(gòu)的基礎(chǔ)上的。
Sakana AI團(tuán)隊(duì)相信,人工智能的發(fā)展也將遵循類似的集體道路。
人工智能的未來(lái)不會(huì)是一個(gè)單一的、巨大的、無(wú)所不知的AI系統(tǒng),需要巨大的能量來(lái)訓(xùn)練、運(yùn)行和維護(hù);
而會(huì)是個(gè)由許多小型AI系統(tǒng)組成的廣泛集合體,每個(gè)系統(tǒng)都有自己的專長(zhǎng),并相互連接,新的AI系統(tǒng)被開(kāi)發(fā)來(lái)填補(bǔ)特定的專業(yè)。
事實(shí)上,開(kāi)源基礎(chǔ)模型可以很容易地在數(shù)百種不同的方向上進(jìn)行擴(kuò)展和微調(diào),以產(chǎn)生在其自身專業(yè)中表現(xiàn)出色的新模型。
Open LLM排行榜上表現(xiàn)最佳的模型大多不再是原始的開(kāi)源基礎(chǔ)模型,如LLaMA或Mistral,而是對(duì)現(xiàn)有模型進(jìn)行微調(diào)或合并的模型。
同時(shí),計(jì)算資源相比于傳統(tǒng)的LLM訓(xùn)練來(lái)說(shuō)也要少得多。
目前,Hugging Face擁有50多萬(wàn)個(gè)模型,涵蓋數(shù)十種不同的模態(tài),原則上就可以組合成具有新能力的新模型。
Sakana AI把這個(gè)想法轉(zhuǎn)成了現(xiàn)實(shí)。他們研究出一種進(jìn)化模型合并的方法,這是一種使用進(jìn)化技術(shù)來(lái)有效地發(fā)現(xiàn)不同開(kāi)源模型的最佳組合方式的通用方法。
圖片
論文地址:https://arxiv.org/abs/2403.13187
令人吃驚的是,進(jìn)化模型合并的方法,能夠自動(dòng)發(fā)現(xiàn)從非常不同的領(lǐng)域(如非英語(yǔ)語(yǔ)言和數(shù)學(xué),或非英語(yǔ)語(yǔ)言和視覺(jué))中合并不同模型的新方法,這些方法可能對(duì)人類專家自己來(lái)說(shuō)都很難發(fā)現(xiàn)。
利用進(jìn)化算法找到最優(yōu)組合方式
人類的直覺(jué)是有限的。隨著開(kāi)放模型和任務(wù)的多樣性不斷增長(zhǎng),一種更系統(tǒng)化的方法才能解鎖更有效的合并解決方案,那就是受自然選擇啟發(fā)的進(jìn)化算法。
以下是一個(gè)簡(jiǎn)單的進(jìn)化算法的舉例,用于自動(dòng)設(shè)計(jì)一個(gè)行駛距離很遠(yuǎn)的二維汽車。
起初,會(huì)隨機(jī)產(chǎn)生許多設(shè)計(jì),但只有少數(shù)可以向前移動(dòng)的設(shè)計(jì)會(huì)將其成功的特征傳遞給下一代。
經(jīng)過(guò)多代自然選擇,這些遺傳汽車可以在環(huán)境中高效地前進(jìn),穿越具有挑戰(zhàn)性的地形。
圖片
Sakana AI的進(jìn)化模型合并方法,結(jié)合了兩種不同的進(jìn)化方法。
1. 在數(shù)據(jù)流空間(層)中合并模型
這種方法是利用進(jìn)化發(fā)現(xiàn)如何最優(yōu)將不同模型的層組合成新模型。
直覺(jué)和啟發(fā)式方法被用于確定如何以及哪些層將一個(gè)模型的層與另一個(gè)模型的層組合起來(lái)。
圖片
這個(gè)問(wèn)題具有組合性很強(qiáng)的大量搜索空間,最適合用優(yōu)化算法(如進(jìn)化)進(jìn)行搜索。
2. 在參數(shù)空間(權(quán)重)中合并模型
第二種方法是演化出新的混合多個(gè)模型的權(quán)重的方法。
有無(wú)窮無(wú)盡的方式可以混合來(lái)自不同模型的權(quán)重,更不用說(shuō)每一層的混合比例了。這就是進(jìn)化方法可以應(yīng)用于有效地找到組合多個(gè)模型的權(quán)重的新型混合策略的地方。
圖片
當(dāng)這兩種方法一起使用的時(shí)候,Sakana AI團(tuán)隊(duì)發(fā)現(xiàn)即使在相對(duì)相距較遠(yuǎn)的兩個(gè)領(lǐng)域,例如數(shù)學(xué)和非英語(yǔ)語(yǔ)言,或視覺(jué)和非英語(yǔ)語(yǔ)言上,模型也能取得不錯(cuò)的表現(xiàn)。
融合的新模型表現(xiàn)出色
- 大型語(yǔ)言模型(EvoLLM-JP)
Sakana AI團(tuán)隊(duì)用進(jìn)化模型合并的方法生成的第一個(gè)模型,是一個(gè)既會(huì)日語(yǔ),又會(huì)數(shù)學(xué)的大語(yǔ)言模型。
為了構(gòu)建這樣的模型,他們使用了一種進(jìn)化算法,將日語(yǔ)LLM(Shisa-Gamma)與數(shù)學(xué)專用LLM(WizardMath和Abel)合并。
圖片
LLM性能比較,MGSM-JA列顯示了正確答案的百分比。模型1-3是原始模型,模型4-6是優(yōu)化的合并模型。模型7-10是用于比較的現(xiàn)有高性能LLM的分?jǐn)?shù)。
上表報(bào)告了演化的LLM模型的結(jié)果。模型4在參數(shù)空間中進(jìn)行了優(yōu)化,模型6進(jìn)一步在數(shù)據(jù)流空間中使用模型4進(jìn)行了優(yōu)化。
這些模型的正確響應(yīng)率顯著高于三個(gè)源模型的正確響應(yīng)率。
這個(gè)模型也可以產(chǎn)生一些有趣的示例,例如能夠解答需要特定日本文化知識(shí)的數(shù)學(xué)問(wèn)題等。
- 視覺(jué)語(yǔ)言模型(EvoVLM-JP)
進(jìn)化算法不僅能夠發(fā)現(xiàn)將僅處理文本的LLMs合并的新穎方法,還能夠演變出為不同目的創(chuàng)建的不同架構(gòu)的模型。例如日語(yǔ)和視覺(jué)結(jié)合的大模型。
JA-VG-VQA-500和JA-VLM-Bench-In-the-Wild都是關(guān)于圖像的問(wèn)題和答案的基準(zhǔn)測(cè)試。得分越高,描述的準(zhǔn)確性就越高。
有趣的是,合并之后的模型不僅能夠比其基礎(chǔ)LLaVa-1.6-Mistral-7B的英語(yǔ)VLM實(shí)現(xiàn)更高的分?jǐn)?shù),而且比現(xiàn)有的日語(yǔ)VLM JSVLM得分更高。
圖片
以下是一個(gè)的EvoVLM-JP的回答示例。大多數(shù)其他模型通常會(huì)輸出綠色作為答案,但EvoVLM-JP的答案是藍(lán)色。
綠色在技術(shù)上并不是錯(cuò)誤的,但在日本的習(xí)慣中,交通燈的「前進(jìn)許可」被描述為「藍(lán)燈」。如果你正在學(xué)習(xí)日語(yǔ),這是一個(gè)日本文化中很有趣的例子。
圖片
- 圖像生成模型(EvoSDXL-JP)
進(jìn)化算法也可以自動(dòng)發(fā)現(xiàn)合并不同擴(kuò)散模型的方法,而且生成速度特別快。
比如適用于日語(yǔ)的EvoSDXL-JP用「味噌拉面,最高品質(zhì)的浮世繪,北齋,江戶時(shí)代」這四個(gè)關(guān)鍵詞,就能快速生成如下的圖片,是不是很神奇?
圖片
預(yù)示AI發(fā)展新趨勢(shì)?
在論文的最后,作者表示,現(xiàn)在僅僅呈現(xiàn)的是初步結(jié)果,也僅僅是將進(jìn)化原則應(yīng)用于基礎(chǔ)模型開(kāi)發(fā)的長(zhǎng)期發(fā)展的開(kāi)端。
這個(gè)項(xiàng)目背后的想法不是要?jiǎng)?chuàng)建更好的模型,而是為了獲得更多指標(biāo),以幫助制定更有原則性的模型合并方法。
英偉達(dá)的高級(jí)科學(xué)家Jim Fan都評(píng)價(jià)道,
「基礎(chǔ)模型社區(qū)幾乎完全集中在學(xué)習(xí)上,但沒(méi)有把重點(diǎn)放在搜索上。我相信后者在訓(xùn)練(進(jìn)化算法)和推理(AlphaGo風(fēng)格的搜索)階段都有巨大的潛力?!?/span>
圖片
除了模型選擇,Sakana AI團(tuán)隊(duì)還在探索使用進(jìn)化來(lái)產(chǎn)生一群具有各自獨(dú)特領(lǐng)域和行為的多樣基礎(chǔ)模型。
那這是不是預(yù)示著,能自我改進(jìn)的模型集體智能也不遠(yuǎn)了?
參考資料:
https://twitter.com/DrJimFan/status/1771927650883522899






