大模型融合!最新「進(jìn)化算法」全自動組合開源模型,刷榜多項基準(zhǔn)測試
人類智慧的基礎(chǔ)并不在于單個聰明的個體,而在于集體智慧。
比如說,我們的社會和經(jīng)濟(jì)體系就是建立在由具有不同專業(yè)和專長的不同個人組成的許多機(jī)構(gòu)的基礎(chǔ)上的。
Sakana AI團(tuán)隊相信,人工智能的發(fā)展也將遵循類似的集體道路。
人工智能的未來不會是一個單一的、巨大的、無所不知的AI系統(tǒng),需要巨大的能量來訓(xùn)練、運(yùn)行和維護(hù);
而會是個由許多小型AI系統(tǒng)組成的廣泛集合體,每個系統(tǒng)都有自己的專長,并相互連接,新的AI系統(tǒng)被開發(fā)來填補(bǔ)特定的專業(yè)。
事實(shí)上,開源基礎(chǔ)模型可以很容易地在數(shù)百種不同的方向上進(jìn)行擴(kuò)展和微調(diào),以產(chǎn)生在其自身專業(yè)中表現(xiàn)出色的新模型。
Open LLM排行榜上表現(xiàn)最佳的模型大多不再是原始的開源基礎(chǔ)模型,如LLaMA或Mistral,而是對現(xiàn)有模型進(jìn)行微調(diào)或合并的模型。
同時,計算資源相比于傳統(tǒng)的LLM訓(xùn)練來說也要少得多。
目前,Hugging Face擁有50多萬個模型,涵蓋數(shù)十種不同的模態(tài),原則上就可以組合成具有新能力的新模型。
Sakana AI把這個想法轉(zhuǎn)成了現(xiàn)實(shí)。他們研究出一種進(jìn)化模型合并的方法,這是一種使用進(jìn)化技術(shù)來有效地發(fā)現(xiàn)不同開源模型的最佳組合方式的通用方法。
論文地址:https://arxiv.org/abs/2403.13187
令人吃驚的是,進(jìn)化模型合并的方法,能夠自動發(fā)現(xiàn)從非常不同的領(lǐng)域(如非英語語言和數(shù)學(xué),或非英語語言和視覺)中合并不同模型的新方法,這些方法可能對人類專家自己來說都很難發(fā)現(xiàn)。
利用進(jìn)化算法找到最優(yōu)組合方式
人類的直覺是有限的。隨著開放模型和任務(wù)的多樣性不斷增長,一種更系統(tǒng)化的方法才能解鎖更有效的合并解決方案,那就是受自然選擇啟發(fā)的進(jìn)化算法。
以下是一個簡單的進(jìn)化算法的舉例,用于自動設(shè)計一個行駛距離很遠(yuǎn)的二維汽車。
起初,會隨機(jī)產(chǎn)生許多設(shè)計,但只有少數(shù)可以向前移動的設(shè)計會將其成功的特征傳遞給下一代。
經(jīng)過多代自然選擇,這些遺傳汽車可以在環(huán)境中高效地前進(jìn),穿越具有挑戰(zhàn)性的地形。
Sakana AI的進(jìn)化模型合并方法,結(jié)合了兩種不同的進(jìn)化方法。
在數(shù)據(jù)流空間(層)中合并模型
這種方法是利用進(jìn)化發(fā)現(xiàn)如何最優(yōu)將不同模型的層組合成新模型。
直覺和啟發(fā)式方法被用于確定如何以及哪些層將一個模型的層與另一個模型的層組合起來。
這個問題具有組合性很強(qiáng)的大量搜索空間,最適合用優(yōu)化算法(如進(jìn)化)進(jìn)行搜索。
2.在參數(shù)空間(權(quán)重)中合并模型
第二種方法是演化出新的混合多個模型的權(quán)重的方法。
有無窮無盡的方式可以混合來自不同模型的權(quán)重,更不用說每一層的混合比例了。這就是進(jìn)化方法可以應(yīng)用于有效地找到組合多個模型的權(quán)重的新型混合策略的地方。
當(dāng)這兩種方法一起使用的時候,Sakana AI團(tuán)隊發(fā)現(xiàn)即使在相對相距較遠(yuǎn)的兩個領(lǐng)域,例如數(shù)學(xué)和非英語語言,或視覺和非英語語言上,模型也能取得不錯的表現(xiàn)。
融合的新模型表現(xiàn)出色
- 大型語言模型(EvoLLM-JP)
Sakana AI團(tuán)隊用進(jìn)化模型合并的方法生成的第一個模型,是一個既會日語,又會數(shù)學(xué)的大語言模型。
為了構(gòu)建這樣的模型,他們使用了一種進(jìn)化算法,將日語LLM(Shisa-Gamma)與數(shù)學(xué)專用LLM(WizardMath和Abel)合并。
LLM性能比較,MGSM-JA列顯示了正確答案的百分比。模型1-3是原始模型,模型4-6是優(yōu)化的合并模型。模型7-10是用于比較的現(xiàn)有高性能LLM的分?jǐn)?shù)。
上表報告了演化的LLM模型的結(jié)果。模型4在參數(shù)空間中進(jìn)行了優(yōu)化,模型6進(jìn)一步在數(shù)據(jù)流空間中使用模型4進(jìn)行了優(yōu)化。
這些模型的正確響應(yīng)率顯著高于三個源模型的正確響應(yīng)率。
這個模型也可以產(chǎn)生一些有趣的示例,例如能夠解答需要特定日本文化知識的數(shù)學(xué)問題等。
- 視覺語言模型(EvoVLM-JP)
進(jìn)化算法不僅能夠發(fā)現(xiàn)將僅處理文本的LLMs合并的新穎方法,還能夠演變出為不同目的創(chuàng)建的不同架構(gòu)的模型。例如日語和視覺結(jié)合的大模型。
JA-VG-VQA-500和JA-VLM-Bench-In-the-Wild都是關(guān)于圖像的問題和答案的基準(zhǔn)測試。得分越高,描述的準(zhǔn)確性就越高。
有趣的是,合并之后的模型不僅能夠比其基礎(chǔ)LLaVa-1.6-Mistral-7B的英語VLM實(shí)現(xiàn)更高的分?jǐn)?shù),而且比現(xiàn)有的日語VLM JSVLM得分更高。
以下是一個的EvoVLM-JP的回答示例。大多數(shù)其他模型通常會輸出綠色作為答案,但EvoVLM-JP的答案是藍(lán)色。
綠色在技術(shù)上并不是錯誤的,但在日本的習(xí)慣中,交通燈的「前進(jìn)許可」被描述為「藍(lán)燈」。如果你正在學(xué)習(xí)日語,這是一個日本文化中很有趣的例子。
- 圖像生成模型(EvoSDXL-JP)
進(jìn)化算法也可以自動發(fā)現(xiàn)合并不同擴(kuò)散模型的方法,而且生成速度特別快。
比如適用于日語的EvoSDXL-JP用「味噌拉面,最高品質(zhì)的浮世繪,北齋,江戶時代」這四個關(guān)鍵詞,就能快速生成如下的圖片,是不是很神奇?
預(yù)示AI發(fā)展新趨勢?
在論文的最后,作者表示,現(xiàn)在僅僅呈現(xiàn)的是初步結(jié)果,也僅僅是將進(jìn)化原則應(yīng)用于基礎(chǔ)模型開發(fā)的長期發(fā)展的開端。
這個項目背后的想法不是要創(chuàng)建更好的模型,而是為了獲得更多指標(biāo),以幫助制定更有原則性的模型合并方法。
英偉達(dá)的高級科學(xué)家Jim Fan都評價道,
「基礎(chǔ)模型社區(qū)幾乎完全集中在學(xué)習(xí)上,但沒有把重點(diǎn)放在搜索上。我相信后者在訓(xùn)練(進(jìn)化算法)和推理(AlphaGo風(fēng)格的搜索)階段都有巨大的潛力。」
除了模型選擇,Sakana AI團(tuán)隊還在探索使用進(jìn)化來產(chǎn)生一群具有各自獨(dú)特領(lǐng)域和行為的多樣基礎(chǔ)模型。
那這是不是預(yù)示著,能自我改進(jìn)的模型集體智能也不遠(yuǎn)了?
本文轉(zhuǎn)自新智元 ,作者:新智元
