自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型融合!最新「進(jìn)化算法」全自動(dòng)組合開(kāi)源模型,刷榜多項(xiàng)基準(zhǔn)測(cè)試

人工智能
「基礎(chǔ)模型社區(qū)幾乎完全集中在學(xué)習(xí)上,但沒(méi)有把重點(diǎn)放在搜索上。我相信后者在訓(xùn)練(進(jìn)化算法)和推理(AlphaGo風(fēng)格的搜索)階段都有巨大的潛力?!?/div>

人類智慧的基礎(chǔ)并不在于單個(gè)聰明的個(gè)體,而在于集體智慧。

比如說(shuō),我們的社會(huì)和經(jīng)濟(jì)體系就是建立在由具有不同專業(yè)和專長(zhǎng)的不同個(gè)人組成的許多機(jī)構(gòu)的基礎(chǔ)上的。

Sakana AI團(tuán)隊(duì)相信,人工智能的發(fā)展也將遵循類似的集體道路。

人工智能的未來(lái)不會(huì)是一個(gè)單一的、巨大的、無(wú)所不知的AI系統(tǒng),需要巨大的能量來(lái)訓(xùn)練、運(yùn)行和維護(hù);

而會(huì)是個(gè)由許多小型AI系統(tǒng)組成的廣泛集合體,每個(gè)系統(tǒng)都有自己的專長(zhǎng),并相互連接,新的AI系統(tǒng)被開(kāi)發(fā)來(lái)填補(bǔ)特定的專業(yè)。

事實(shí)上,開(kāi)源基礎(chǔ)模型可以很容易地在數(shù)百種不同的方向上進(jìn)行擴(kuò)展和微調(diào),以產(chǎn)生在其自身專業(yè)中表現(xiàn)出色的新模型。

Open LLM排行榜上表現(xiàn)最佳的模型大多不再是原始的開(kāi)源基礎(chǔ)模型,如LLaMA或Mistral,而是對(duì)現(xiàn)有模型進(jìn)行微調(diào)或合并的模型。

同時(shí),計(jì)算資源相比于傳統(tǒng)的LLM訓(xùn)練來(lái)說(shuō)也要少得多。

目前,Hugging Face擁有50多萬(wàn)個(gè)模型,涵蓋數(shù)十種不同的模態(tài),原則上就可以組合成具有新能力的新模型。

Sakana AI把這個(gè)想法轉(zhuǎn)成了現(xiàn)實(shí)。他們研究出一種進(jìn)化模型合并的方法,這是一種使用進(jìn)化技術(shù)來(lái)有效地發(fā)現(xiàn)不同開(kāi)源模型的最佳組合方式的通用方法。

圖片圖片

論文地址:https://arxiv.org/abs/2403.13187

令人吃驚的是,進(jìn)化模型合并的方法,能夠自動(dòng)發(fā)現(xiàn)從非常不同的領(lǐng)域(如非英語(yǔ)語(yǔ)言和數(shù)學(xué),或非英語(yǔ)語(yǔ)言和視覺(jué))中合并不同模型的新方法,這些方法可能對(duì)人類專家自己來(lái)說(shuō)都很難發(fā)現(xiàn)。

利用進(jìn)化算法找到最優(yōu)組合方式

人類的直覺(jué)是有限的。隨著開(kāi)放模型和任務(wù)的多樣性不斷增長(zhǎng),一種更系統(tǒng)化的方法才能解鎖更有效的合并解決方案,那就是受自然選擇啟發(fā)的進(jìn)化算法。

以下是一個(gè)簡(jiǎn)單的進(jìn)化算法的舉例,用于自動(dòng)設(shè)計(jì)一個(gè)行駛距離很遠(yuǎn)的二維汽車。

起初,會(huì)隨機(jī)產(chǎn)生許多設(shè)計(jì),但只有少數(shù)可以向前移動(dòng)的設(shè)計(jì)會(huì)將其成功的特征傳遞給下一代。

經(jīng)過(guò)多代自然選擇,這些遺傳汽車可以在環(huán)境中高效地前進(jìn),穿越具有挑戰(zhàn)性的地形。

圖片圖片

Sakana AI的進(jìn)化模型合并方法,結(jié)合了兩種不同的進(jìn)化方法。

1. 在數(shù)據(jù)流空間(層)中合并模型

這種方法是利用進(jìn)化發(fā)現(xiàn)如何最優(yōu)將不同模型的層組合成新模型。

直覺(jué)和啟發(fā)式方法被用于確定如何以及哪些層將一個(gè)模型的層與另一個(gè)模型的層組合起來(lái)。

圖片圖片

這個(gè)問(wèn)題具有組合性很強(qiáng)的大量搜索空間,最適合用優(yōu)化算法(如進(jìn)化)進(jìn)行搜索。

2. 在參數(shù)空間(權(quán)重)中合并模型

第二種方法是演化出新的混合多個(gè)模型的權(quán)重的方法。

有無(wú)窮無(wú)盡的方式可以混合來(lái)自不同模型的權(quán)重,更不用說(shuō)每一層的混合比例了。這就是進(jìn)化方法可以應(yīng)用于有效地找到組合多個(gè)模型的權(quán)重的新型混合策略的地方。

圖片圖片

當(dāng)這兩種方法一起使用的時(shí)候,Sakana AI團(tuán)隊(duì)發(fā)現(xiàn)即使在相對(duì)相距較遠(yuǎn)的兩個(gè)領(lǐng)域,例如數(shù)學(xué)和非英語(yǔ)語(yǔ)言,或視覺(jué)和非英語(yǔ)語(yǔ)言上,模型也能取得不錯(cuò)的表現(xiàn)。

融合的新模型表現(xiàn)出色

- 大型語(yǔ)言模型(EvoLLM-JP)

Sakana AI團(tuán)隊(duì)用進(jìn)化模型合并的方法生成的第一個(gè)模型,是一個(gè)既會(huì)日語(yǔ),又會(huì)數(shù)學(xué)的大語(yǔ)言模型。

為了構(gòu)建這樣的模型,他們使用了一種進(jìn)化算法,將日語(yǔ)LLM(Shisa-Gamma)與數(shù)學(xué)專用LLM(WizardMath和Abel)合并。

圖片圖片

LLM性能比較,MGSM-JA列顯示了正確答案的百分比。模型1-3是原始模型,模型4-6是優(yōu)化的合并模型。模型7-10是用于比較的現(xiàn)有高性能LLM的分?jǐn)?shù)。

上表報(bào)告了演化的LLM模型的結(jié)果。模型4在參數(shù)空間中進(jìn)行了優(yōu)化,模型6進(jìn)一步在數(shù)據(jù)流空間中使用模型4進(jìn)行了優(yōu)化。

這些模型的正確響應(yīng)率顯著高于三個(gè)源模型的正確響應(yīng)率。

這個(gè)模型也可以產(chǎn)生一些有趣的示例,例如能夠解答需要特定日本文化知識(shí)的數(shù)學(xué)問(wèn)題等。

- 視覺(jué)語(yǔ)言模型(EvoVLM-JP)

進(jìn)化算法不僅能夠發(fā)現(xiàn)將僅處理文本的LLMs合并的新穎方法,還能夠演變出為不同目的創(chuàng)建的不同架構(gòu)的模型。例如日語(yǔ)和視覺(jué)結(jié)合的大模型。

JA-VG-VQA-500和JA-VLM-Bench-In-the-Wild都是關(guān)于圖像的問(wèn)題和答案的基準(zhǔn)測(cè)試。得分越高,描述的準(zhǔn)確性就越高。

有趣的是,合并之后的模型不僅能夠比其基礎(chǔ)LLaVa-1.6-Mistral-7B的英語(yǔ)VLM實(shí)現(xiàn)更高的分?jǐn)?shù),而且比現(xiàn)有的日語(yǔ)VLM JSVLM得分更高。

圖片圖片

以下是一個(gè)的EvoVLM-JP的回答示例。大多數(shù)其他模型通常會(huì)輸出綠色作為答案,但EvoVLM-JP的答案是藍(lán)色。

綠色在技術(shù)上并不是錯(cuò)誤的,但在日本的習(xí)慣中,交通燈的「前進(jìn)許可」被描述為「藍(lán)燈」。如果你正在學(xué)習(xí)日語(yǔ),這是一個(gè)日本文化中很有趣的例子。

圖片圖片

- 圖像生成模型(EvoSDXL-JP)

進(jìn)化算法也可以自動(dòng)發(fā)現(xiàn)合并不同擴(kuò)散模型的方法,而且生成速度特別快。

比如適用于日語(yǔ)的EvoSDXL-JP用「味噌拉面,最高品質(zhì)的浮世繪,北齋,江戶時(shí)代」這四個(gè)關(guān)鍵詞,就能快速生成如下的圖片,是不是很神奇?

圖片圖片

預(yù)示AI發(fā)展新趨勢(shì)?

在論文的最后,作者表示,現(xiàn)在僅僅呈現(xiàn)的是初步結(jié)果,也僅僅是將進(jìn)化原則應(yīng)用于基礎(chǔ)模型開(kāi)發(fā)的長(zhǎng)期發(fā)展的開(kāi)端。

這個(gè)項(xiàng)目背后的想法不是要?jiǎng)?chuàng)建更好的模型,而是為了獲得更多指標(biāo),以幫助制定更有原則性的模型合并方法。

英偉達(dá)的高級(jí)科學(xué)家Jim Fan都評(píng)價(jià)道,

「基礎(chǔ)模型社區(qū)幾乎完全集中在學(xué)習(xí)上,但沒(méi)有把重點(diǎn)放在搜索上。我相信后者在訓(xùn)練(進(jìn)化算法)和推理(AlphaGo風(fēng)格的搜索)階段都有巨大的潛力?!?/span>

圖片圖片

除了模型選擇,Sakana AI團(tuán)隊(duì)還在探索使用進(jìn)化來(lái)產(chǎn)生一群具有各自獨(dú)特領(lǐng)域和行為的多樣基礎(chǔ)模型。

那這是不是預(yù)示著,能自我改進(jìn)的模型集體智能也不遠(yuǎn)了?

參考資料:

https://twitter.com/DrJimFan/status/1771927650883522899

https://sakana.ai/evolutionary-model-merge/

https://arxiv.org/abs/2403.13187

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2025-04-15 08:00:00

LMArenaLlama 4大模型

2024-09-29 13:10:08

2023-11-16 12:36:00

AI數(shù)據(jù)

2023-11-09 15:12:00

模型數(shù)據(jù)

2024-08-27 08:38:34

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法

2024-09-02 09:12:00

場(chǎng)景管理

2023-11-02 13:23:22

2024-08-23 13:40:57

2025-04-27 08:50:00

開(kāi)源語(yǔ)音模型

2024-04-15 13:51:03

模型LLMLLMs

2023-11-05 15:25:56

2024-10-16 21:47:15

2024-04-01 08:00:00

AI模型

2023-07-05 09:57:11

2023-11-22 11:29:28

2021-04-22 15:25:29

AI 數(shù)據(jù)人工智能

2024-02-27 13:38:16

微軟OpenAI模型

2023-08-24 13:59:57

模型數(shù)據(jù)

2024-03-11 00:09:00

模型融合場(chǎng)景
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)