離職谷歌的Transformer作者創(chuàng)業(yè),連發(fā)3個模型(附技術(shù)報告)
去年 8 月,兩位著名的前谷歌研究人員 David Ha、Llion Jones 宣布創(chuàng)立一家人工智能公司 Sakana AI,總部位于日本東京。其中,Llion Jones 是谷歌 2017 年經(jīng)典研究論文《Attention is all you need》的第五作者,該論文提出了深度學(xué)習(xí)架構(gòu) transformer。transformer 對整個機器學(xué)習(xí)領(lǐng)域產(chǎn)生了重要影響,并且是 ChatGPT 等生成式 AI 模型的基礎(chǔ)。
論文于 2017 年 6 月首次發(fā)表后,隨著全球?qū)ι扇斯ぶ悄苋瞬鸥偁幉粩嗌郎?,論文作者陸續(xù)離開谷歌,自立門戶創(chuàng)業(yè)。Llion Jones 是八位作者中最后一個退出谷歌的人。
David Ha、Llion Jones 成立的初創(chuàng)公司 Sakana AI 致力于構(gòu)建生成式 AI 模型。最近,Sakana AI 宣布推出一種通用方法 ——Evolutionary Model Merge。該方法使用進(jìn)化算法來有效地發(fā)現(xiàn)組合不同開源模型的最佳方法,這些開源模型具有不同功能。Evolutionary Model Merge 方法能夠自動創(chuàng)建具有用戶指定功能的新基礎(chǔ)模型。
為了測試其方法的有效性,研究團(tuán)隊用 Evolutionary Model Merge 方法演化出能夠進(jìn)行數(shù)學(xué)推理的日語大語言模型(LLM)和日語視覺語言模型(VLM)。實驗結(jié)果表明這兩個模型在沒有經(jīng)過明確優(yōu)化的情況下,在多個 LLM 和視覺基準(zhǔn)上都取得了 SOTA 結(jié)果。
特別是,其中進(jìn)行數(shù)學(xué)推理的日語 LLM 是一個 7B 參數(shù)模型,它在大量日語 LLM 基準(zhǔn)上取得了頂級性能,甚至超過了一些 SOTA 70B 參數(shù) LLM。
最終,研究團(tuán)隊?wèi)?yīng)用 Evolutionary Model Merge 方法演化出 3 個強大的基礎(chǔ)模型:
1. 大語言模型(EvoLLM-JP)
2. 視覺語言模型(EvoVLM-JP)
3. 圖像生成模型(EvoSDXL-JP)
值得注意的是,Evolutionary Model Merge 方法能夠自動生成新的基礎(chǔ)模型,而不需要任何基于梯度的訓(xùn)練,因此需要相對較少的計算資源。
Sakana AI 團(tuán)隊認(rèn)為:受自然選擇啟發(fā)的進(jìn)化算法可以解鎖有效的開源方法合并解決方案,以探索廣闊的可能性空間,發(fā)現(xiàn)傳統(tǒng)方法和人類直覺可能錯過的新穎且不直觀的組合。
技術(shù)詳解
技術(shù)報告介紹了 Evolutionary Model Merge 這種通用進(jìn)化方法。
報告地址:https://arxiv.org/pdf/2403.13187.pdf
本文的目標(biāo)是創(chuàng)建一個統(tǒng)一的框架,能夠從選定的基礎(chǔ)模型中自動生成合并模型,以確保該合并模型的性能超過集合中任何個體的性能,方法的核心是進(jìn)化算法。研究者首先將合并過程剖析成兩個不同的、正交的配置空間,并分析它們各自的影響?;诖朔治?,他們隨后引入了一個無縫集成這些空間的內(nèi)聚框架。圖 1 為示意圖。
Evolutionary Model Merge 結(jié)合了:(1)合并數(shù)據(jù)流空間(Data Flow Space)中的模型,以及(2)合并參數(shù)空間(權(quán)重)中的模型。
數(shù)據(jù)流空間:是通過進(jìn)化來發(fā)現(xiàn)不同模型各層的最佳組合以形成新模型。
參數(shù)空間:第二種方法是開發(fā)混合多個模型權(quán)重的新方法,混合不同模型的權(quán)重以形成新的模型。
數(shù)據(jù)流空間和參數(shù)空間這兩種方法也可以結(jié)合在一起來開發(fā)新的基礎(chǔ)模型
該研究希望通過進(jìn)化的方法來幫助找到更好的模型合并方法,通過實驗,研究者證明了該方法能夠創(chuàng)建具有以前不存在的、新的、具有新興組合功能的新模型。實驗中,研究者使用這種自動化方法生成了兩個新模型:一個日語數(shù)學(xué) LLM 和一個支持日語的 VLM,它們都是使用這種方法演化而來的。
具有 SOTA 性能的基礎(chǔ)模型
該研究提出了三種模型:大型語言模型(EvoLLM-JP)、視覺語言模型(EvoVLM-JP)以及圖像生成模型(EvoSDXL-JP)。
EvoLLM-JP
EvoLLM-JP 是一個可以用日語解決數(shù)學(xué)問題的 LLM。為了構(gòu)建這樣的模型,該研究使用進(jìn)化算法來合并日語 LLM(Shisa-Gamma)和特定于數(shù)學(xué)的 LLM(WizardMath 和 Abel)。
實驗過程中,研究者允許模型不斷的進(jìn)化迭代,最終模型采用的是在 100-150 次的進(jìn)化中表現(xiàn)最好的模型。研究者在 MGSM 數(shù)據(jù)集上進(jìn)行了評估,以下是評估結(jié)果:該表格比較了不同 LLM 用日語解決數(shù)學(xué)問題的表現(xiàn),MGSM-JA 列顯示正確答案的百分比。模型 1-3 為原始模型,模型 4-6 為優(yōu)化后的合并模型。模型 7-10 是用于比較的 LLM 得分。
上表為進(jìn)化后的 LLM 結(jié)果。其中模型 4 在參數(shù)空間中進(jìn)行了優(yōu)化,模型 6 使用模型 4 在數(shù)據(jù)流空間中進(jìn)行了進(jìn)一步優(yōu)化。這些模型的正確響應(yīng)率明顯高于三個源模型的正確響應(yīng)率。
不過研究者表示根據(jù)以往的經(jīng)驗,手動將日語 LLM 與數(shù)學(xué) LLM 結(jié)合起來非常困難。但經(jīng)過迭代努力,進(jìn)化算法能夠有效地找到一種將日語 LLM 與數(shù)學(xué) LLM 結(jié)合起來的方法,成功地構(gòu)建了一個兼具日語和數(shù)學(xué)能力的模型。
除了數(shù)學(xué)能力外,研究者還評估了模型的日語能力。令人驚訝的是,該研究發(fā)現(xiàn)這些模型在一些與數(shù)學(xué)無關(guān)的任務(wù)上也取得了高分。值得注意的是,模型并沒有經(jīng)過特定優(yōu)化,但實際效果還不錯。
LLM 日語整體能力比較,其中 Avg 欄是 9 個任務(wù)得分的平均值,數(shù)值越高,代表 LLM 日語整體能力越高。
EvoVLM-JP
該研究發(fā)現(xiàn),進(jìn)化算法還可以進(jìn)化成不同架構(gòu)的模型。他們通過應(yīng)用進(jìn)化模型合并生成了一個日語視覺語言模型 (VLM)。
在構(gòu)建日語 VLM 時,該研究使用了流行的開源 VLM (LLaVa-1.6-Mistral-7B) 和功能強大的日語 LLM (Shisa Gamma 7B v1)。研究者表示,這是合并 VLM 和 LLM 的第一次努力,其證明了進(jìn)化算法可以在合并模型中發(fā)揮重要作用。以下是評估結(jié)果。
VLM 性能比較。
上表中,JA-VG-VQA-500 和 JA-VLM-Bench-In-the-Wild 都是關(guān)于圖像問答的基準(zhǔn)。分?jǐn)?shù)越高,表示用日語回答的答案越準(zhǔn)確。
以下為模型在回答有關(guān)圖像問題的示例展示。兩種基線模型經(jīng)常給出錯誤的答案,而 EvoVLM-JP 給出正確的答案。
例如用戶詢問交通信號燈現(xiàn)在是什么顏色時,通常來講,正確答案是綠色,但是在日語習(xí)慣中,都會說成藍(lán)色。可以看出 EvoVLM-JP 比較貼合日語習(xí)慣。
EvoSDXL-JP
該研究發(fā)現(xiàn),進(jìn)化也可以自動發(fā)現(xiàn)合并不同擴散模型的方法。
EvoSDXL-JP 根據(jù)提示生成圖片。