自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4使用混合大模型?研究證明MoE+指令調(diào)優(yōu)確實讓大模型性能超群

人工智能 新聞
谷歌、UC 伯克利等證明 MoE + 指令調(diào)優(yōu)起到了 1 + 1 > 2 的效果。

自 GPT-4 問世以來,人們一直驚艷于它強大的涌現(xiàn)能力,包括出色的語言理解能力、生成能力、邏輯推理能力等等。這些能力讓 GPT-4 成為機器學習領(lǐng)域最前沿的模型之一。然而,OpenAI 至今未公開 GPT-4 的任何技術(shù)細節(jié)。

上個月,喬治?霍茲(George Hotz)在接受一家名為 Latent Space 的 AI 技術(shù)播客的采訪時提到了 GPT-4,并稱 GPT-4 其實是一個混合模型。具體來說,喬治?霍茲稱 GPT-4 采用由 8 個專家模型組成的集成系統(tǒng),每個專家模型都有 2200 億個參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓練。

圖片

Latent Space 的采訪內(nèi)容。

這或許只是喬治?霍茲的一種推測,但這種模式確實有一定的合理性。最近,由來自谷歌、UC 伯克利、MIT 等機構(gòu)的研究者聯(lián)合發(fā)表的一篇論文證實:混合專家模型(MoE)與指令調(diào)優(yōu)的結(jié)合能夠讓大型語言模型(LLM)的性能大幅提升。

圖片圖片

論文地址:https://arxiv.org/pdf/2305.14705.pdf

稀疏混合專家模型是一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在不增加推理成本的情況下,為大型語言模型(LLM)增加可學習的參數(shù)。指令調(diào)優(yōu)(instruction tuning)是一種訓練 LLM 遵循指令的技術(shù)。該研究發(fā)現(xiàn) MoE 模型比密集模型更能從指令調(diào)優(yōu)中獲益,因此提出將 MoE 和指令調(diào)優(yōu)結(jié)合起來。

該研究在三種實驗設(shè)置下進行了實證研究,包括

  • 在沒有指令調(diào)優(yōu)的情況下在單個下游任務(wù)進行直接微調(diào);
  • 指令調(diào)優(yōu)后對下游任務(wù)進行 in-context 少樣本或零樣本泛化;
  • 指令調(diào)優(yōu)后對單個下游任務(wù)進行進一步微調(diào)。

在第一種情況下,MoE 模型總體上不如具有相同計算能力的密集模型。然而,隨著指令調(diào)優(yōu)的引入(第二和第三種情況),F(xiàn)LAN-MoE_32B(Fine-tuned LAnguage Net,簡寫為 Flan,是一種經(jīng)過指令調(diào)優(yōu)的模型,F(xiàn)lan-MoE 即為指令調(diào)優(yōu) MoE)在四個基準任務(wù)上性能超過了 FLAN-PALM_62B,卻只用了三分之一的 FLOPs。

如下圖所示,在使用指令調(diào)優(yōu)前,MoE→FT 不如 T5→FT。指令調(diào)優(yōu)后,F(xiàn)lan-MoE→FT 優(yōu)于 Flan-T5→FT。MoE 從指令調(diào)優(yōu)中獲得的收益 (+15.6) 大于密集模型 (+10.2):

圖片圖片

看來 GPT-4 采用混合模型還是有點根據(jù)的,MoE 確實能夠從指令調(diào)優(yōu)中獲得更大的收益:

圖片圖片

方法概述

研究者在 FLAN-MOE (是一組經(jīng)過指令微調(diào)的稀疏混合專家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他們還用 MoE 層替換了其他 Transformer 層的前饋組件。

每個 MoE 層可理解為一個「專家」,然后,使用 softmax 激活函數(shù)對這些專家進行建模,得到一個概率分布。

盡管每個 MoE 層有很多參數(shù),但專家是稀疏激活的。這意味著對于給定的輸入 token,只使用有限的專家子集就能完成任務(wù),從而為模型提供了更大的容量。

對于具有 E 個專家的 MoE 層,這實際上提供了 O (E^2) 種不同的前饋網(wǎng)絡(luò)組合,從而實現(xiàn)了更大的計算靈活性。


由于 FLAN-MoE 是經(jīng)過指令調(diào)優(yōu)的模型,因而指令調(diào)優(yōu)非常重要,該研究在 FLAN 集合數(shù)據(jù)集的基礎(chǔ)上對 FLAN-MOE 進行微調(diào)。此外,該研究將每個 FLAN-MOE 的輸入序列長度調(diào)整為 2048,輸出長度調(diào)整為 512。

實驗與分析

平均而言,在不增加任何額外計算的情況下,F(xiàn)lan-MoE 在所有模型尺度上都優(yōu)于密集的同類產(chǎn)品 (Flan-T5)。

圖片圖片

專家數(shù)量。圖 4 顯示,隨著專家數(shù)量的增加,初始時,模型受益于更豐富的專門子網(wǎng)絡(luò),每個子網(wǎng)絡(luò)能夠處理問題空間中的不同任務(wù)或方面。這種方式使得 MoE 在處理復雜任務(wù)時具有很強的適應性和效率,從而整體上改善性能。然而,隨著專家數(shù)量的不斷增加,模型性能增益開始減少,最終達到飽和點。

圖片圖片

圖 3 和表 1 詳細研究了不同的路由決策如何影響指令調(diào)優(yōu)性能:通過 FLAN-Switch 和 FLAN-GS 策略之間的比較可以得出,激活更多的專家會在四個基準測試中提高性能。在這些基準測試中,MMLU-Direct 模型顯示出最顯著的改進,對于 BASE/LARGE 尺寸的模型,從 38.0% 增加到 39.9%。

值得注意的是,與等效容量的密集模型相比,指令調(diào)優(yōu)顯著放大了 MoE 模型在保留 MMLU、BBH 和內(nèi)部 QA 和推理基準測試方面的性能。對于較大的 MoE 模型,這些優(yōu)勢進一步放大。例如,指令調(diào)優(yōu)使 ST_32B 的性能提升了 45.2%,而對于 FLAN-PALM_62B,這種改進相對較小,約為 6.6%。

圖片

當進行模型擴展時,F(xiàn)lan-MoE (Flan-ST-32B) 優(yōu)于 Flan-PaLM-62B 。

圖片圖片

此外,該研究通過 freeze 給定模型的門控函數(shù)(gating function)、專家模塊和 MoE 參數(shù)進行了一些分析實驗。如下表 2 所示,實驗結(jié)果表明,freeze 專家模塊或 MoE 組件對模型性能有負面影響。

圖片

相反,freeze 門控函數(shù)會使模型性能略有改善,盡管并不明顯。研究者推測這一觀察結(jié)果與 FLAN-MOE 的欠擬合有關(guān)。該研究還進行了消融實驗來探究下圖 5 描述了微調(diào)數(shù)據(jù)效率消融研究。

圖片

最后,為了比較直接對 MoE 進行微調(diào)和 FLAN-MOE 之間的差距,該研究對單任務(wù)微調(diào)的 MoE、單任務(wù)微調(diào)的 FLAN-MoE 和密集模型進行了實驗,結(jié)果如下圖 6 所示:

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-09-11 15:57:16

人工智能模型GPT-4

2024-01-16 12:31:13

OpenAIGLM-4大模型

2023-12-30 13:31:30

模型數(shù)據(jù)信息

2023-10-14 13:09:53

谷歌模型

2023-07-13 12:54:42

GPT-4OpenAI

2023-07-12 16:10:48

人工智能

2023-10-14 17:24:49

2024-02-06 10:38:10

昆侖萬維大模型

2023-06-05 12:32:48

模型論文

2024-05-06 07:58:23

MoE模型系統(tǒng)

2024-04-19 09:17:33

AI模型

2024-01-10 16:01:28

2024-05-09 08:33:33

2023-12-09 13:32:21

GPT-4MoE架構(gòu)開源大模型

2022-05-20 10:43:30

AI模型

2024-07-08 08:38:00

模型推理

2023-07-05 09:57:11

2023-12-04 12:56:08

AI數(shù)據(jù)

2023-09-19 13:48:31

AI數(shù)據(jù)

2023-08-11 13:15:35

ChatGPTMBTIGPT-4
點贊
收藏

51CTO技術(shù)棧公眾號