自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

10萬(wàn)美元+26天，一個(gè)低成本千億參數(shù)LLM就誕生了

作者：機(jī)器之心 2023-09-10 10:45:37

人工智能新聞

訓(xùn)練一個(gè) GPT 那樣的千億參數(shù)規(guī)模的大型語(yǔ)言模型需要多少錢和時(shí)間？北京智源人工智能研究院和中國(guó)科學(xué)院計(jì)算技術(shù)研究所等多所機(jī)構(gòu)近日的一項(xiàng)研究發(fā)現(xiàn)可以用 10 萬(wàn)美元在 26 天內(nèi)訓(xùn)練出一個(gè)有 1010 億參數(shù)的 LLM。

包括僅解碼器結(jié)構(gòu)（如 GPT 和 LLAMA 系列模型）、僅編碼器結(jié)構(gòu)（如 BERT）和編碼器 - 解碼器結(jié)構(gòu)（如 T5）以及它們的變體模型在內(nèi)的大型語(yǔ)言模型（LLM）已經(jīng)取得了非凡的成功，并已被廣泛用于各種語(yǔ)言處理和多模態(tài)任務(wù)。

盡管如此成功，訓(xùn)練 LLM 的成本還是過(guò)于高昂，以至于僅有少數(shù)公司能承受其訓(xùn)練成本。此外，當(dāng)前的趨勢(shì)說(shuō)明未來(lái)還會(huì)使用更大規(guī)模的訓(xùn)練數(shù)據(jù)，這會(huì)進(jìn)一步推升大模型的研發(fā)成本。舉個(gè)例子，LLAMA-1 訓(xùn)練使用了 1-1.4 TB token，而 Llama 2 更是達(dá)到了 2 TB。

研發(fā) LLM 的另一大關(guān)鍵性挑戰(zhàn)是評(píng)估。主流的評(píng)估方法分為兩類：知識(shí)評(píng)估（MMLU 和 C-Eval）和 NLP 任務(wù)評(píng)估。這些評(píng)估方法可能無(wú)法真實(shí)反映模型的能力，因?yàn)橐苍S存在數(shù)據(jù)泄漏問(wèn)題，即評(píng)估數(shù)據(jù)集中某些部分可能在模型訓(xùn)練過(guò)程中已被使用。此外，面向知識(shí)的評(píng)估方法可能不足以評(píng)估智能水平。一種更為公平客觀的評(píng)估方法是測(cè) LLM 的智商（IQ），即將 LLM 泛化用于未在訓(xùn)練數(shù)據(jù)中見(jiàn)過(guò)的條件和上下文。

增長(zhǎng)策略。為了解決訓(xùn)練成本難題，北京智源人工智能研究院和中國(guó)科學(xué)院計(jì)算技術(shù)研究所等多所機(jī)構(gòu)近日做出了一番嘗試 —— 首次通過(guò)增長(zhǎng)策略（growth strategy）訓(xùn)練千億參數(shù)級(jí)的 LLM。增長(zhǎng)意味著訓(xùn)練過(guò)程中參數(shù)的數(shù)量并不固定，而是會(huì)從更小的模型擴(kuò)增成大型模型。

論文：https://arxiv.org/pdf/2309.03852.pdf
模型：https://huggingface.co/CofeAI/FLM-101B

圖 1 展示了增長(zhǎng)策略的三種典型場(chǎng)景。由于 LLM 的 FLOPs 大致與其參數(shù)數(shù)量成正比，因此模型參數(shù)的變化曲線與 X 軸之間的面積便能表示訓(xùn)練的計(jì)算成本。

圖 1 (a) 展示了沒(méi)有模型增長(zhǎng)的標(biāo)準(zhǔn)訓(xùn)練策略；1 (b) 是直線型的增長(zhǎng)策略，其能節(jié)省 50% 的成本；1 (c) 是一種適量型的增長(zhǎng)策略，其節(jié)省的成本不到 50%；1 (d) 則是一種激進(jìn)型的增長(zhǎng)策略，能節(jié)省超過(guò) 50% 的成本。這一分析說(shuō)明，為了盡可能地節(jié)省計(jì)算成本，應(yīng)當(dāng)采用激進(jìn)型增長(zhǎng)策略。

這項(xiàng)新研究的增長(zhǎng)算子的設(shè)計(jì)靈感來(lái)自論文《2x faster language model pre-training via masked structural growth》中的 MSG，這是一個(gè)完整的運(yùn)算集，涵蓋 Transformer 結(jié)構(gòu)的所有四個(gè)增長(zhǎng)維度。更重要的是，MSG 能在增長(zhǎng)的同時(shí)嚴(yán)格地保存功能。因此，雖然小模型可以通過(guò)較小的參數(shù)搜索空間快速學(xué)習(xí)，但其知識(shí)可以被后續(xù)更大的模型繼承。這讓增長(zhǎng)策略有可能使用相同或更少的計(jì)算成本實(shí)現(xiàn)更好的性能。

開(kāi)源的 FLM-101B 模型。智源研究院的研究者通過(guò)逐步增長(zhǎng)訓(xùn)練了一個(gè)有 1010 億參數(shù)的 LLM 模型，他們也表示會(huì)開(kāi)源發(fā)布該模型。該模型的架構(gòu)是 FreeLM 的一種演進(jìn)版。因此，研究者將其命名為 FLM-101B，其中 F 表示 Free。

FreeLM 框架有兩個(gè)預(yù)訓(xùn)練目標(biāo)，分別由語(yǔ)言信號(hào)和教師信號(hào)引導(dǎo)。在這項(xiàng)新研究中，這兩個(gè)目標(biāo)被統(tǒng)一到了一個(gè)通用語(yǔ)言建模范式中。

IQ 評(píng)估基準(zhǔn)。除了低成本的訓(xùn)練范式，該團(tuán)隊(duì)還做出了另一項(xiàng)貢獻(xiàn)，即為 LLM 的智商（IQ）評(píng)估提出了一套系統(tǒng)性的基準(zhǔn)。

之前已有研究表明：盡管困惑度（PPL）指標(biāo)能在一定程度上反映生成文本的質(zhì)量，但卻并不可靠。另一方面，LLM 的訓(xùn)練數(shù)據(jù)規(guī)模非常龐大，以至于我們難以辨別模型究竟只是在引述知識(shí)數(shù)據(jù)，還是真的實(shí)現(xiàn)了類似人類的推理、分析和概括能力，而這些能力正是這項(xiàng)研究定義 IQ 的基礎(chǔ)。一些常用的評(píng)估指標(biāo)（用于英語(yǔ)的 MMLU 和用于漢語(yǔ)的 C-Eval）明顯是面向知識(shí)的，無(wú)法全面反映模型的智能水平。

為了進(jìn)行完整性檢查，該團(tuán)隊(duì)進(jìn)行了一項(xiàng)測(cè)試：來(lái)自世界知名大學(xué)的五名計(jì)算機(jī)科學(xué)研究者使用 C-Eval 的化學(xué)試題進(jìn)行了考試。結(jié)果發(fā)現(xiàn)他們的準(zhǔn)確度幾乎相當(dāng)于隨機(jī)亂猜，因?yàn)榇蠖鄶?shù)志愿者都已忘記曾學(xué)過(guò)的化學(xué)知識(shí)。因此，強(qiáng)調(diào)對(duì)專業(yè)知識(shí)的了解程度的評(píng)估基準(zhǔn)其實(shí)不足以衡量模型的 IQ。

為了全面衡量 LLM 的 IQ，該團(tuán)隊(duì)開(kāi)發(fā)了一個(gè) IQ 評(píng)估基準(zhǔn)，其中考慮了智商的四個(gè)關(guān)鍵方面：符號(hào)映射、規(guī)則理解、模式挖掘和抗干擾。

語(yǔ)言本質(zhì)上是符號(hào)的。已經(jīng)有一些研究在使用符號(hào)而非類別標(biāo)簽來(lái)評(píng)估 LLM 的智能水平。類似地，該團(tuán)隊(duì)使用了一種符號(hào)映射方法來(lái)測(cè)試 LLM 在未曾見(jiàn)過(guò)的上下文上的泛化能力。
人類智能的一大重要能力是理解給定的規(guī)則并采取相應(yīng)的行動(dòng)。這種測(cè)試方法已被廣泛用在各種等級(jí)的測(cè)驗(yàn)中。因此，規(guī)則理解成為這里的第二項(xiàng)測(cè)試。
模式挖掘涉及到歸納和演繹，也是智能的重要組成部分。這一方法在科學(xué)發(fā)展歷史中發(fā)揮了至關(guān)重要的作用。此外，各種競(jìng)賽的測(cè)試題也往往需要這種能力才能解答。受此啟發(fā)，模式挖掘被選為第三個(gè)評(píng)估指標(biāo)。
最后一個(gè)也很重要的指標(biāo)是抗干擾能力，這也是智能的核心能力之一。已有研究指出，語(yǔ)言和圖像都很容易被噪聲干擾?？紤]到這一點(diǎn)，該團(tuán)隊(duì)把抗干擾用作了最后一個(gè)評(píng)估指標(biāo)。

當(dāng)然，這四個(gè)指標(biāo)絕非 LLM IQ 評(píng)估的定案，但它們可作為一個(gè)起點(diǎn)，激勵(lì)后續(xù)的研究發(fā)展，并可望最終催生出一套全面的 LLM IQ 評(píng)估框架。

這項(xiàng)研究的主要貢獻(xiàn)包括：

研究者表示，這是首個(gè)使用增長(zhǎng)策略從頭開(kāi)始訓(xùn)練超過(guò)千億參數(shù)的 LLM 研究嘗試。同時(shí)，這還是目前成本最低的千億參數(shù)模型，成本僅 10 萬(wàn)美元。
通過(guò)改進(jìn) FreeLM 訓(xùn)練目標(biāo)、有潛力的超參數(shù)搜索方法和功能保留型增長(zhǎng)，這項(xiàng)研究解決了不穩(wěn)定問(wèn)題。研究者相信該方法也能為更廣大的科研社區(qū)提供助力。
研究者也通過(guò)實(shí)驗(yàn)比較了新模型與之前的強(qiáng)大模型，其中既使用了面向知識(shí)的基準(zhǔn)，也使用了新提出的系統(tǒng)性 IQ 評(píng)估基準(zhǔn)。實(shí)驗(yàn)結(jié)果表明 FLM-101B 是一個(gè)有競(jìng)爭(zhēng)力且穩(wěn)健的模型。
該團(tuán)隊(duì)會(huì)發(fā)布模型檢查點(diǎn)、代碼、相關(guān)工具等，以推進(jìn)千億參數(shù)規(guī)模的漢語(yǔ)和英語(yǔ)雙語(yǔ) LLM 的研究開(kāi)發(fā)。

FLM-101B 設(shè)計(jì)概況

從架構(gòu)上看，F(xiàn)LM-101B 以 FreeLM 為骨干網(wǎng)絡(luò)，并集成了 xPos。在模型大小方面，得益于新的增長(zhǎng)策略，研究者能在一次訓(xùn)練中得到 16B、51B 和 101B 三種大小的模型。

至于預(yù)訓(xùn)練設(shè)置，F(xiàn)LM-101B 繼承了 FreeLM 的訓(xùn)練策略。

而在增長(zhǎng)策略方面，不同于獨(dú)立訓(xùn)練不同大小模型的常用實(shí)踐方法，該團(tuán)隊(duì)可以依次訓(xùn)練具有 16B、51B 和 101B 參數(shù)的三個(gè)模型，其中每個(gè)模型都會(huì)繼承其前一個(gè)較小模型的知識(shí)。

至于訓(xùn)練硬件，則是使用了 24 臺(tái) DGX-A800 GPU (8×80G) 服務(wù)器組成的集群；FLM-101B 的訓(xùn)練時(shí)長(zhǎng)不到 26 天更多并行策略和模型配置請(qǐng)參閱下表 1 和 2。

FLM-101B 的訓(xùn)練穩(wěn)定性

為了解決損失發(fā)散和梯度暴增等不穩(wěn)定問(wèn)題，研究者提出了一種頗具潛力的解決方案，簡(jiǎn)述如下。

損失預(yù)測(cè)。新提出的實(shí)現(xiàn)訓(xùn)練穩(wěn)定的方法如下：

首先，在 FLM-16B 訓(xùn)練開(kāi)始之前先確定數(shù)據(jù)的分布。

接下來(lái)，對(duì)三個(gè)超參數(shù)進(jìn)行網(wǎng)格搜索，包括學(xué)習(xí)率、初始化標(biāo)準(zhǔn)差和輸出層的 softmax 溫度。該網(wǎng)格搜索的執(zhí)行是通過(guò)運(yùn)行一個(gè)代理模型，其隱藏狀態(tài)維度（即模型寬度）為 256、頭數(shù)為 2，參數(shù)數(shù)量為 4000 萬(wàn)。該代理模型的其它所有結(jié)構(gòu)超參數(shù)和訓(xùn)練數(shù)據(jù)與 FLM-16B 相同。在 6 個(gè)節(jié)點(diǎn)上使用數(shù)據(jù)并行時(shí)，一次運(yùn)行網(wǎng)格搜索耗時(shí)為 24.6 小時(shí)，這大致表示：如果使用 24 節(jié)點(diǎn)的配置，那么運(yùn)行一次需要 6 小時(shí)。

通過(guò)這種網(wǎng)格搜索，研究者找到了最優(yōu)的超參數(shù)：學(xué)習(xí)率 = 4e-4、標(biāo)準(zhǔn)差 = 1.6e-2、softmax 溫度 = 2.0。

然后他們通過(guò) μP 遷移這些超參數(shù)，能實(shí)現(xiàn)規(guī)避了不穩(wěn)定問(wèn)題的無(wú)縫訓(xùn)練體驗(yàn)。再組合使用 MSG，LM-51B 和 FLM-101B 也沒(méi)出現(xiàn)后續(xù)的增長(zhǎng)發(fā)散問(wèn)題。

圖 2 展示了完整的訓(xùn)練損失曲線。

通過(guò) Bfloat16 實(shí)現(xiàn)混合精度。使用混合精度的目的是節(jié)省運(yùn)行時(shí)的內(nèi)存和時(shí)間成本，這里他們選擇的是 Bfloat16。

基準(zhǔn)評(píng)估

表 3 比較了 FLM-101B 與其它強(qiáng)大基準(zhǔn)模型（LLAMA 系列模型和 GLM-130B）的性能表現(xiàn)。

研究者表示，這些結(jié)果說(shuō)明 FLM-101B 在事實(shí)性知識(shí)方面并沒(méi)有任何優(yōu)勢(shì)，而如果能使用更多訓(xùn)練數(shù)據(jù)，那么其性能還會(huì)繼續(xù)提升。

表 4 展示了 eFLM-16B 與基準(zhǔn)模型在專業(yè)知識(shí)評(píng)估方面的結(jié)果。

結(jié)果證明，在強(qiáng)調(diào)專業(yè)知識(shí)的數(shù)據(jù)集上的得分并不能反映 LLM 的智能水平，因?yàn)槟承┨囟ㄓ?xùn)練數(shù)據(jù)可能具有壓倒性的貢獻(xiàn)。

表 5 給出了 FLM 模型每一階段的性能表現(xiàn)。

正如預(yù)期的那樣，F(xiàn)LM 的性能表現(xiàn)會(huì)隨模型增大而提升。FLM-101B 在幾乎所有任務(wù)上都表現(xiàn)最佳。這意味著該模型每一次增長(zhǎng)后都會(huì)繼承前一階段的知識(shí)。

IQ 實(shí)驗(yàn)

實(shí)驗(yàn)中，為了對(duì) LLM 的 IQ 進(jìn)行更為系統(tǒng)性的評(píng)估，智源研究院的這個(gè)團(tuán)隊(duì)使用了現(xiàn)有的 IQ 相關(guān)數(shù)據(jù)集并做了一些必要的修改，他們也生成了一些新的合成數(shù)據(jù)。

具體來(lái)說(shuō)，他們提出的 IQ 評(píng)估主要考慮了四個(gè)方面：符號(hào)映射、規(guī)則理解、模式挖掘和抗干擾。這些任務(wù)有一個(gè)關(guān)鍵的共同點(diǎn)：它們?nèi)家蕾囉谠谛碌纳舷挛闹羞M(jìn)行推理和泛化。

下面幾張表格展示了 IQ 實(shí)驗(yàn)的結(jié)果：

從這些表格來(lái)看，在這四個(gè) IQ 評(píng)估基準(zhǔn)上，F(xiàn)LM-101B 憑借低得多的計(jì)算成本取得了與 GPT-3 媲美且優(yōu)于 GLM-130B 的結(jié)果。

除了訓(xùn)練數(shù)據(jù)的影響外，研究者推測(cè)這種優(yōu)勢(shì)可能是由于早期階段的小模型細(xì)化了較小的搜索空間，當(dāng)模型變得更大更寬，泛化能力增強(qiáng)時(shí)，這種優(yōu)勢(shì)還在持續(xù)發(fā)揮作用。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sup id="3kwvo"><rt id="3kwvo"></rt></sup>

<sup id="3kwvo"></sup>