自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「Meta版ChatGPT」背后的技術(shù):想讓基礎(chǔ)LLM更好地處理長(zhǎng)上下文,只需持續(xù)預(yù)訓(xùn)練

人工智能 新聞
在處理長(zhǎng)上下文方面,LLaMA 一直力有不足,而通過(guò)持續(xù)預(yù)訓(xùn)練和其它一些方法改進(jìn),Meta 的這項(xiàng)研究成功讓 LLM 具備了有效理解上下文的能力。

大型語(yǔ)言模型(LLM)所使用的數(shù)據(jù)量和計(jì)算量都是前所未見(jiàn)的,這也使其有望從根本上改變我們與數(shù)字世界的交互方式。隨著 LLM 被不斷快速部署到生產(chǎn)環(huán)境中并不斷擴(kuò)展進(jìn)化,可以預(yù)見(jiàn)這些模型將能在更多復(fù)雜精細(xì)的用例中提供服務(wù),比如分析具備豐富知識(shí)的密集型文檔、提供更加真實(shí)和有參與感的聊天機(jī)器人體驗(yàn)、在編程和設(shè)計(jì)等交互式創(chuàng)造過(guò)程中輔助人類用戶等。

為了支持這種演進(jìn)發(fā)展,模型需要的一大關(guān)鍵能力就是:高效處理長(zhǎng)上下文輸入。

到目前為止,具有穩(wěn)健長(zhǎng)上下文功能的 LLM 主要來(lái)自專有 LLM API,如 Anthropic 和 OpenAI 提供的 LLM 服務(wù)?,F(xiàn)有的開(kāi)源長(zhǎng)上下文模型往往評(píng)估研究不足,而是主要通過(guò)語(yǔ)言建模損失和合成任務(wù)來(lái)衡量其長(zhǎng)上下文能力,這樣的評(píng)估無(wú)法全面展示模型在各種真實(shí)世界場(chǎng)景中的有效性。

不僅如此,這些模型往往還會(huì)忽視在標(biāo)準(zhǔn)短上下文任務(wù)中保持強(qiáng)大性能的必要性,要么就直接不評(píng)估,要么報(bào)告出現(xiàn)了性能下降情況。

近日,Meta 團(tuán)隊(duì)提出了一種新方法,宣稱可以有效地?cái)U(kuò)展基礎(chǔ)模型的上下文能力,并且用該方法構(gòu)建的長(zhǎng)上下文 LLM 的性能表現(xiàn)優(yōu)于所有現(xiàn)有的開(kāi)源 LLM。

圖片

論文:https://arxiv.org/abs/2309.16039

他們是通過(guò)對(duì) LLaMA 2 檢查點(diǎn)進(jìn)行持續(xù)預(yù)訓(xùn)練來(lái)構(gòu)建模型,這其中用到了另外 4000 億個(gè) token 構(gòu)成的長(zhǎng)訓(xùn)練序列。在訓(xùn)練的系列模型中,較小的 7B/13B 變體模型的訓(xùn)練使用了 32,768 token 長(zhǎng)的序列,而 34B/70B 變體則使用了 16,384 token 長(zhǎng)的序列。

評(píng)估方面,不同于之前已有模型的有限評(píng)估,Meta 的這個(gè)團(tuán)隊(duì)進(jìn)行了更為全面的評(píng)估研究,涵蓋語(yǔ)言建模、合成任務(wù)以及許多涉及長(zhǎng)或短上下文任務(wù)真實(shí)世界基準(zhǔn)任務(wù)。

在語(yǔ)言建模任務(wù)上,新方法訓(xùn)練的模型在上下文長(zhǎng)度方面表現(xiàn)出了明顯的冪律縮放行為。如圖 1 所示,這種縮放行為不僅表明新模型能夠持續(xù)受益于更多上下文,也表明上下文長(zhǎng)度是 LLM 擴(kuò)展方面的一大重要軸線。

圖片

通過(guò)對(duì)比新模型與基準(zhǔn) LLaMA 2 在研究基準(zhǔn)上的表現(xiàn),研究者觀察到新模型在長(zhǎng)上下文任務(wù)上有明顯優(yōu)勢(shì),在短上下文任務(wù)上也有適度提升,尤其是在編程、數(shù)學(xué)和知識(shí)類任務(wù)基準(zhǔn)上。

他們還探索了一種簡(jiǎn)單且有成本效益的指令微調(diào)方法,可在沒(méi)有任何人工標(biāo)注數(shù)據(jù)的情況下對(duì)經(jīng)過(guò)持續(xù)預(yù)訓(xùn)練的長(zhǎng)模型進(jìn)行微調(diào)。他們基于此方法得到的聊天模型在一系列長(zhǎng)上下文基準(zhǔn)任務(wù)(包括問(wèn)答、摘要和多文檔聚合)上的整體表現(xiàn)勝過(guò) gpt-3.5-turbo-16k。

方法

持續(xù)預(yù)訓(xùn)練

由于注意力計(jì)算會(huì)隨序列長(zhǎng)度增大呈二次增長(zhǎng),因此當(dāng)使用更長(zhǎng)的序列進(jìn)行訓(xùn)練時(shí),計(jì)算開(kāi)銷也會(huì)顯著增大。解決這一難題正是本研究的主要目標(biāo)。

研究者假設(shè):對(duì)短上下文模型進(jìn)行持續(xù)預(yù)訓(xùn)練可讓該模型具備上下文能力。然后他們通過(guò)實(shí)驗(yàn)驗(yàn)證了這一猜測(cè)。

在實(shí)驗(yàn)中,他們保持原始 LLaMA 2 的架構(gòu)基本不變,僅對(duì)位置編碼進(jìn)行了必要的修改,以便其能將注意力覆蓋更長(zhǎng)的序列。此外,他們還選擇不使用稀疏注意力,因?yàn)?LLaMA 2 70B 模型的維度為 h=8192,而只有當(dāng)序列長(zhǎng)度超過(guò) 49,152 (6h) 個(gè) token 時(shí),注意力矩陣計(jì)算和值聚合的成本才會(huì)成為計(jì)算瓶頸。

位置編碼。通過(guò) 7B 模型的早期實(shí)驗(yàn),研究者發(fā)現(xiàn)了 LLaMA 2 的位置編碼(PE)的一大關(guān)鍵局限 —— 其有礙注意力模塊聚合相聚較遠(yuǎn)的 token 的信息。為了解決這個(gè)問(wèn)題,使模型能處理長(zhǎng)上下文建模,研究者對(duì) RoPE 位置編碼方法進(jìn)行了少量但必要的修改,即減小旋轉(zhuǎn)角度(由基頻 b 這個(gè)超參數(shù)控制),其作用是降低 RoPE 對(duì)遠(yuǎn)距離 token 的衰減效應(yīng)。研究者通過(guò)實(shí)驗(yàn)展現(xiàn)了這種簡(jiǎn)單方法在擴(kuò)展 LLaMA 上下文長(zhǎng)度方面的有效性,并還給出了理論解釋。

數(shù)據(jù)混合?;谑褂眯薷陌嫖恢镁幋a的模型,研究者還進(jìn)一步探索了不同數(shù)據(jù)混合方法對(duì)提升長(zhǎng)上下文能力的作用,其中涉及的方法包括調(diào)整 LLaMA 2 的預(yù)訓(xùn)練數(shù)據(jù)的比例和添加新的長(zhǎng)文本數(shù)據(jù)。研究者發(fā)現(xiàn):對(duì)于長(zhǎng)文本的持續(xù)預(yù)訓(xùn)練而言,數(shù)據(jù)的質(zhì)量往往比文本的長(zhǎng)度更重要。

優(yōu)化細(xì)節(jié)。那么他們究竟是如何實(shí)現(xiàn)持續(xù)預(yù)訓(xùn)練的呢?據(jù)介紹,他們?cè)趯?duì) LLaMA 2 檢查點(diǎn)模型進(jìn)行持續(xù)預(yù)訓(xùn)練時(shí),會(huì)在保證 LLaMA 2 中每批數(shù)據(jù)同等 token 量時(shí)不斷增大序列長(zhǎng)度。所有模型都使用總計(jì) 4000 億個(gè) token 訓(xùn)練了 10 萬(wàn)步。使用 Dao et al. (2022) 提出的 FlashAttention,當(dāng)增大序列長(zhǎng)度時(shí),GPU 內(nèi)存開(kāi)銷幾乎可以忽略不計(jì);研究者觀察到,對(duì)于 70B 模型,當(dāng)序列長(zhǎng)度從 4096 增至 16384 時(shí),速度下降了大約 17%。對(duì)于 7B/13B 模型,他們使用的學(xué)習(xí)率為 2e^?5,并使用了余弦學(xué)習(xí)率計(jì)劃,預(yù)熱步驟為 2000 步。對(duì)于更大的 34B/70B 模型,該團(tuán)隊(duì)發(fā)現(xiàn)設(shè)置更小的學(xué)習(xí)率(1e^-5 )很重要,這樣才能讓驗(yàn)證損失單調(diào)遞減。

指令微調(diào)

為 LLM 對(duì)齊任務(wù)收集人類演示和偏好標(biāo)簽是一個(gè)繁瑣而昂貴的過(guò)程。對(duì)于長(zhǎng)上下文任務(wù),這一挑戰(zhàn)和成本更為突出,因?yàn)檫@些任務(wù)通常涉及復(fù)雜的信息流和專業(yè)知識(shí),例如處理信息密集的法律 / 科學(xué)文檔 —— 即使對(duì)于熟練的標(biāo)注者來(lái)說(shuō),這些標(biāo)注任務(wù)也不簡(jiǎn)單。事實(shí)上,大多數(shù)現(xiàn)有的開(kāi)源指令數(shù)據(jù)集都主要由短樣本組成。

針對(duì)這一問(wèn)題,Meta 的這個(gè)研究團(tuán)隊(duì)發(fā)現(xiàn)了一種簡(jiǎn)單且低成本的方法,其能利用已經(jīng)構(gòu)建好的大規(guī)模和多樣化的短 prompt 數(shù)據(jù)集,并使其很好地適用于長(zhǎng)上下文基準(zhǔn)任務(wù)。

具體來(lái)說(shuō),他們?nèi)∮昧?LLaMA 2 Chat 使用的 RLHF 數(shù)據(jù)集,并使用 LLaMA 2 Chat 自身合成的自指示(self-instruct)長(zhǎng)數(shù)據(jù)對(duì)其進(jìn)行了增強(qiáng)。研究者表示,他們希望模型可以借此通過(guò)大量 RLHF 數(shù)據(jù)學(xué)習(xí)多樣化的技能組合并通過(guò)自指示數(shù)據(jù)將所學(xué)知識(shí)遷移至長(zhǎng)上下文場(chǎng)景。

這個(gè)數(shù)據(jù)生成過(guò)程重點(diǎn)關(guān)注的是問(wèn)答格式的任務(wù):先從預(yù)訓(xùn)練預(yù)料庫(kù)的一個(gè)長(zhǎng)文檔開(kāi)始,從中隨機(jī)選出一塊文本,然后通過(guò) prompt 讓 LLaMA 2 Chat 基于該文本塊中的信息寫出成對(duì)的問(wèn)答。研究者收集了不同 prompt 的長(zhǎng)形式和短形式答案。

之后還有一個(gè)自批判(self-critique)步驟,即通過(guò) prompt 讓 LLaMA 2 Chat 驗(yàn)證模型生成的答案。給定生成的問(wèn)答對(duì),研究者使用原始長(zhǎng)文檔(已截?cái)嘁赃m應(yīng)模型的最大上下文長(zhǎng)度)作為上下文來(lái)構(gòu)建一個(gè)訓(xùn)練實(shí)例。

對(duì)于短指令數(shù)據(jù),研究者會(huì)將它們連接成 16,384 token 長(zhǎng)的序列。對(duì)于長(zhǎng)指令數(shù)據(jù),他們會(huì)在右側(cè)添加填充 token,以便模型可以單獨(dú)處理每個(gè)長(zhǎng)實(shí)例,而無(wú)需截?cái)唷?/span>

雖然標(biāo)準(zhǔn)的指令微調(diào)只在輸出 token 上計(jì)算損失,但該團(tuán)隊(duì)發(fā)現(xiàn),如果也在長(zhǎng)輸入 prompt 上計(jì)算語(yǔ)言建模損失,也能獲得特別的好處,因?yàn)檫@能為下游任務(wù)帶來(lái)穩(wěn)定持續(xù)的提升。

主要結(jié)果

評(píng)估預(yù)訓(xùn)練后的模型

表 1 聚合給出了在標(biāo)準(zhǔn)的短上下文基準(zhǔn)任務(wù)上的性能表現(xiàn)。

在短上下文任務(wù)上,如表 2 所示,使用新方法得到的模型在 MMLU 和 GSM8k 上優(yōu)于 GPT-3.5。

圖片

在長(zhǎng)上下文任務(wù)上,如表 3 所示,新模型整體上表現(xiàn)更優(yōu)。在 7B 規(guī)模的模型上,只有 Together-7B-32k 取得了與新模型相當(dāng)?shù)谋憩F(xiàn)。

圖片

有效利用上下文。為了驗(yàn)證新模型確實(shí)能有效使用增大的上下文窗口,從圖 2 可以看到,在每個(gè)長(zhǎng)任務(wù)上的結(jié)果都會(huì)隨上下文長(zhǎng)度的增長(zhǎng)而單調(diào)提升。研究者還發(fā)現(xiàn),新模型的語(yǔ)言建模損失與上下文長(zhǎng)度之間存在一種冪律加常數(shù)的縮放關(guān)系(見(jiàn)圖 1),這說(shuō)明:

  • 在語(yǔ)言建模任務(wù)上,隨著上下文長(zhǎng)度增長(zhǎng),一直到 32,768 token 長(zhǎng)的文本,新模型的性能都會(huì)持續(xù)提升,盡管后面的提升幅度會(huì)不斷變小。
  • 更大的模型能更有效地利用上下文,這從那些曲線的 β 值可以看出。

圖片

指令微調(diào)結(jié)果

如表 4 所示,在不使用任何人類標(biāo)注的長(zhǎng)上下文數(shù)據(jù)的情況下,新訓(xùn)練的 70B 規(guī)模的聊天模型在 10 項(xiàng)任務(wù)中的 7 項(xiàng)上都優(yōu)于 gpt-3.5-turbo-16k。

圖片

人類評(píng)估

通過(guò)計(jì)算每個(gè)相比較的示例結(jié)果的平均值,可以看出實(shí)驗(yàn)中新模型的標(biāo)準(zhǔn)勝率優(yōu)于其它每個(gè)模型;圖 3 給出了最終得分以及 95% 的置信區(qū)間。

圖片

在指令數(shù)據(jù)很少的情況下,新方法所得模型的表現(xiàn)可與 MPT-30B-chat、GPT-3.5-turbo-16k 和 Claude-2 媲美。

分析

圖 4 展示了基頻(base frequency)變化的影響。

圖片

基于這些評(píng)估,整體上看,新提出的 RoPE ABF(基頻調(diào)整版 RoPE)優(yōu)于相比較的所有其它方法。

表 7 則通過(guò) 7B 模型實(shí)驗(yàn)展示了所使用的數(shù)據(jù)混合方法對(duì)長(zhǎng)上下文任務(wù)帶來(lái)的提升。

圖片

研究者還發(fā)現(xiàn)新的數(shù)據(jù)混合方法在很多情況下還能帶來(lái)很大的提升,尤其是對(duì)于 MMLU 等知識(shí)密集型任務(wù),如表 8 所示。

圖片

這些結(jié)果表明,即使使用非常有限的長(zhǎng)數(shù)據(jù),也可以有效地訓(xùn)練長(zhǎng)上下文 LLM。而且研究者表示,相比于 LLaMA 2 所使用的預(yù)訓(xùn)練數(shù)據(jù),該團(tuán)隊(duì)所使用的數(shù)據(jù)的優(yōu)勢(shì)在于數(shù)據(jù)本身的質(zhì)量,而不是長(zhǎng)度分布上的差異。

而表 9 表明,通過(guò)指令微調(diào)這種簡(jiǎn)單技巧,可讓模型更加穩(wěn)定地應(yīng)對(duì)輸入和輸出長(zhǎng)度不平衡的情況,從而在大多數(shù)測(cè)試任務(wù)中取得顯著改進(jìn)。

圖片

表 10 和 11 則表明對(duì)短上下文模型持續(xù)預(yù)訓(xùn)練可在幾乎無(wú)損于性能表現(xiàn)的同時(shí)輕松節(jié)省約 40% 的 FLOPs。

圖片

圖片

AI 安全

在 AI 安全方面,研究者觀察到,與 LLaMA 2 Chat 相比,經(jīng)過(guò)指令微調(diào)的模型整體上能維持相近的安全性能;而且與 Falcon-instruct 和 MPT-instruct 等其它開(kāi)源 LLM 相比,經(jīng)過(guò)指令微調(diào)的模型會(huì)更安全且偏見(jiàn)也更少。

圖片

華人作者介紹

Wenhan Xiong

Wenhan Xiong 現(xiàn)為 Meta Generative AI 研究科學(xué)家,他本科畢業(yè)于中國(guó)科技大學(xué),博士畢業(yè)于加州大學(xué)圣巴巴拉分校。他的研究致力于打造能完成復(fù)雜、專業(yè)的長(zhǎng)文本大語(yǔ)言模型,參與了包括 Code Llama 在內(nèi)的多個(gè)研究項(xiàng)目,博士期間他專注構(gòu)建開(kāi)放問(wèn)答系統(tǒng)和檢索增強(qiáng)的自然語(yǔ)言處理。

圖片

個(gè)人主頁(yè):https://xwhan.github.io/

Jingyu Liu

Jingyu Liu 現(xiàn)為蘇黎世聯(lián)邦理工學(xué)院碩士研究生,本科畢業(yè)于紐約大學(xué)計(jì)算機(jī)系,此前在 Meta Generative AI 做大語(yǔ)言模型的研究,他參與了包括 Code Llama 在內(nèi)的多個(gè)研究項(xiàng)目。

圖片

谷歌學(xué)術(shù):https://scholar.google.com/citations?user=jidrykQAAAAJ&hl=en

Hejia Zhang

Hejia Zhang 現(xiàn)為 Meta Generative AI 組高級(jí)研究科學(xué)家,主要研究 Meta 基礎(chǔ)大模型、AI Agent,及其在 Meta 產(chǎn)品線中的應(yīng)用,此前曾在 Meta 推薦系統(tǒng)和人工智能組進(jìn)行自然語(yǔ)言處理相關(guān)研究。她本科畢業(yè)于萊斯大學(xué)(電子工程和應(yīng)用數(shù)學(xué)雙學(xué)位),博士畢業(yè)于普林斯頓大學(xué)(電子工程和神經(jīng)科學(xué)聯(lián)合學(xué)位)。

圖片

谷歌學(xué)術(shù):https://scholar.google.com/citations?user=bI0cfykAAAAJ&hl=en

Rui Hou

Rui Hou 現(xiàn)為 Meta GenAI 研究科學(xué)家,主要研究生成式 AI 技術(shù)以及相關(guān)的生產(chǎn)應(yīng)用。他于 2020 年 4 月入職 Meta,此前曾在豐田研究院等機(jī)構(gòu)實(shí)習(xí)。

他本科畢業(yè)于同濟(jì)大學(xué),碩士(智能系統(tǒng)和計(jì)算機(jī)科學(xué)雙學(xué)位)和博士(智能系統(tǒng))均畢業(yè)于密歇根大學(xué)。

圖片

谷歌學(xué)術(shù):https://scholar.google.com/citations?user=PKHKqX0AAAAJ&hl=en

Angela Fan

Angela Fan 是 Meta AI Research Paris 的研究科學(xué)家,主要研究機(jī)器翻譯。此前她曾在南錫 INRIA 和巴黎 FAIR 攻讀博士學(xué)位,主要研究文本生成。在此之前,她是一名研究工程師,并在哈佛大學(xué)獲得了統(tǒng)計(jì)學(xué)學(xué)士學(xué)位。

圖片

個(gè)人主頁(yè):https://ai.meta.com/people/angela-fan/

Han Fang

Han Fang 現(xiàn)為 Meta Generative AI 組高級(jí)經(jīng)理,負(fù)責(zé) AI agent 以及 LLAMA 在 meta 的應(yīng)用開(kāi)發(fā),此前曾在 meta 推薦系統(tǒng)和人工智能組任職。他本科畢業(yè)于中山大學(xué),博士畢業(yè)于紐約州立大學(xué)石溪分校應(yīng)用數(shù)學(xué)與統(tǒng)計(jì)專業(yè)。

圖片

個(gè)人主頁(yè):https://ai.meta.com/people/han-fang/

Sinong Wang

Sinong Wang 現(xiàn)為 Meta 高級(jí)主任科學(xué)家,Meta Generative AI 組技術(shù)負(fù)責(zé)人。目前領(lǐng)導(dǎo) Meta 基礎(chǔ)大模型和 AI agent 開(kāi)發(fā),以及在 meta 產(chǎn)品線中的應(yīng)用。此前他在 Meta AI 致力于自然語(yǔ)言處理、transformer 架構(gòu)、(語(yǔ)言 / 圖像)多模態(tài)研究。他博士畢業(yè)于俄亥俄州立大學(xué)電氣與計(jì)算機(jī)工程專業(yè),并多次獲得 ACM/IEEE 最佳論文獎(jiǎng)。

圖片

個(gè)人主頁(yè):https://sites.google.com/site/snongwang/

Hao Ma

Hao Ma 現(xiàn)為 Meta Generative AI 組總監(jiān),負(fù)責(zé)大模型和語(yǔ)音基礎(chǔ)模型研究和在產(chǎn)品當(dāng)中的應(yīng)用,曾在 Meta discovery 組負(fù)責(zé)開(kāi)發(fā)下一代 AI 推薦系統(tǒng)和 AI 安全系統(tǒng)。此前曾在微軟研究院擔(dān)任研究經(jīng)理,負(fù)責(zé)知識(shí)圖譜在 bing 當(dāng)中的開(kāi)發(fā)。他博士畢業(yè)于香港中文大學(xué)計(jì)算機(jī)專業(yè),并多次獲得 ACM test-of-time award.

圖片

個(gè)人主頁(yè):https://www.haoma.io/

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2023-06-15 15:45:42

自然語(yǔ)言語(yǔ)言模型

2024-09-30 14:10:00

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2024-01-03 13:40:00

AI訓(xùn)練

2023-10-18 09:25:08

模型推理

2025-02-06 10:21:51

2024-09-05 08:24:09

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-02-26 00:16:56

RAGAI服務(wù)

2023-11-13 18:19:54

模型訓(xùn)練

2024-03-11 13:20:00

模型AI

2024-06-20 09:00:31

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2023-07-28 12:13:28

模型語(yǔ)言性能

2023-07-11 10:02:23

2025-01-22 13:30:00

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2022-04-24 15:37:26

LinuxCPU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)