自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="b69eh"><rt id="b69eh"></rt></sup>

<blockquote id="b69eh"><p id="b69eh"></p></blockquote>

^{<blockquote id="b69eh"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

小紅書(shū)提出大模型推理加速算法 HASS 刷新 SOTA

2024-10-12 10:57:39

生成式大語(yǔ)言模型（LLMs）在各種任務(wù)上表現(xiàn)出令人驚嘆的能力。然而，由于其固有的自回歸解碼機(jī)制，人們難以在這些模型上高效推理，這限制了它們?cè)跁r(shí)間敏感場(chǎng)景中的應(yīng)用。投機(jī)采樣技術(shù)通過(guò)利用額外的資源來(lái)增加并發(fā)性，提供了一種大模型推理加速的解決方案。

在大模型推理領(lǐng)域，投機(jī)采樣是一種被廣泛使用的無(wú)損加速算法。近期一些投機(jī)采樣的工作將大模型的上下文信息（例如 hidden states 和 KV cache）引入草稿模型，可以充分利用大模型的知識(shí)來(lái)提升加速比，但這類算法也會(huì)帶來(lái)訓(xùn)練和解碼的上下文不一致問(wèn)題。此外，我們也發(fā)現(xiàn)現(xiàn)有算法在訓(xùn)練和解碼的目標(biāo)上也存在一定的不一致現(xiàn)象。小紅書(shū)中臺(tái)算法團(tuán)隊(duì)提出的 HASS 算法在目標(biāo)和上下文上對(duì)齊了草稿模型的訓(xùn)練和解碼階段，達(dá)到了普通推理速度的 2.81～4.05 倍，相比 SOTA 方法 EAGLE-2 提升 8%～20%，相關(guān)技術(shù)已應(yīng)用在小紅書(shū)實(shí)際業(yè)務(wù)場(chǎng)景中。

論文地址

https://arxiv.org/pdf/2408.15766

01 背景

生成式大語(yǔ)言模型（LLMs）在各種任務(wù)上表現(xiàn)出令人驚嘆的能力。然而，由于其固有的自回歸解碼機(jī)制，人們難以在這些模型上高效推理，這限制了它們?cè)跁r(shí)間敏感場(chǎng)景中的應(yīng)用。投機(jī)采樣技術(shù)通過(guò)利用額外的資源來(lái)增加并發(fā)性，提供了一種大模型推理加速的解決方案。

投機(jī)采樣（Speculative Sampling）

投機(jī)采樣是一種先起草再驗(yàn)證的解碼范式。在每一步解碼時(shí)，先高效地生成多個(gè)草稿 token，再使用目標(biāo) LLM 并行地驗(yàn)證這些 token 來(lái)加速推理。表示想要加速推理的目標(biāo) LLM，表示基于前綴從目標(biāo) LLM 生成下一個(gè) token 的條件概率分布（簡(jiǎn)寫(xiě)為）。表示一個(gè)更高效的草稿模型，表示基于前綴從草稿模型生成下一個(gè) token 的條件概率分布（簡(jiǎn)寫(xiě)為）。投機(jī)采樣分為如下3步：

1.使用更高效的草稿模型來(lái)生成個(gè)草稿 token。

2.使用目標(biāo) LLM 來(lái)并行地驗(yàn)證這些草稿 token 以及它們從被生成的概率，接受能使得輸出分布和一致的所有草稿 token。

3.如果某個(gè)草稿 token 被拒絕后，從修正后的分布中采樣一個(gè)額外的 token 替代它；如果所有的草稿 token都被接受，額外增加一個(gè)新的 token。

具體驗(yàn)證過(guò)程如下：從中采樣一個(gè)草稿 token ，如果則接受；否則將以的概率拒絕并從修正分布中重新采樣一個(gè) token 接受。

經(jīng)證明，對(duì)于任意的和，如此得到的 token 總是與目標(biāo) LLM 分布一致。目標(biāo) LLM 的每一次前向推理至少產(chǎn)生一個(gè)新的 token，而至多產(chǎn)生個(gè)新的 token，生成的個(gè)數(shù)取決于目標(biāo) LLM 和草稿模型的對(duì)齊程度。

投機(jī)采樣的實(shí)際性能取決于兩個(gè)因素：草稿模型的解碼成本及其與目標(biāo) LLM 的對(duì)齊程度。為了獲得與目標(biāo) LLM 高度對(duì)齊的高效草稿模型，近期的工作提出利用目標(biāo) LLM 的上下文信息。例如，EAGLE 使用目標(biāo) LLM 的 hidden states 作為草稿模型的輸入特征。然而，這些方法在訓(xùn)練和解碼階段引入了不一致的上下文，如圖 2 所示。在訓(xùn)練期間，草稿模型總是能獲取到目標(biāo) LLM 在先前時(shí)間步的 hidden states。但在解碼期間，草稿模型卻無(wú)法獲取到未被驗(yàn)證時(shí)間步的目標(biāo) LLM 的 hidden states，這導(dǎo)致了訓(xùn)練和解碼階段的上下文不一致。這一問(wèn)題可以看作是投機(jī)采樣中在特征層面的 exposure bias。

訓(xùn)練和解碼階段之間還存在目標(biāo)上的不一致。在解碼階段，草稿模型的目標(biāo)是生成目標(biāo) LLM 會(huì)賦予高概率的 token。在這種情況下，草稿模型應(yīng)更關(guān)注于召回這些高概率 token，而對(duì)它們之間的具體順序則可以稍微放松。另外，大部分 LLM 在應(yīng)用時(shí)采取核采樣或 top-k 采樣。在這些解碼策略中，高概率 token 對(duì)輸出起著更重要的作用。因此，為了獲得高效的草稿模型，它的訓(xùn)練目標(biāo)應(yīng)考慮到解碼階段的這些特性。據(jù)我們所知，現(xiàn)有的涉及訓(xùn)練草稿模型的投機(jī)采樣方法普遍忽視了這些解碼目標(biāo)。

02 方法

為解決上述的訓(xùn)練和解碼階段不一致問(wèn)題，我們提出了協(xié)調(diào)投機(jī)采樣（HASS），旨在通過(guò)訓(xùn)練階段學(xué)習(xí)協(xié)調(diào)的表征來(lái)解決上述問(wèn)題。我們的方法包含兩部分：（1）為了讓草稿模型在訓(xùn)練階段感知到解碼目標(biāo)，HASS 將推薦系統(tǒng)中的排序蒸餾思想擴(kuò)展到投機(jī)采樣，即協(xié)調(diào)目標(biāo)蒸餾；（2）為了解決訓(xùn)練和解碼間的上下文不一致，我們提出了一種多步的對(duì)齊訓(xùn)練策略，即協(xié)調(diào)上下文對(duì)齊。結(jié)合這兩部分，HASS 顯著提高了 LLM 的推理速度。在無(wú)需額外推理開(kāi)銷的情況下，也保持了草稿模型訓(xùn)練的高效。

協(xié)調(diào)目標(biāo)蒸餾（Harmonized Objective Distillation）

HASS 通過(guò)引入推薦系統(tǒng)中的排序蒸餾思想，優(yōu)先考慮草稿模型解碼時(shí)更重要的一些 token。具體來(lái)說(shuō)，排序蒸餾的目標(biāo)是訓(xùn)練學(xué)生模型，使其對(duì)教師模型中排名靠前的項(xiàng)賦予更高的排序。在投機(jī)采樣中，草稿模型是學(xué)生模型，而目標(biāo) LLM 是教師模型。具有類似特性的草稿模型在解碼階段將獲得更高的接收率。設(shè) K 個(gè)概率最高的 token 組成的集合為，其中代表整個(gè)詞匯表。HASS 在訓(xùn)練時(shí)使用以下的 Top-K 蒸餾損失：

其中和分別表示目標(biāo) LLM 和草稿模型預(yù)測(cè)下一個(gè)詞的條件概率分布。在結(jié)合 EAGLE 時(shí)，訓(xùn)練階段可以從目標(biāo) LLM 的 hidden states 中獲取，這意味著結(jié)合 Top-K 損失訓(xùn)練有著和 EAGLE 一樣的訓(xùn)練效率。

協(xié)調(diào)上下文對(duì)齊（Harmonized Context Alignment）

HASS 采用了多步的對(duì)齊訓(xùn)練策略，使草稿模型在訓(xùn)練和解碼階段的上下文保持一致。具體來(lái)說(shuō)，HASS 將訓(xùn)練過(guò)程分為 n 步，使草稿模型能夠利用與解碼階段一致的上下文特征。過(guò)程如下：

第一步與 EAGLE 的訓(xùn)練相同。在時(shí)間步 t+1，草稿模型以目標(biāo)LLM的特征作為輸入并生成草稿模型特征。這一步中，注意力掩碼與因果掩碼一致，不做修改。
第二步利用了來(lái)自第一步的特征。在時(shí)間步 t+1 的自注意力機(jī)制中，使用來(lái)生成 query。key 和 value 由生成，其中表示拼接操作，表示早于時(shí)間步 t 的特征。注意力掩碼被修改以確保看到的前一個(gè)特征始終是，如圖 3 中的“HASS Training Step 2“所示。
對(duì)于第 j 步（j ≥ 3），前一步生成的特征用于生成時(shí)間步 t+1 的query，而 key 和 value 由生成。

HASS 的訓(xùn)練開(kāi)銷是 EAGLE 的 n 倍，但解碼開(kāi)銷不變。后續(xù)實(shí)驗(yàn)證明，HASS 的加速效果在 n 值較小時(shí)就會(huì)收斂，因此是訓(xùn)練高效的，具體實(shí)現(xiàn)請(qǐng)參考論文的附錄部分。

03 實(shí)驗(yàn)

主要實(shí)驗(yàn)

如表 1、2 所示，HASS 在所有的數(shù)據(jù)集和目標(biāo) LLM 上都表現(xiàn)出了最高的接受長(zhǎng)度和最優(yōu)的加速比。大部分方法在 HumanEval 數(shù)據(jù)集上加速效果最好，因?yàn)榇a生成任務(wù)中的固定模版對(duì)于草稿模型更易生成從而加速。盡管 PLD 和 Lookahead 無(wú)需訓(xùn)練，但是它們的性能都顯著弱于 EAGLE、EAGLE-2 和 HASS。

協(xié)調(diào)目標(biāo)蒸餾的消融實(shí)驗(yàn)

我們改變了 Top-K 損失的 K 和權(quán)重，結(jié)果如圖 4 所示。使用 Top-K 損失訓(xùn)練（權(quán)重大于 0）時(shí)，總是能提升草稿模型的接受長(zhǎng)度。當(dāng) K 值很小時(shí)（K=1）會(huì)導(dǎo)致性能下降，可能是因?yàn)椴莞迥Ｐ瓦^(guò)度關(guān)注概率最高的 token 而忽視了其他潛在 token。在 K=5 時(shí)，草稿模型的接受長(zhǎng)度最大。

我們還嘗試了更多關(guān)注高概率 token 的損失函數(shù)以替換 Top-K 損失，結(jié)果如表 3 所示。BiLD 損失在 T=0 時(shí)表現(xiàn)最好，Top-K 損失在 T=1 時(shí)表現(xiàn)最好?？傮w上，Top-K 損失的表現(xiàn)最好。

協(xié)調(diào)上下文對(duì)齊的消融實(shí)驗(yàn)

我們改變了協(xié)調(diào)上下文對(duì)齊的對(duì)齊步數(shù)，將用 Top-K 損失訓(xùn)練后的 EAGLE-2 權(quán)重作為基準(zhǔn)，結(jié)果如表 4 所示。在不使用協(xié)調(diào)上下文對(duì)齊時(shí)（EAGLE-2+Top-K），草稿模型的效果最差。用 3 或 4 步協(xié)調(diào)上下文對(duì)齊訓(xùn)練的草稿模型總體上能獲得最優(yōu)的接受長(zhǎng)度。當(dāng)對(duì)齊步數(shù)增加到 5 步時(shí)，接受長(zhǎng)度反而會(huì)下降，這可能是因?yàn)椴莞迥Ｐ偷哪芰τ邢?，?dāng)過(guò)度關(guān)注后幾步的 token 生成時(shí)就會(huì)導(dǎo)致在前幾步的預(yù)測(cè)精度下降。

我們畫(huà)出了 HASS 和 EAGLE-2 在每一步生成token時(shí)的接受率曲線，如圖 5 所示。可見(jiàn)在后幾步生成 token 時(shí)，HASS 的接受率顯著高于 EAGLE-2，驗(yàn)證了協(xié)調(diào)上下文對(duì)齊的有效性。

但在 LLaMA2-Chat 13B 和 LLaMA3-Instruct 70B 上，HASS 的第一步接受率相比 EAGLE-2 下降了。這可能是因?yàn)椴莞迥Ｐ完P(guān)注后幾步的 token 生成而忽視了第一步的，但第一步的接受率對(duì)于接受長(zhǎng)度非常關(guān)鍵。因此我們考慮調(diào)整訓(xùn)練時(shí)每一步對(duì)齊的損失權(quán)重，來(lái)強(qiáng)調(diào)前幾步的重要性。具體的，我們對(duì)于第 j 步的訓(xùn)練損失乘上權(quán)重，結(jié)果如表 5 和圖 6 所示。當(dāng) 從 1.0 降到 0.5 時(shí)，草稿模型的接受長(zhǎng)度不斷提高。其在第一步的接受率也對(duì)應(yīng)增長(zhǎng)，而后幾步的接受率有所下降。當(dāng) 下降到 0.3 時(shí)，訓(xùn)練過(guò)程過(guò)分強(qiáng)調(diào)了第一步 token 生成，導(dǎo)致了接受長(zhǎng)度下降。我們將在多步對(duì)齊間取得平衡的探索留到后續(xù)工作中。

04 作者簡(jiǎn)介

樂(lè)凡

小紅書(shū)中臺(tái)算法工程師，目前主要負(fù)責(zé)大語(yǔ)言模型的相關(guān)研究和應(yīng)用。

曉丹

小紅書(shū)中臺(tái)算法工程師，目前主要負(fù)責(zé)大語(yǔ)言模型的相關(guān)研究和應(yīng)用。

特圖

小紅書(shū)中臺(tái)算法基礎(chǔ)模型方向負(fù)責(zé)人，主要研究方向：多模態(tài)大模型 x 內(nèi)容分發(fā)技術(shù)。

瑞格

小紅書(shū)中臺(tái)算法團(tuán)隊(duì)負(fù)責(zé)人。

責(zé)任編輯：龐桂玉來(lái)源：小紅書(shū)技術(shù)REDtech

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<kbd id="8lm2i"></kbd>

<cite id="8lm2i"><rp id="8lm2i"><tbody id="8lm2i"></tbody></rp></cite>