自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM推理3倍速!微軟發(fā)布LLM Accelerator:用參考文本實(shí)現(xiàn)無(wú)損加速

人工智能 新聞
最近,微軟亞洲研究院的研究員們提出了一種使用參考文本無(wú)損加速大語(yǔ)言模型推理的方法 LLM Accelerator,在大模型典型的應(yīng)用場(chǎng)景中可以取得兩到三倍的加速。

隨著人工智能技術(shù)的快速發(fā)展,ChatGPT、New Bing、GPT-4 等新產(chǎn)品和新技術(shù)陸續(xù)發(fā)布,基礎(chǔ)大模型在諸多應(yīng)用中將發(fā)揮日益重要的作用。

目前的大語(yǔ)言模型大多是自回歸模型。自回歸是指模型在輸出時(shí)往往采用逐詞輸出的方式,即在輸出每個(gè)詞時(shí),模型需要將之前輸出的詞作為輸入。而這種自回歸模式通常在輸出時(shí)制約著并行加速器的充分利用。

在許多應(yīng)用場(chǎng)景中,大模型的輸出常常與一些參考文本有很大的相似性,例如在以下三個(gè)常見的場(chǎng)景中:

1. 檢索增強(qiáng)的生成

New Bing 等檢索應(yīng)用在響應(yīng)用戶輸入的內(nèi)容時(shí),會(huì)先返回一些與用戶輸入相關(guān)的信息,然后用語(yǔ)言模型總結(jié)檢索出的信息,再回答用戶輸入的內(nèi)容。在這種場(chǎng)景中,模型的輸出往往包含大量檢索結(jié)果中的文本片段。

2. 使用緩存的生成

大規(guī)模部署語(yǔ)言模型的過(guò)程中,歷史的輸入輸出會(huì)被緩存。在處理新的輸入時(shí),檢索應(yīng)用會(huì)在緩存中尋找相似的輸入。因此,模型的輸出往往和緩存中對(duì)應(yīng)的輸出有很大的相似性。

3. 多輪對(duì)話中的生成

在使用 ChatGPT 等應(yīng)用時(shí),用戶往往會(huì)根據(jù)模型的輸出反復(fù)提出修改要求。在這種多輪對(duì)話的場(chǎng)景下,模型的多次輸出往往只有少量的變化,重復(fù)度較高。

圖片

圖1:大模型的輸出與參考文本存在相似性的常見場(chǎng)景

基于以上觀察,研究員們以參考文本與模型輸出的重復(fù)性作為突破自回歸瓶頸的著力點(diǎn),希望可以提高并行加速器利用率,加速大語(yǔ)言模型推理,進(jìn)而提出了一種利用輸出與參考文本的重復(fù)性來(lái)實(shí)現(xiàn)一步輸出多個(gè)詞的方法 LLM Accelerator。

圖片

圖2:LLM Accelerator 解碼算法

具體來(lái)說(shuō),在每一步解碼時(shí),讓模型先匹配已有的輸出結(jié)果與參考文本,如果發(fā)現(xiàn)某個(gè)參考文本與已有的輸出相符,那么模型很可能順延已有的參考文本繼續(xù)輸出。

因此,研究員們將參考文本的后續(xù)詞也作為輸入加入到模型中,從而使得一個(gè)解碼步驟可以輸出多個(gè)詞。

為了保證輸入輸出準(zhǔn)確,研究員們進(jìn)一步對(duì)比了模型輸出的詞與從參考文檔輸入的詞。如果兩者不一致,那么不正確的輸入輸出結(jié)果將被舍棄。

以上方法能夠保證解碼結(jié)果與基準(zhǔn)方法完全一致,并可以提高每個(gè)解碼步驟的輸出詞數(shù),從而實(shí)現(xiàn)大模型推理的無(wú)損加速。

LLM Accelerator 無(wú)需額外輔助模型,簡(jiǎn)單易用,可以方便地部署到各種應(yīng)用場(chǎng)景中。

論文鏈接:https://arxiv.org/pdf/2304.04487.pdf

項(xiàng)目鏈接:https://github.com/microsoft/LMOps

使用 LLM Accelerator,有兩個(gè)超參數(shù)需要調(diào)整。

一是觸發(fā)匹配機(jī)制所需的輸出與參考文本的匹配詞數(shù):匹配詞數(shù)越長(zhǎng)往往越準(zhǔn)確,可以更好地保證從參考文本拷貝的詞是正確的輸出,減少不必要的觸發(fā)和計(jì)算;更短的匹配,解碼步驟更少,潛在加速更快。

二是每次拷貝詞的數(shù)量:拷貝詞數(shù)越多,加速潛力越大,但也可能造成更多不正確的輸出被舍棄,浪費(fèi)計(jì)算資源。研究員們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),更加激進(jìn)的策略(匹配單個(gè)詞觸發(fā),一次拷貝15到20個(gè)詞)往往能夠取得更好的加速比。

為了驗(yàn)證 LLM Accelerator 的有效性,研究員們?cè)跈z索增強(qiáng)和緩存輔助生成方面進(jìn)行了實(shí)驗(yàn),利用 MS-MARCO 段落檢索數(shù)據(jù)集構(gòu)造了實(shí)驗(yàn)樣本。

在檢索增強(qiáng)實(shí)驗(yàn)中,研究員們使用檢索模型對(duì)每個(gè)查詢返回10個(gè)最相關(guān)的文檔,然后拼接到查詢后作為模型輸入,將這10個(gè)文檔作為參考文本。

在緩存輔助生成實(shí)驗(yàn)中,每個(gè)查詢生成四個(gè)相似的查詢,然后用模型輸出對(duì)應(yīng)的查詢作為參考文本。

圖片

表1:檢索增強(qiáng)的生成場(chǎng)景下的時(shí)間對(duì)比

圖片

表2:使用緩存的生成場(chǎng)景下的時(shí)間對(duì)比

研究員們使用通過(guò) OpenAI 接口得到的 Davinci-003 模型的輸出結(jié)果作為目標(biāo)輸出,以獲得高質(zhì)量的輸出。得到所需輸入、輸出和參考文本后,研究員們?cè)陂_源的 LLaMA 語(yǔ)言模型上進(jìn)行了實(shí)驗(yàn)。

由于 LLaMA 模型的輸出與 Davinci-003 輸出不一致,所以研究員們采用了目標(biāo)導(dǎo)向的解碼方法來(lái)測(cè)試?yán)硐胼敵觯―avinci-003 模型結(jié)果)結(jié)果下的加速比。

研究員們利用算法2得到了貪婪解碼時(shí)生成目標(biāo)輸出所需的解碼步驟,并強(qiáng)制 LLaMA 模型按照得到的解碼步驟進(jìn)行解碼。

圖片

圖3:利用算法2得到了貪婪解碼時(shí)生成目標(biāo)輸出所需的解碼步驟

對(duì)于參數(shù)量為 7B 和 13B 的模型,研究員們?cè)趩蝹€(gè) 32G NVIDIA V100 GPU 上進(jìn)行實(shí)驗(yàn);對(duì)于參數(shù)量為 30B 的模型,在四塊同樣的 GPU 上進(jìn)行實(shí)驗(yàn)。所有的實(shí)驗(yàn)均采用了半精度浮點(diǎn)數(shù),解碼均為貪婪解碼,且批量大小為1。

實(shí)驗(yàn)結(jié)果表明,LLM Accelerator 在不同模型大?。?B,13B,30B)與不同的應(yīng)用場(chǎng)景中(檢索增強(qiáng)、緩存輔助)都取得了兩到三倍的加速比。

進(jìn)一步實(shí)驗(yàn)分析發(fā)現(xiàn),LLM Accelertator 能顯著減少所需的解碼步驟,并且加速比與解碼步驟的減少比例呈正相關(guān)。

更少的解碼步驟一方面意味著每個(gè)解碼步驟生成的輸出詞數(shù)更多,可以提高 GPU 計(jì)算的計(jì)算效率;另一方面,對(duì)于需要多卡并行的30B模型,這意味著更少的多卡同步,從而達(dá)到更快的速度提升。

在消融實(shí)驗(yàn)中,在開發(fā)集上對(duì) LLM Accelertator 的超參數(shù)進(jìn)行分析的結(jié)果顯示,匹配單個(gè)單詞(即觸發(fā)拷貝機(jī)制)時(shí),一次拷貝15到20個(gè)單詞時(shí)的加速比可達(dá)到最大 (圖4所示)。

在圖5中我們可以看出,匹配詞數(shù)為1能更多地觸發(fā)拷貝機(jī)制,并且隨著拷貝長(zhǎng)度的增加,每個(gè)解碼步驟接受的輸出詞增加,解碼步驟減少,從而達(dá)到更高的加速比。

圖片

圖4:消融實(shí)驗(yàn)中,在開發(fā)集上對(duì) LLM Accelertator 的超參數(shù)的分析結(jié)果

圖片

圖5:在開發(fā)集上,具有不同匹配詞數(shù) n 和拷貝詞數(shù) k 的解碼步驟統(tǒng)計(jì)數(shù)據(jù)

LLM Accelertator 是微軟亞洲研究院自然語(yǔ)言計(jì)算組在大語(yǔ)言模型加速系列工作的一部分,未來(lái),研究員們將持續(xù)對(duì)相關(guān)問(wèn)題進(jìn)行更加深入的探索。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2024-09-09 08:31:15

2024-12-05 13:50:00

AI大模型

2024-02-26 07:43:10

大語(yǔ)言模型LLM推理框架

2025-04-24 10:26:40

2025-04-11 09:15:00

語(yǔ)言模型AI數(shù)據(jù)

2023-12-14 13:30:00

AI模型

2023-09-27 08:18:03

2020-05-20 12:44:53

編程軟件開發(fā)JavaScript

2023-09-12 14:45:18

2025-04-27 09:15:40

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-08-25 17:10:14

LLM人工智能

2024-07-08 13:04:01

2024-07-03 14:29:38

2024-06-12 11:48:55

2015-05-06 10:22:39

802.11協(xié)議802.11ax

2024-04-03 12:32:00

數(shù)據(jù)訓(xùn)練

2023-05-30 14:17:00

模型推理

2023-11-27 13:19:54

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)