自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<label id="whxus"></label>

<blockquote id="whxus"><rt id="whxus"></rt></blockquote>

<cite id="whxus"></cite>

<sub id="whxus"><p id="whxus"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

用上這個(gè)工具包，大模型推理性能加速達(dá)40倍

作者：英特爾公司 2023-11-30 18:25:57

人工智能新聞

只需不到9行代碼，就能在CPU上實(shí)現(xiàn)出色的LLM推理性能。英特爾? Extension for Transformer創(chuàng)新工具包中的LLM Runtime為諸多模型顯著降低時(shí)延，且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍，還能滿足更多場景應(yīng)用需求。

英特爾^? Extension for Transformer是什么？

英特爾? Extension for Transformers[1]是英特爾推出的一個(gè)創(chuàng)新工具包，可基于英特爾? 架構(gòu)平臺，尤其是第四代英特爾? 至強(qiáng)? 可擴(kuò)展處理器（代號Sapphire Rapids[2]，SPR）顯著加速基于Transformer的大語言模型(Large Language Model,LLM)。其主要特性包括：

通過擴(kuò)展Hugging Face transformers API[3]和利用英特爾? Neural Compressor[4]，為用戶提供無縫的模型壓縮體驗(yàn)；
提供采用低位量化內(nèi)核（NeurIPS 2023：在CPU上實(shí)現(xiàn)高效LLM推理[5]）的LLM推理運(yùn)行時(shí)，支持Falcon、LLaMA、MPT、Llama2、 BLOOM、OPT、ChatGLM2、GPT-J-6B、Baichuan-13B-Base、Baichuan2-13B-Base、Qwen-7B、Qwen-14B和Dolly-v2-3B等常見的LLM[6]；
先進(jìn)的壓縮感知運(yùn)行時(shí)[7]（NeurIPS 2022：在CPU上實(shí)現(xiàn)快速蒸餾和QuaLA-MiniLM：量化長度自適應(yīng)MiniLM；NeurIPS 2021：一次剪枝，一勞永逸：對預(yù)訓(xùn)練語言模型進(jìn)行稀疏/剪枝）。

本文將重點(diǎn)介紹其中的LLM推理運(yùn)行時(shí)（簡稱為“LLM運(yùn)行時(shí)”），以及如何利用基于Transformer的API在英特爾? 至強(qiáng)? 可擴(kuò)展處理器上實(shí)現(xiàn)更高效的LLM推理和如何應(yīng)對LLM在聊天場景中的應(yīng)用難題。

LLM運(yùn)行時(shí)(LLM Runtime)

英特爾? Extension for Transformers提供的LLM Runtime[8]是一種輕量級但高效的LLM推理運(yùn)行時(shí)，其靈感源于GGML[9]，且與llama.cpp[10]兼容，具有如下特性：

內(nèi)核已針對英特爾? 至強(qiáng)? CPU內(nèi)置的多種AI加速技術(shù)（如 AMX、VNNI）以及AVX512F和AVX2指令集進(jìn)行了優(yōu)化；
可提供更多量化選擇，例如：不同的粒度（按通道或按組）、不同的組大?。ㄈ纾?2/128）；
擁有更優(yōu)的KV緩存訪問以及內(nèi)存分配策略；
具備張量并行化功能，可助力在多路系統(tǒng)中進(jìn)行分布式推理。

LLM Runtime的簡化架構(gòu)圖如下：

△圖1.英特爾? Extension for Transformers的LLM Runtime簡化架構(gòu)圖

使用基于Transformer的API，在CPU上實(shí)現(xiàn)LLM高效推理

只需不到9行代碼，即可讓您在CPU上實(shí)現(xiàn)更出色的LLM推理性能。用戶可以輕松地啟用與Transformer類似的API來進(jìn)行量化和推理。只需將 ‘load_in_4bit’設(shè)為true，然后從HuggingFace URL或本地路徑輸入模型即可。下方提供了啟用僅限權(quán)重的(weight-only)INT4量化的示例代碼：

from transformers import AutoTokenizer, TextStreamer
from intel_extension_for_transformers.transformers import AutoModelForCausalLM
model_name = "Intel/neural-chat-7b-v3-1” 
prompt = "Once upon a time, there existed a little girl,"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
inputs = tokenizer(prompt, return_tensors="pt").input_ids
streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True)
outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)

默認(rèn)設(shè)置為：將權(quán)重存儲為4位，以8位進(jìn)行計(jì)算。但也支持不同計(jì)算數(shù)據(jù)類型(dtype)和權(quán)重?cái)?shù)據(jù)類型組合，用戶可以按需修改設(shè)置。下方提供了如何使用這一功能的示例代碼：

from transformers import AutoTokenizer, TextStreamer
from intel_extension_for_transformers.transformers import AutoModelForCausalLM, WeightOnlyQuantConfig
model_name = "Intel/neural-chat-7b-v3-1” 
prompt = "Once upon a time, there existed a little girl,"

woq_config = WeightOnlyQuantConfig(compute_dtype="int8", weight_dtype="int4")
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
inputs = tokenizer(prompt, return_tensors="pt").input_ids
streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name,quantization_cnotallow=woq_config)
outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)

性能測試

經(jīng)過持續(xù)努力，上述優(yōu)化方案的INT4性能得到了顯著提升。本文在搭載英特爾? 至強(qiáng)? 鉑金8480+的系統(tǒng)上與llama.cpp進(jìn)行了性能比較；系統(tǒng)配置詳情如下：@3.8GHz，56核/路，啟用超線程，啟用睿頻，總內(nèi)存 256 GB (16 x 16 GB DDR5 4800 MT/s [4800 MT/s])，BIOS 3A14.TEL2P1，微代碼0x2b0001b0，CentOS Stream 8。

當(dāng)輸入大小為32、輸出大小為32、beam為1時(shí)的推理性能測試結(jié)果，詳見下表：

△表1.LLM Runtime與llama.cpp推理性能比較（輸入大小=32，輸出大小=32，beam=1）

輸入大小為1024、輸出大小為32、beam為1時(shí)的推理性能的測試結(jié)果，詳見下表：

△表2.LLM Runtime與llama.cpp推理性能比較（輸入大小=1024，輸出大小=32，beam=1）

根據(jù)上表2可見：與同樣運(yùn)行在第四代英特爾? 至強(qiáng)? 可擴(kuò)展處理器上的llama.cpp相比，無論是首個(gè)token還是下一個(gè)token，LLM Runtime都能顯著降低時(shí)延，且首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá) 40 倍[a]（Baichuan-13B，輸入為1024）和2.68倍[b]（MPT-7B，輸入為1024）。llama.cpp的測試采用的是默認(rèn)代碼庫[10]。

而綜合表1和表2的測試結(jié)果，可得：與同樣運(yùn)行在第四代英特爾? 至強(qiáng)? 可擴(kuò)展處理器上的llama.cpp相比，LLM Runtime能顯著提升諸多常見LLM的整體性能：在輸入大小為1024時(shí)，實(shí)現(xiàn)3.58到21.5倍的提升；在輸入大小為32時(shí)，實(shí)現(xiàn)1.76到3.43倍的提升[c]。

準(zhǔn)確性測試

英特爾? Extension for Transformers可利用英特爾? Neural Compressor中的SignRound[11]、RTN和GPTQ[12]等量化方法，并使用lambada_openai、piqa、winogrande和hellaswag數(shù)據(jù)集驗(yàn)證了 INT4 推理準(zhǔn)確性。下表是測試結(jié)果平均值與FP32準(zhǔn)確性的比較。

△表3.INT4與FP32準(zhǔn)確性對比

從上表3可以看出，多個(gè)模型基于LLM Runtime進(jìn)行的INT4推理準(zhǔn)確性損失微小，幾乎可以忽略不記。我們驗(yàn)證了很多模型，但由于篇幅限制此處僅羅列了部分內(nèi)容。如您欲了解更多信息或細(xì)節(jié)，請?jiān)L問此鏈接：https://medium.com/@NeuralCompressor/llm-performance-of-intel-extension-for-transformers-f7d061556176。

更先進(jìn)的功能：滿足LLM更多場景應(yīng)用需求

同時(shí)，LLM Runtime[8]還具備雙路CPU的張量并行化功能，是較早具備此類功能的產(chǎn)品之一。未來，還會進(jìn)一步支持雙節(jié)點(diǎn)。

然而，LLM Runtime的優(yōu)勢不僅在于其更出色的性能和準(zhǔn)確性，我們也投入了大量的精力來增強(qiáng)其在聊天應(yīng)用場景中的功能，并且解決了LLM 在聊天場景中可能會遇到的以下應(yīng)用難題：

對話不僅關(guān)乎LLM推理，對話歷史也很有用。
輸出長度有限：LLM模型預(yù)訓(xùn)練主要基于有限的序列長度。因此，當(dāng)序列長度超出預(yù)訓(xùn)練時(shí)使用的注意力窗口大小時(shí)，其準(zhǔn)確性便會降低。
效率低下：在解碼階段，基于Transformer的LLM會存儲所有先前生成的token的鍵值狀態(tài)(KV)，從而導(dǎo)致內(nèi)存使用過度，解碼時(shí)延增加。

關(guān)于第一個(gè)問題，LLM Runtime的對話功能通過納入更多對話歷史數(shù)據(jù)以及生成更多輸出加以解決，而llama.cpp目前尚未能很好地應(yīng)對這一問題。

關(guān)于第二和第三個(gè)問題，我們將流式LLM（Steaming LLM)集成到英特爾? Extension for Transformers中，從而能顯著優(yōu)化內(nèi)存使用并降低推理時(shí)延。

Streaming LLM

與傳統(tǒng)KV緩存算法不同，我們的方法結(jié)合了注意力匯聚(Attention Sink)（4個(gè)初始token）以提升注意力計(jì)算的穩(wěn)定性，并借助滾動KV緩存保留最新的token，這對語言建模至關(guān)重要。該設(shè)計(jì)具有強(qiáng)大的靈活性，可無縫集成到能夠利用旋轉(zhuǎn)位置編碼RoPE和相對位置編碼ALiBi的自回歸語言模型中。

△圖2.Steaming LLM的KV緩存（圖片來源：通過注意力下沉實(shí)現(xiàn)高效流式語言模型[13]）

此外，與llama.cpp不同，本優(yōu)化方案還引入了“n_keep”和“n_discard”等參數(shù)來增強(qiáng)Streaming LLM策略。用戶可使用前者來指定要在KV緩存中保留的token數(shù)量，并使用后者來確定在已生成的token中要舍棄的數(shù)量。為了更好地平衡性能和準(zhǔn)確性，系統(tǒng)默認(rèn)在KV緩存中舍棄一半的最新token。

同時(shí)，為進(jìn)一步提高性能，我們還將Streaming LLM添加到了MHA融合模式中。如果模型是采用旋轉(zhuǎn)位置編碼(RoPE)來實(shí)現(xiàn)位置嵌入，那么只需針對現(xiàn)有的K-Cache應(yīng)用“移位運(yùn)算（shift operation）”，即可避免對先前生成的、未被舍棄的token進(jìn)行重復(fù)計(jì)算。這一方法不僅充分利用了長文本生成時(shí)的完整上下文大小，還能在KV緩存上下文完全被填滿前不產(chǎn)生額外開銷。

“shift operation”依賴于旋轉(zhuǎn)的交換性和關(guān)聯(lián)性，或復(fù)數(shù)乘法。例如：如果某個(gè)token的K-張量初始放置位置為m并且旋轉(zhuǎn)了m×θ_ifor i ∈ [0,d/2），那么當(dāng)它需要移動到m-1這個(gè)位置時(shí)，則可以旋轉(zhuǎn)回到（-1）×θ_ifor i ∈ [0,d/2）。這正是每次舍棄n_discard個(gè)token的緩存時(shí)發(fā)生的事情，而此時(shí)剩余的每個(gè)token都需要“移動”n_discard個(gè)位置。下圖以“n_keep=4、n_ctx=16、n_discard=1”為例，展示了這一過程。

△圖3.Ring-Buffer KV-Cache和Shift-RoPE工作原理

需要注意的是：融合注意力層無需了解上述過程。如果對K-cache和V-cache進(jìn)行相同的洗牌，注意力層會輸出幾乎相同的結(jié)果（可能存在因浮點(diǎn)誤差導(dǎo)致的微小差異）。

您可通過以下代碼啟動Streaming LLM：

from transformers import AutoTokenizer, TextStreamer  
 from intel_extension_for_transformers.transformers import AutoModelForCausalLM, WeightOnlyQuantConfig  
 model_name = "Intel/neural-chat-7b-v1-1"     # Hugging Face model_id or local model
 woq_config = WeightOnlyQuantConfig(compute_dtype="int8", weight_dtype="int4")
 prompt = "Once upon a time, a little girl"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 inputs = tokenizer(prompt, return_tensors="pt").input_ids
 streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name, quantization_cnotallow=woq_config, trust_remote_code=True)

 # Recommend n_keep=4 to do attention sinks (four initial tokens) and n_discard=-1 to drop half rencetly tokens when meet length threshold

 outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300, ctx_size=100, n_keep=4, n_discard=-1)

結(jié)論與展望

本文基于上述實(shí)踐經(jīng)驗(yàn)，提供了一個(gè)在英特爾? 至強(qiáng)? 可擴(kuò)展處理器上實(shí)現(xiàn)高效的低位(INT4)LLM推理的解決方案，并且在一系列常見LLM上驗(yàn)證了其通用性以及展現(xiàn)了其相對于其他基于CPU的開源解決方案的性能優(yōu)勢。未來，我們還將進(jìn)一步提升CPU張量庫和跨節(jié)點(diǎn)并行性能。

歡迎您試用英特爾? Extension for Transformers[1]，并在英特爾? 平臺上更高效地運(yùn)行LLM推理！也歡迎您向代碼倉庫(repository)提交修改請求 (pull request)、問題或疑問。期待您的反饋！

特別致謝

在此致謝為此篇文章做出貢獻(xiàn)的英特爾公司人工智能資深經(jīng)理張瀚文及工程師許震中、余振滔、劉振衛(wèi)、丁藝、王哲、劉宇澄。

[a]根據(jù)表2 Baichuan-13B的首個(gè)token測試結(jié)果計(jì)算而得。
[b]根據(jù)表2 MPT-7B的下一個(gè)token測試結(jié)果計(jì)算而得。
[c]當(dāng)輸入大小為1024時(shí)，整體性能=首個(gè)token性能+1023下一個(gè)token性能；當(dāng)輸入大小為32時(shí)，整體性能=首個(gè)token性能+31下一個(gè)token性能。

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營