自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟開源“原生1bit”三進(jìn)制LLM:2B參數(shù),0.4GB內(nèi)存/單CPU就能跑,性能與同規(guī)模全精度開源模型相當(dāng)

人工智能 新聞
BitNet b1.58采用獨(dú)特量化方案(1.58bit權(quán)重和8bit激活值,W1.58A8)需要專門的實(shí)現(xiàn),標(biāo)準(zhǔn)深度學(xué)習(xí)庫通常缺乏針對(duì)這種混合精度、低比特格式的優(yōu)化內(nèi)核,微軟開發(fā)了專門針對(duì)W1.58A8矩陣乘法的自定義CUDA內(nèi)核。

微軟以小搏大,發(fā)布首個(gè)開源2B參數(shù)規(guī)?!?strong>原生1bit”LLM——

BitNet b1.58 2B4T,單CPU就能跑,性能與同規(guī)模全精度開源模型相當(dāng)。

圖片

它采用三進(jìn)制{-1, 0, 1}存儲(chǔ)權(quán)重,相較于傳統(tǒng)的16位浮點(diǎn)數(shù)可大幅降低顯存需求。

只需0.4GB內(nèi)存即可運(yùn)行。

基于4T token語料訓(xùn)練,BitNet b1.58 2B4T在保持性能的同時(shí),計(jì)算效率突出。

單個(gè)CPU即可達(dá)到“與人類閱讀速度”相當(dāng)?shù)乃俣龋棵?-7個(gè)token,CPU端解碼延遲29ms,能耗低至0.028J。

這種效率使其可在普通筆記本電腦甚至邊緣設(shè)備上實(shí)時(shí)運(yùn)行。

例如在蘋果M2 CPU上快速運(yùn)行:

另外值得一提的是,BitNet b1.58 2B4T具有原生訓(xùn)練優(yōu)勢(shì),與訓(xùn)練后量化(PTQ)模型對(duì)比,避免了PTQ常見的性能衰減。

BitNet b1.58 2B4T剛發(fā)布就吸引了大量網(wǎng)友點(diǎn)贊關(guān)注,作者們也當(dāng)起了自己個(gè)兒的自來水。

圖片

如何實(shí)現(xiàn)原生1bit?話不多說,一起來看看技術(shù)詳情。

權(quán)重映射為三元值{-1, 0, +1}

BitNet b1.58 2B4T模型基于Transformer架構(gòu),對(duì)核心組件進(jìn)行了系統(tǒng)性改造。傳統(tǒng)LLM依賴16bit或32bit浮點(diǎn)數(shù)存儲(chǔ)權(quán)重,而BitNet b1.58 2B4T采用一種稱為absmean的量化方案,將權(quán)重映射為三元值{-1, 0, +1},平均每個(gè)權(quán)重僅需1.58bit(log?3≈1.58)來表示。

模型內(nèi)存占用驟降至0.4GB,僅為同類全精度模型的1/5-1/12。

圖片

另外,線性投影中的激活值被量化為8bit整數(shù),采用基于每token的absmax量化策略,團(tuán)隊(duì)還引入subln歸一化,增強(qiáng)量化訓(xùn)練穩(wěn)定性。

其它關(guān)鍵設(shè)計(jì)包括:

  • 激活函數(shù):前饋網(wǎng)絡(luò)(FFN)子層采用ReLU2替代常見的SwiGLU,通過提升模型稀疏性,優(yōu)化了1bit環(huán)境下的計(jì)算特性。
  • 位置編碼:使用旋轉(zhuǎn)位置嵌入(RoPE)。
  • 偏置消除:與Llama等架構(gòu)一致,所有線性層和歸一化層均移除偏置項(xiàng),減少參數(shù)量并簡化量化流程。

訓(xùn)練方面,BitNet b1.58 2B4T采用三階段訓(xùn)練:大規(guī)模預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)。

先是大規(guī)模預(yù)訓(xùn)練,模型經(jīng)歷了兩階段學(xué)習(xí)率調(diào)度:得益于1bit模型的訓(xùn)練穩(wěn)定性,初期采用高學(xué)習(xí)率快速收斂;中期驟降至低水平,使模型能在高質(zhì)量數(shù)據(jù)上精細(xì)化調(diào)整。配合動(dòng)態(tài)權(quán)重衰減策略,模型在保持泛化能力的同時(shí)避免過擬合。

監(jiān)督微調(diào)(SFT)階段,值得注意的是,訓(xùn)練中采用損失函數(shù)求和而非平均策略,并延長了訓(xùn)練輪次,這一調(diào)整被證明對(duì)低精度模型的收斂至關(guān)重要。

直接偏好優(yōu)化(DPO)階段,基于UltraFeedback、MagPie等人類偏好數(shù)據(jù)集,模型通過無獎(jiǎng)勵(lì)模型的直接優(yōu)化,提升了回答的安全性與用戶滿意度,避免了傳統(tǒng)RLHF的高計(jì)算成本。

實(shí)驗(yàn)效果方面,BitNet b1.58 2B4T內(nèi)存占用僅為0.4GB,CPU端解碼延遲29ms,能耗低至0.028J。

在數(shù)學(xué)推理任務(wù)GSM8K中,BitNet以58.38的準(zhǔn)確率遠(yuǎn)超Llama 3.2-1B(38.21)和Qwen2.5-1.5B(56.79);在常識(shí)推理任務(wù)WinoGrande中,BitNet 71.90的得分超同類模型均值(63.55)。

圖片

團(tuán)隊(duì)特別指出,BitNet b1.58 2B4T具有原生訓(xùn)練優(yōu)勢(shì)。與訓(xùn)練后量化(PTQ)模型對(duì)比,BitNet的原生1bit訓(xùn)練策略避免了PTQ常見的性能衰減。

圖片

參數(shù)更大的Llama3-8B模型量化至1bit后,也難打BitNet b1.58 2B4T。

和其它1bit模型相比,BitNet b1.58 2B4T也有顯著更強(qiáng)的整體性能,絕大多數(shù)基準(zhǔn)測(cè)試中取得SOTA。

圖片

有關(guān)BitNet b1.58 2B4T的具體表現(xiàn),再來看幾個(gè)例子。

讓它生成幾個(gè)笑話,笑話簡短但也蠻有意思:

稻草人為何成為成功的神經(jīng)外科醫(yī)生?回答是因?yàn)樗谧约旱念I(lǐng)域很杰出(outstanding in his field)。

圖片

單CPU生成97個(gè)token,總耗時(shí)3.452秒,每秒處理 28.1 token。

再讓它基于2000年的背景,讓一位PowerPC處理器愛好者和一位英特爾處理器愛好者進(jìn)行五行辯論。

BitNet b1.58 2B4T生成結(jié)果也很快,并且反映了那個(gè)時(shí)代科技行業(yè)的競爭特性。

圖片

微軟在1 bit LLM上的探索

1 bit LLM的實(shí)現(xiàn)方法,微軟其實(shí)早在2023年就有相關(guān)研究,當(dāng)時(shí)就稱為BitNet,用BitLinear替換了nn.Linear。

圖片圖片

之后,微軟原班人馬在上一篇論文的基礎(chǔ)之上做了優(yōu)化,提出BitNet b1.58,在原始BitNet的基礎(chǔ)上增加了一個(gè)額外的0值。

也就是“The Era of 1-bit LLMs”這篇論文,用6頁研究引發(fā)網(wǎng)友廣泛關(guān)注。

圖片

這種方法發(fā)布后,也有不少人在這項(xiàng)研究的基礎(chǔ)之上進(jìn)行探索。Huggingface Transformers還曾整合了BitNet b1.58,運(yùn)用一些技巧,使得現(xiàn)有模型可以直接微調(diào)到1.58bit。

接著,微軟還開發(fā)并開源了針對(duì)GPU和CPU平臺(tái)的專用推理庫。

BitNet b1.58采用獨(dú)特量化方案(1.58bit權(quán)重和8bit激活值,W1.58A8)需要專門的實(shí)現(xiàn),標(biāo)準(zhǔn)深度學(xué)習(xí)庫通常缺乏針對(duì)這種混合精度、低比特格式的優(yōu)化內(nèi)核,微軟開發(fā)了專門針對(duì)W1.58A8矩陣乘法的自定義CUDA內(nèi)核。

另外,微軟還開源了bitnet.cpp——一個(gè)用于1 bit LLM CPU推理的官方參考C++庫,提供針對(duì)標(biāo)準(zhǔn)CPU架構(gòu)優(yōu)化的內(nèi)核,旨在高效適配模型的特定量化方案,盡可能避免通用量化庫的開銷或復(fù)雜的底層位操作。

技術(shù)報(bào)告:https://arxiv.org/abs/2504.12285

抱抱臉鏈接:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-21 08:30:00

微軟開源模型

2025-04-23 12:11:40

2023-12-13 12:55:39

模型數(shù)據(jù)

2024-02-29 11:56:48

2022-01-13 15:20:45

Ubuntu內(nèi)存Linux

2025-03-07 08:30:00

2024-06-28 13:42:07

2023-06-19 16:05:22

大型語言模型人工智能

2024-10-22 18:07:43

LLMs開源大模型

2023-10-12 14:40:10

AI模型

2023-12-03 08:49:38

微軟開源

2025-01-16 16:39:44

2023-12-01 13:36:01

阿里云通義千問

2024-02-21 12:10:00

模型數(shù)據(jù)

2023-02-25 21:45:55

模型AI

2024-08-01 12:44:58

2024-07-18 12:53:13

2020-03-23 13:45:44

人臉識(shí)別人工智能數(shù)據(jù)

2025-02-26 14:00:00

開源模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)