CPU推理僅29ms,微軟開源第一個(gè)原生 1 bit 大模型,內(nèi)存只需Qwen 1.5B的1/15
微軟研究院發(fā)布了第一個(gè)開源的、原生的 1 bit 大型語言模型(LLM):BitNet b1.58 2B4T:
- 內(nèi)存占用:BitNet b1.58 2B4T 的非嵌入層內(nèi)存占用僅為0.4GB,遠(yuǎn)低于其他全精度模型。
- 能耗:估計(jì)的解碼能耗為0.028焦耳,遠(yuǎn)低于其他模型。
- 解碼延遲:在CPU上,BitNet b1.58 2B4T 的平均延遲為29ms,遠(yuǎn)低于其他模型。
BitNet b1.58 2B4T參數(shù)規(guī)模達(dá)到20億,在包含4T tokens的語料庫上進(jìn)行訓(xùn)練,并在多個(gè)基準(zhǔn)測試中表現(xiàn)出與同規(guī)模的領(lǐng)先全精度模型(LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等)相當(dāng)?shù)男阅堋?/span>
選擇了一個(gè)領(lǐng)先的全精度模型Qwen2.5 1.5B,并對其應(yīng)用了兩種標(biāo)準(zhǔn)的INT4量化方法:GPTQ和AWQ。
- 內(nèi)存占用:BitNet b1.58 2B4T的非嵌入層內(nèi)存占用僅為0.4GB,遠(yuǎn)低于Qwen2.5 1.5B的2.6GB(即使在INT4量化后,Qwen2.5 1.5B的內(nèi)存占用仍為0.7GB)。
- 性能:盡管INT4量化顯著減少了Qwen2.5 1.5B的內(nèi)存占用,但BitNet b1.58 2B4T在大多數(shù)基準(zhǔn)測試中保持了更強(qiáng)的性能。
模型權(quán)重已通過 Hugging Face 公開發(fā)布,沖上熱榜Top1,并提供了針對 GPU 和 CPU 架構(gòu)的開源推理實(shí)現(xiàn)。
現(xiàn)有的1bit模型要么是基于全精度模型的后訓(xùn)練量化(PTQ),導(dǎo)致性能顯著下降;要么是規(guī)模較小的原生1bit模型;BitNet b1.58 2B4T 模型完全從頭開始訓(xùn)練,核心創(chuàng)新是用自定義的 BitLinear 層替換了標(biāo)準(zhǔn)的全精度線性層。這些 BitLinear 層包括:
- 權(quán)重量化:在前向傳播中,模型權(quán)重被量化為1.58bit,使用絕對均值(absmean)量化方案將權(quán)重映射到三元值{-1, 0, +1}。
- 激活量化:線性投影中的激活被量化為8bit整數(shù),使用絕對最大值(absmax)量化策略,按token應(yīng)用。
- 歸一化:引入子層歸一化(subln)以增強(qiáng)訓(xùn)練穩(wěn)定性。
除了 BitLinear 層外,還集成了多種已建立的 LLM 技術(shù)以增強(qiáng)性能和穩(wěn)定性,包括在前饋網(wǎng)絡(luò)(FFN)子層中使用 ReLU2 激活函數(shù)、RoPE 以及去除所有線性層和歸一化層的偏置項(xiàng)。
BitNet b1.58 2B4T 的訓(xùn)練過程包括三個(gè)階段:
- 預(yù)訓(xùn)練:目標(biāo)是賦予模型廣泛的世界知識和基礎(chǔ)語言能力。使用了兩階段學(xué)習(xí)率計(jì)劃和權(quán)重衰減策略,以及包含公共文本和代碼數(shù)據(jù)集的預(yù)訓(xùn)練語料庫。
- 監(jiān)督微調(diào)(SFT):通過多樣化的指令跟隨和對話數(shù)據(jù)集增強(qiáng)模型的指令跟隨能力和對話交互格式的性能。
- 直接偏好優(yōu)化(DPO):進(jìn)一步使模型的行為與人類對有用性和安全性的偏好對齊,直接優(yōu)化語言模型以使用偏好數(shù)據(jù),避免了訓(xùn)練單獨(dú)的獎(jiǎng)勵(lì)模型。
https://arxiv.org/pdf/2504.12285
https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T
BitNet b1.58 2B4T Technical Report
本文轉(zhuǎn)載自??PaperAgent??
