自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="qrmt5"><option id="qrmt5"></option></center>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

微軟開源“原生1bit”三進(jìn)制LLM：2B參數(shù)，0.4GB內(nèi)存/單CPU就能跑，性能與同規(guī)模全精度開源模型相當(dāng)

作者：量子位 2025-04-21 18:43:31

人工智能新聞

BitNet b1.58采用獨(dú)特量化方案（1.58bit權(quán)重和8bit激活值，W1.58A8）需要專門的實(shí)現(xiàn)，標(biāo)準(zhǔn)深度學(xué)習(xí)庫通常缺乏針對(duì)這種混合精度、低比特格式的優(yōu)化內(nèi)核，微軟開發(fā)了專門針對(duì)W1.58A8矩陣乘法的自定義CUDA內(nèi)核。

微軟以小搏大，發(fā)布首個(gè)開源2B參數(shù)規(guī)?！?strong>原生1bit”LLM——

BitNet b1.58 2B4T，單CPU就能跑，性能與同規(guī)模全精度開源模型相當(dāng)。

它采用三進(jìn)制{-1, 0, 1}存儲(chǔ)權(quán)重，相較于傳統(tǒng)的16位浮點(diǎn)數(shù)可大幅降低顯存需求。

只需0.4GB內(nèi)存即可運(yùn)行。

基于4T token語料訓(xùn)練，BitNet b1.58 2B4T在保持性能的同時(shí)，計(jì)算效率突出。

單個(gè)CPU即可達(dá)到“與人類閱讀速度”相當(dāng)?shù)乃俣龋棵?-7個(gè)token，CPU端解碼延遲29ms，能耗低至0.028J。

這種效率使其可在普通筆記本電腦甚至邊緣設(shè)備上實(shí)時(shí)運(yùn)行。

例如在蘋果M2 CPU上快速運(yùn)行：

另外值得一提的是，BitNet b1.58 2B4T具有原生訓(xùn)練優(yōu)勢(shì)，與訓(xùn)練后量化（PTQ）模型對(duì)比，避免了PTQ常見的性能衰減。

BitNet b1.58 2B4T剛發(fā)布就吸引了大量網(wǎng)友點(diǎn)贊關(guān)注，作者們也當(dāng)起了自己個(gè)兒的自來水。

如何實(shí)現(xiàn)原生1bit？話不多說，一起來看看技術(shù)詳情。

權(quán)重映射為三元值{-1, 0, +1}

BitNet b1.58 2B4T模型基于Transformer架構(gòu)，對(duì)核心組件進(jìn)行了系統(tǒng)性改造。傳統(tǒng)LLM依賴16bit或32bit浮點(diǎn)數(shù)存儲(chǔ)權(quán)重，而BitNet b1.58 2B4T采用一種稱為absmean的量化方案，將權(quán)重映射為三元值{-1, 0, +1}，平均每個(gè)權(quán)重僅需1.58bit（log?3≈1.58）來表示。

模型內(nèi)存占用驟降至0.4GB，僅為同類全精度模型的1/5-1/12。

另外，線性投影中的激活值被量化為8bit整數(shù)，采用基于每token的absmax量化策略，團(tuán)隊(duì)還引入subln歸一化，增強(qiáng)量化訓(xùn)練穩(wěn)定性。

其它關(guān)鍵設(shè)計(jì)包括：

激活函數(shù)：前饋網(wǎng)絡(luò)（FFN）子層采用ReLU2替代常見的SwiGLU，通過提升模型稀疏性，優(yōu)化了1bit環(huán)境下的計(jì)算特性。
位置編碼：使用旋轉(zhuǎn)位置嵌入（RoPE）。
偏置消除：與Llama等架構(gòu)一致，所有線性層和歸一化層均移除偏置項(xiàng)，減少參數(shù)量并簡化量化流程。

訓(xùn)練方面，BitNet b1.58 2B4T采用三階段訓(xùn)練：大規(guī)模預(yù)訓(xùn)練、監(jiān)督微調(diào)（SFT）和直接偏好優(yōu)化（DPO）。

先是大規(guī)模預(yù)訓(xùn)練，模型經(jīng)歷了兩階段學(xué)習(xí)率調(diào)度：得益于1bit模型的訓(xùn)練穩(wěn)定性，初期采用高學(xué)習(xí)率快速收斂；中期驟降至低水平，使模型能在高質(zhì)量數(shù)據(jù)上精細(xì)化調(diào)整。配合動(dòng)態(tài)權(quán)重衰減策略，模型在保持泛化能力的同時(shí)避免過擬合。

監(jiān)督微調(diào)（SFT）階段，值得注意的是，訓(xùn)練中采用損失函數(shù)求和而非平均策略，并延長了訓(xùn)練輪次，這一調(diào)整被證明對(duì)低精度模型的收斂至關(guān)重要。

直接偏好優(yōu)化（DPO）階段，基于UltraFeedback、MagPie等人類偏好數(shù)據(jù)集，模型通過無獎(jiǎng)勵(lì)模型的直接優(yōu)化，提升了回答的安全性與用戶滿意度，避免了傳統(tǒng)RLHF的高計(jì)算成本。

實(shí)驗(yàn)效果方面，BitNet b1.58 2B4T內(nèi)存占用僅為0.4GB，CPU端解碼延遲29ms，能耗低至0.028J。

在數(shù)學(xué)推理任務(wù)GSM8K中，BitNet以58.38的準(zhǔn)確率遠(yuǎn)超Llama 3.2-1B（38.21）和Qwen2.5-1.5B（56.79）；在常識(shí)推理任務(wù)WinoGrande中，BitNet 71.90的得分超同類模型均值（63.55）。

團(tuán)隊(duì)特別指出，BitNet b1.58 2B4T具有原生訓(xùn)練優(yōu)勢(shì)。與訓(xùn)練后量化（PTQ）模型對(duì)比，BitNet的原生1bit訓(xùn)練策略避免了PTQ常見的性能衰減。

參數(shù)更大的Llama3-8B模型量化至1bit后，也難打BitNet b1.58 2B4T。

和其它1bit模型相比，BitNet b1.58 2B4T也有顯著更強(qiáng)的整體性能，絕大多數(shù)基準(zhǔn)測(cè)試中取得SOTA。

有關(guān)BitNet b1.58 2B4T的具體表現(xiàn)，再來看幾個(gè)例子。

讓它生成幾個(gè)笑話，笑話簡短但也蠻有意思：

稻草人為何成為成功的神經(jīng)外科醫(yī)生？回答是因?yàn)樗谧约旱念I(lǐng)域很杰出（outstanding in his field）。

單CPU生成97個(gè)token，總耗時(shí)3.452秒，每秒處理 28.1 token。

再讓它基于2000年的背景，讓一位PowerPC處理器愛好者和一位英特爾處理器愛好者進(jìn)行五行辯論。

BitNet b1.58 2B4T生成結(jié)果也很快，并且反映了那個(gè)時(shí)代科技行業(yè)的競爭特性。

微軟在1 bit LLM上的探索

1 bit LLM的實(shí)現(xiàn)方法，微軟其實(shí)早在2023年就有相關(guān)研究，當(dāng)時(shí)就稱為BitNet，用BitLinear替換了nn.Linear。

之后，微軟原班人馬在上一篇論文的基礎(chǔ)之上做了優(yōu)化，提出BitNet b1.58，在原始BitNet的基礎(chǔ)上增加了一個(gè)額外的0值。

也就是“The Era of 1-bit LLMs”這篇論文，用6頁研究引發(fā)網(wǎng)友廣泛關(guān)注。

這種方法發(fā)布后，也有不少人在這項(xiàng)研究的基礎(chǔ)之上進(jìn)行探索。Huggingface Transformers還曾整合了BitNet b1.58，運(yùn)用一些技巧，使得現(xiàn)有模型可以直接微調(diào)到1.58bit。

接著，微軟還開發(fā)并開源了針對(duì)GPU和CPU平臺(tái)的專用推理庫。

BitNet b1.58采用獨(dú)特量化方案（1.58bit權(quán)重和8bit激活值，W1.58A8）需要專門的實(shí)現(xiàn)，標(biāo)準(zhǔn)深度學(xué)習(xí)庫通常缺乏針對(duì)這種混合精度、低比特格式的優(yōu)化內(nèi)核，微軟開發(fā)了專門針對(duì)W1.58A8矩陣乘法的自定義CUDA內(nèi)核。

另外，微軟還開源了bitnet.cpp——一個(gè)用于1 bit LLM CPU推理的官方參考C++庫，提供針對(duì)標(biāo)準(zhǔn)CPU架構(gòu)優(yōu)化的內(nèi)核，旨在高效適配模型的特定量化方案，盡可能避免通用量化庫的開銷或復(fù)雜的底層位操作。

技術(shù)報(bào)告：https://arxiv.org/abs/2504.12285

抱抱臉鏈接：https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

責(zé)任編輯：張燕妮來源：量子位

深度學(xué)習(xí)微軟開源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="ccx52"><rp id="ccx52"></rp></style>