自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="q1wc0"><code id="q1wc0"><rp id="q1wc0"></rp></code></big>

<legend id="q1wc0"><track id="q1wc0"></track></legend>

^{<sub id="q1wc0"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

微軟發(fā)布全球首個1-bit大模型：內(nèi)存縮至0.4 GB，參數(shù)只有0和±1，性能追平全精度

作者：文摘菌 2025-04-23 12:11:40

微軟的BitNet b1.58 2B4T 的技術(shù)報告悄然上線。其實在開源社區(qū)里，關(guān)于極致低比特量化的大模型早就有各種傳聞，這次微軟研究院終于亮出底牌。

微軟的BitNet b1.58 2B4T 的技術(shù)報告悄然上線。

其實在開源社區(qū)里，關(guān)于極致低比特量化的大模型早就有各種傳聞，這次微軟研究院終于亮出底牌。

——全球首個原生1-bit、規(guī)模高達20億參數(shù)的開源大模型。

圖片

圖注：這張圖表明，在同等內(nèi)存占用下，BitNet b1.58 2B模型取得了更高的性能分數(shù)，比當(dāng)前主流開源模型更高效

別看名字有點拗口，b1.58 2B4T，背后可不簡單，這玩意不僅在性能上追平甚至部分超越同級別全精度模型，更是把內(nèi)存、能耗和推理速度都拉低到令人發(fā)指的地步。

而且，模型權(quán)重直接上 Hugging Face，推理代碼 GPU、CPU 雙版本全開源，門檻之低，真是讓人有點小震撼。

1.BitNet b1.58 2B4T 到底是什么？

一句話總結(jié)：這是世界首個原生1-bit、20億參數(shù)、性能媲美全精度的開源大模型。

大家都知道，大模型開源越來越卷，LLaMA、Qwen、Gemma、MiniCPM 各種百花齊放。但有個痛點始終沒解決——太吃資源。

于是，極致量化被推上風(fēng)口——1-bit（極端比特化，只允許權(quán)重取-1、0、+1）。

說起來簡單，真要規(guī)?；涞?，性能往往一落千丈，之前不是只能做小模型，就是性能掉得讓人心疼。

BitNet b1.58 2B4T 這次直接原生1-bit訓(xùn)練，參數(shù)上到2B，訓(xùn)練數(shù)據(jù)高達4萬億token，目標(biāo)就是：

做到極致高效的同時，性能絕不妥協(xié)。

圖注：在蘋果M2 CPU上都能快速運行

2.架構(gòu)和訓(xùn)練怎么煉成的？

核心創(chuàng)新點有三：

1)BitLinear 層

用自研 BitLinear 替換掉傳統(tǒng) Transformer 的全精度線性層。權(quán)重量化到1.58 bit（三值：-1、0、+1），激活也量化到8 bit。這樣不僅模型文件暴減，推理也能用比特操作加速。

2)訓(xùn)練方案極致調(diào)優(yōu)

預(yù)訓(xùn)練用兩階段學(xué)習(xí)率+權(quán)重衰減，先大步快走，再精細收斂。
數(shù)據(jù)集涵蓋超大規(guī)模網(wǎng)頁、代碼、數(shù)學(xué)合成數(shù)據(jù)，兩階段分別喂不同質(zhì)量的數(shù)據(jù)。
SFT（監(jiān)督微調(diào)）和 DPO（直接偏好優(yōu)化）全都用上，還專門調(diào)大了學(xué)習(xí)率和輪數(shù)，讓1-bit模型也能吃透任務(wù)。

3.推理實現(xiàn)

為了讓1.58-bit和8-bit混合矩陣乘法在GPU/CPU上都能跑起來，團隊還專門造了 CUDA kernel 和 C++ 庫，模型權(quán)重直接高效打包，能在普通筆電、服務(wù)器、邊緣設(shè)備都無壓力上線。

圖片

3.性能表現(xiàn)：效率+能力雙豐收

內(nèi)存占用：0.4GB（非embedding部分），是同級全精度模型的1/4甚至更低。
推理延遲：29ms/Token（CPU上），比LLaMA 1B等快出一大截。
能耗：僅0.028J/Token，低到離譜。
綜合能力：平均分 54.19，逼近 Qwen2.5-1.5B（55.23），大幅超越 MiniCPM、Gemma、LLaMA 等同級模型。
單項指標(biāo)：在 ARC-Challenge、GSM8K、CommonsenseQA 等關(guān)鍵任務(wù)上還反超大部分對手。

圖片

圖注：如圖所示，BitNet b1.58 2B 在內(nèi)存、延遲、能耗三項指標(biāo)上全面領(lǐng)先

更狠的是，和常見的 INT4 量化模型比，BitNet b1.58 2B4T 在內(nèi)存進一步壓縮的情況下，性能反而更穩(wěn)，幾乎沒有明顯損失。

而且，不只是干掉傳統(tǒng)PTQ量化，放到同類1-bit模型里，BitNet b1.58 2B4T 也是一騎絕塵，甚至比部分更大參數(shù)、后量化的模型還強。

4.one more thing

BitNet b1.58 2B4T 已經(jīng)是1-bit模型的天花板，但團隊還留了不少懸念：

如何實現(xiàn)更大規(guī)模擴展（7B、13B）？
怎樣支持更長上下文，挑戰(zhàn)大段落、復(fù)雜推理任務(wù)？
多語言、多模態(tài)集成，讓1-bit模型也能“看圖說話”
軟硬件協(xié)同，期待新一代AI芯片為低比特模型量身定做
理論層面，1-bit訓(xùn)練為啥能這么有效？還有哪些魔法值得挖掘？

附：模型和推理工具全開源

技術(shù)報告：https://arxiv.org/abs/2504.12285

GPU/CPU推理庫：https://aka.ms/bitnet

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

微軟大模型開源

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<thead id="4z40j"></thead>}

^{<blockquote id="4z40j"></blockquote>}

<sub id="4z40j"></sub>

<legend id="4z40j"><track id="4z40j"></track></legend>