自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型精華

發(fā)布于 2024-10-22 14:29

瀏覽

1收藏

Hi，這里是Aitrainee，歡迎閱讀本期新文章。

前兩天，微軟開源了Bitnet.cpp，這是一個(gè)重磅消息。簡單來說，這意味著你現(xiàn)在可以在CPU上運(yùn)行像72B甚至更大的超級大模型。原因是這些模型的精度已經(jīng)降低到1位。

Bitnet.cpp是一個(gè)超級高效的1位LLM推理框架，你可以在本地設(shè)備上以高達(dá)六倍的速度運(yùn)行100B模型，并且能耗降低82.2%。

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

Bitnet.cpp 未來還會(huì)支持 NPU 和 GPU，它在 ARM CPU 上能讓模型速度提高 1.37 到 5.07 倍，同時(shí)能耗降低 55.4% 至 70%。在 x86 CPU 上，加速幅度在 2.37 倍到 6.17 倍之間，能耗減少 71.9% 至 82.2%。

這個(gè)框架能在單個(gè) CPU 上以每秒 5-7 個(gè)令牌的速度運(yùn)行 100B bitnet_b1_58 模型（BitNet框架中的一種1位量化的語言模型）。與人類閱讀速度相當(dāng)，這顯著提升了在本地設(shè)備上運(yùn)行大型語言模型的潛力。

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

你現(xiàn)在可以在Ubuntu Linux、Window s 或 MacOS上安裝它，對了，Bitnet.cpp 不僅支持x86架構(gòu)，還支持ARM架構(gòu)。

那么，讓我們看看它是如何工作的。

官方的部署：

簡單直接使用 bitnet.cpp 非常簡單，主要分為以下幾步：

1.克隆倉庫：

git clone --recursive https://github.com/microsoft/BitNet.git

2.安裝依賴：使用??conda?? 創(chuàng)建環(huán)境并安裝依賴。
3.構(gòu)建項(xiàng)目：使用??setup_env.py?? 腳本下載模型并構(gòu)建項(xiàng)目。
4.運(yùn)行推理：使用??run_inference.py?? 腳本進(jìn)行推理。例如，運(yùn)行推理的命令如下：

python run_inference.py -m models/Llama3-8B-1.58-100B-tokens/ggml-model-i2_s.gguf -p "Your prompt here" -n 6 -temp 0

我們實(shí)際走走：

首先，正如我之前所提到的，我們需要在Ubuntu上安裝clang和cmake。如果你使用Windows，只需安裝Visual Studio即可。

接下來，運(yùn)行以下命令來安裝LLVM工具鏈，這個(gè)命令會(huì)下載并執(zhí)行一個(gè)腳本，自動(dòng)安裝clang、cmake以及其他一些必要的庫。

bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

如果在Windows上，打開一個(gè)新的命令提示符或PowerShell窗口。然后，運(yùn)行以下命令：

Invoke-WebRequest -Uri https://apt.llvm.org/llvm.ps1 -OutFile llvm.ps1
powershell -ExecutionPolicy Bypass -File llvm.ps1

接下來，我們需要?jiǎng)?chuàng)建一個(gè)新的conda環(huán)境，以便安裝所需的依賴。運(yùn)行以下命令來創(chuàng)建一個(gè)名為myenv的環(huán)境，并安裝Python 3.9：

conda create -n myenv pythnotallow=3.9 -y & conda activate myenv

接下來，我們需要從GitHub上克隆所需的項(xiàng)目。運(yùn)行以下命令來遞歸克隆BitNet倉庫，并進(jìn)入該目錄：

git clone --recursive https://github.com/microsoft/BitNet.git && cd BitNet

接著是依賴：

pip install -r requirements.txt

接下來，我們將下載Hugging Face的模型。運(yùn)行以下命令：

python3 setup_env.py --hf-repo HF1BitLLM/Llama3-8B-1.58-100B-tokens -q i2 s

這將使用他們提供的setup_env.py腳本進(jìn)行設(shè)置。我們使用的是1.58位的LLM模型。在Hugging Face上，還有許多其他可用的模型。第一次運(yùn)行這個(gè)模型時(shí)，它會(huì)用C編譯代碼，大約需要10分鐘。

讓我運(yùn)行這個(gè)模型?？梢钥吹郊虞d時(shí)間非常快，總共處理了53個(gè)token，使用CPU的時(shí)間也很短。它加載了Llama模型，并應(yīng)用了適配器，同時(shí)告訴我們模型的層數(shù)和KV緩存等參數(shù)。

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

最后，它給出了模型的原始輸出和我們的LLM響應(yīng)。

這里是花費(fèi)的總用時(shí)：12233ms

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

你可以問任何問題，比如現(xiàn)在我問它排球中有多少個(gè)L。

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

它會(huì)打印出結(jié)果:

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

雖然答案錯(cuò)誤，但無妨，主要是我們現(xiàn)在可以在CPU上運(yùn)行這個(gè)8B模型，速度也不算慢。

CPU配置如下：

Bitnet.cpp：微軟開源1比特推理框架，CPU跑100B模型-AI.x社區(qū)

BitNet 輕量、高效。體積僅為傳統(tǒng)模型的20%。摒棄了復(fù)雜的浮點(diǎn)運(yùn)算，采用簡單的整數(shù)運(yùn)算，使得計(jì)算變得快速而輕便，加載時(shí)間快。

此外，1位LLMs的訓(xùn)練還需從頭開始，因?yàn)樗鼈兣c現(xiàn)有模型有本質(zhì)上的不同。盡管有將現(xiàn)有模型量化為1位的建議，但BitNet的設(shè)計(jì)使得這種轉(zhuǎn)換并不簡單，雖然可能達(dá)到與Q1模型相似的質(zhì)量，但整體性能可能受到影響。因此，真正的高效訓(xùn)練仍需從零開始。

總之，若我們真的能夠在普通桌面CPU上以較快速度的運(yùn)行100B+的bitnet_b1_58 模型，或許我們將迎來一個(gè)新的黃金時(shí)代。

參考鏈接：
[1] github：https://github.com/microsoft/BitNet
[2] ????https://www.reddit.com/r/LocalLLaMA/comments/1g6jmwl/bitnet_inference_framework_for_1bit_llms/????

本文轉(zhuǎn)載自 ??AI進(jìn)修生??，作者： Aitrainee

標(biāo)簽

贊

收藏 1

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

微軟開源GraphRAG：極大增強(qiáng)大模型問答、摘要、推理

Aceryt ? 4413瀏覽 ? 0回復(fù)
微軟重磅開源 GraphRAG：新一代 RAG 技術(shù)來了！

玄姐聊AGI ? 5452瀏覽 ? 0回復(fù)
Meta 開源最強(qiáng)大模型Llama 3.1，參數(shù)多達(dá) 405B，超16000塊H100訓(xùn)練，燃燒數(shù)億經(jīng)費(fèi)！小扎：堅(jiān)定開源不動(dòng)搖！

51CTO技術(shù)棧 ? 3729瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4052瀏覽 ? 0回復(fù)
AMD 開源 AMD OLMo：完全開源的 1B 語言模型系列

Halo咯咯 ? 2132瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 2700瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 2911瀏覽 ? 0回復(fù)
微軟：GPT-4o-mini只有8B，o1-mini僅100B

PaperAgent ? 1799瀏覽 ? 0回復(fù)
大語言模型推理框架llama.cpp開發(fā)實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 1821瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
4090單卡跑滿血版DeepSeek-R1，清華團(tuán)隊(duì)開源項(xiàng)目再破大模型推理門檻

Crystalcxt ? 2054瀏覽 ? 0回復(fù)
從推理到編程，詳細(xì)比較DeepSeek 32B、70B、R1實(shí)踐性能

小虎哦哦 ? 9584瀏覽 ? 0回復(fù)
阿里開源QwQ-32B，性能與Deepseek R1持平。一個(gè)擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2132瀏覽 ? 0回復(fù)
Llama 4開源王者歸來！推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術(shù)棧 ? 1152瀏覽 ? 0回復(fù)
開源大模型再添猛將！昆侖萬維Skywork-OR1系列震撼發(fā)布，推理能力比肩640B模型！

AI博物院 ? 812瀏覽 ? 0回復(fù)
智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價(jià)格僅1/30！

AI博物院 ? 1615瀏覽 ? 0回復(fù)
NVIDIA開源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 956瀏覽 ? 0回復(fù)
CPU推理僅29ms，微軟開源第一個(gè)原生 1 bit 大模型，內(nèi)存只需Qwen 1.5B的1/15

PaperAgent ? 376瀏覽 ? 0回復(fù)
剛剛，Qwen3強(qiáng)勢登頂，成開源新王！國內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開

51CTO技術(shù)棧 ? 330瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Cursor 新版搶先體驗(yàn)！規(guī)則自動(dòng)生成+項(xiàng)目結(jié)構(gòu)感知+MCP 圖片支持，網(wǎng)友：多項(xiàng)實(shí)用更新！ 7天前發(fā)布
A2A + MCP = AI Agent 完全體？AI Agent 既能 “單挑” 工具，又能 “群毆” 任務(wù) 2025-04-11 00:08:29發(fā)布

熱門推薦

A2A + MCP = AI Agent 完全體？AI Agent 既能 “單挑” 工具，又能 “群毆” 任務(wù) 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： LightRAG開源了！輕巧、強(qiáng)大，GraphRAG的進(jìn)化版

下一篇： Qwen2.5：13個(gè)新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測試

社區(qū)精華內(nèi)容

目錄

<cite id="bm8ke"><track id="bm8ke"></track></cite>

^{<center id="bm8ke"></center>}