自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師原創(chuàng)

發(fā)布于 2025-3-27 09:30

瀏覽

0收藏

Picovoice首席執(zhí)行官Alireza Kenarsari指出，“picoLLM是Picovoice 深度學習研究人員和量產(chǎn)工程師共同努力的成果。前者研究出X 位量化算法，而后者構(gòu)建了跨平臺的LLM 推理引擎。目的還是在于將LLM遍及到任何設(shè)備且將控制權(quán)交還給企業(yè)”。

picoLLM Inference可以免費使用，沒有任何使用限制。無論是在概念驗證上工作，還是為數(shù)百萬用戶提供服務。只需幾行代碼即可部署。

注：其余的產(chǎn)品線有非商用免費版，也有收費版

1.認識量化（Quantization）

大模型有個基本的指標就是模型參數(shù)規(guī)模，客觀而言參數(shù)規(guī)模越大，效果越佳，但是所需的內(nèi)存越多。例如，要部署 7.7GB 大小的Mistral 7B，需要GPU的VRAM大小要超過8GB才能在GPU完全加載。因此意味著運行更大規(guī)模的模型將需要具有更大規(guī)格的硬件，從而增加成本。

量化是一種壓縮技術(shù)，將高精度值映射到低精度值。對于任意的大模型，這意味著它們的權(quán)重和激活精度會被調(diào)整，肯定會對影響模型的能力。在實際的運用過程中發(fā)現(xiàn)，某些情況下雖然明顯的減低精度，然而卻又能獲得和原來不相上下的結(jié)果。

量化通過降低內(nèi)存帶寬需求和提高緩存利用率來提高性能，不同精度級別的量化過程能夠更多的設(shè)備上運行大模型。

LLMs通常使用全精度（float32）或半精度（float16）的浮點數(shù)進行訓練。一個float16有16位，即2個字節(jié)。因此在 FP16上訓練參數(shù)規(guī)模為1B的大模型則至少需要2GB的內(nèi)存，這還不包括訓練過程中的優(yōu)化器內(nèi)存、激活內(nèi)存和梯度內(nèi)存。

量化其實就是想找到一種方法，將FP32權(quán)重的值的范圍([最小值，最大值])表示為較低精度的值，例如FP16甚至INT4（整數(shù) 4 位）的數(shù)據(jù)類型。典型的情況是從FP32到INT8。

下圖為一個具體的例子，將FP16格式的數(shù)組量化為INT8的過程，當然最后可以從INT8再次還原為FP16。這樣一來原來模型的存儲大小就被有效的降低了。

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

其實換個思路來講，就是將數(shù)軸進行壓縮。這里的難題在于如何的量化才能降低存儲開銷，但是又能表達出原來的意思。

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

目前有不少的量化思路，均勻量化是模型量化中常用的一種技術(shù)，用于降低深度學習模型中權(quán)重和激活的精度。在量化過程中將值的范圍劃分為固定數(shù)量的等距區(qū)間，然后將每個值映射到最近區(qū)間的中心。此過程有助于減少表示每個值所需的位數(shù)。

與更復雜的量化技術(shù)相比，均勻量化的主要優(yōu)勢之一是其簡單易用。然而，均勻量化可能并不總是能捕捉到數(shù)據(jù)分布的細微差別。想象一下原始參數(shù)的取值在[3.5, 3.9]，若都被量化到4，的確會導致潛在的信息丟失和性能下降。

另一方面，非均勻量化允許量化步距不均勻分布，從而能更準確和更靈活。量化過程由離散量化水平（Xi）和相應的量化步驟（?i）定義。當實數(shù)落在特定的量化步驟范圍（?i， ?i+1）內(nèi)時，量化器將其分配到相應的量化級別（Xi）。非均勻量化方法（如對數(shù)分布）側(cè)重于以指數(shù)而不是線性方式調(diào)整量化步驟和水平，這可以通過有效捕獲重要值區(qū)域來提高準確性。

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

左圖為對稱量化，右圖為非對稱量化

2.微調(diào)中的量化

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

左圖為QAT，右圖為PTQ，兩者的區(qū)別在于量化的位置。

PTQ是一種流行的技術(shù)，模型參數(shù)（通常以FP32等高精度格式存儲）被轉(zhuǎn)換為較低位精度的INT8。此轉(zhuǎn)換過程允許在計算資源有限的硬件（如移動設(shè)備和嵌入式系統(tǒng)）上更高效地部署模型。PTQ 可以應用于神經(jīng)網(wǎng)絡(luò)的權(quán)重和激活，從而減小模型大小并提高推理速度，而不會顯著降低準確性。

QAT具有在部署期間將應用的量化效應的意識。當對訓練模型進行量化時，可能會導致模型參數(shù)出現(xiàn)擾動，從而可能導致模型偏離訓練期間以浮點精度實現(xiàn)的收斂點。

為了解決這個問題，QAT使用量化參數(shù)重新訓練神經(jīng)網(wǎng)絡(luò)模型，使模型能夠收斂到損失減少的點。在QAT期間，在浮點對量化模型執(zhí)行正向和后向傳遞，而模型參數(shù)在每次梯度更新后進行量化，類似于預測梯度下降。在浮點權(quán)重更新后執(zhí)行投影對于防止零梯度或高誤差梯度至關(guān)重要，尤其是在低精度場景中。

在QAT的反向傳播過程中，處理不可微分的量化算子是一個挑戰(zhàn)。一種常用方法是使用直通估計器（STE）通過將量化算子視為恒等函數(shù)來近似量化算子的梯度。

3.picoLLM

picoLLM Compression是Picovoice內(nèi)部開發(fā)的一種新型大型語言模型量化算法。給定一個特定于任務的成本函數(shù)，picoLLM Compression 會自動學習跨權(quán)重和權(quán)重內(nèi)LLM的最佳位分配策略。而目前現(xiàn)有技術(shù)方案都是固定分配。

picoLLM提供了一個全面的開源基準測試結(jié)果，例如下圖，當應用于 Llama-3-8b ，picoLLM在2、3和 4位的量化設(shè)置下在MMLU的評測分數(shù)中，將采用GPTQ算法的正確率下降消滅于無形之中。隨著量化位數(shù)的下降，幾乎保持堅挺。

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

現(xiàn)有方法依賴于跨模型權(quán)重的固定位分配。但是，picoLLM 在量化過程中學習最優(yōu)分配。每個模型最理想的量化位數(shù)取決于自身的架構(gòu)和壓縮比。例如，下面的三張圖顯示了壓縮比為 3、5 和 7 時 Llama-2-7b不同組件之間的位最佳分布：

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

在MMLU (5-shot)任務上采用picoLLM的效果對比。

AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師-AI.x社區(qū)

PicoLLM 框架支持Gemma、Llama、Mistral、Mixtral和Phi系列模型，并在Windows、macOS 和Linux上跨平臺運行（包括Raspberry Pi 4和 5 上的Raspberry Pi OS）以及 Android 和 iOS。下次將詳細地介紹內(nèi)在原理。

本文轉(zhuǎn)載自??魯班模錘??，作者：魯班模錘

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

已于2025-3-27 09:31:25修改

贊

收藏

回復

舉報

回復

相關(guān)推薦

字節(jié)開源大模型量化新思路，2-bit量化模型精度齊平fp16

輕薄滴假象 ? 3111瀏覽 ? 0回復
當AI遇上架構(gòu)師：誰將主導未來？

玄姐聊AGI ? 2257瀏覽 ? 0回復
編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

魯班模錘1 ? 3394瀏覽 ? 0回復
AI大模型技術(shù)的四大核心架構(gòu)演進之路

AIGC觀察者 ? 3268瀏覽 ? 0回復
大模型RAG架構(gòu)落地的十大挑戰(zhàn)

玄姐聊AGI ? 2195瀏覽 ? 0回復
AI架構(gòu)系列：去其形而留其意

魯班模錘1 ? 2020瀏覽 ? 0回復
LLM 工程師入門：生成式AI的簡易指南

Baihai_IDP ? 2393瀏覽 ? 0回復
大模型之視頻圖像生成之工作流——ComfyUI和AI煉丹師

AI探索時代 ? 3910瀏覽 ? 0回復
AI架構(gòu)系列：vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小實驗

魯班模錘1 ? 4151瀏覽 ? 0回復
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2103瀏覽 ? 0回復
大模型底座之向量化，以及向量化的原理

AI探索時代 ? 4522瀏覽 ? 0回復
大模型之嵌入與向量化的區(qū)別是什么？

AI探索時代 ? 2014瀏覽 ? 0回復
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 6056瀏覽 ? 0回復
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 6920瀏覽 ? 0回復
大模型系列：一文帶你梳理Large Language Model發(fā)展歷程

海因斯DK ? 1711瀏覽 ? 0回復
Qwen-VL系列多模態(tài)大模型技術(shù)演進-模型架構(gòu)、訓練方法、數(shù)據(jù)細節(jié)

大模型自然語言處理 ? 2745瀏覽 ? 0回復
MCP 架構(gòu)設(shè)計演進：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計實現(xiàn)

玄姐聊AGI ? 3512瀏覽 ? 0回復
大模型系列：一文匯總16個深度語言模型代表工作

海因斯DK ? 957瀏覽 ? 0回復
AI Agents-6 | AI智能體架構(gòu)大揭秘：從基礎(chǔ)知識到前沿模式

Halo咯咯 ? 1749瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

學會LLM思維：語料質(zhì)量的自評估 8天前發(fā)布
扒一扒最近較火的MCP 2025-04-10 06:28:30發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：閑得沒事，猜猜GPT-4o如何對圖像編碼

下一篇：扒一扒最近較火的MCP

社區(qū)精華內(nèi)容

目錄

<sub id="z9z3e"></sub>

<legend id="z9z3e"><track id="z9z3e"></track></legend>