自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="hvaxf"></sub>

^{<blockquote id="hvaxf"></blockquote>}

<legend id="hvaxf"><track id="hvaxf"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型

發(fā)布于 2024-12-31 07:56

瀏覽

0收藏

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2412.18653
項(xiàng)目鏈接：https://chenglin-yang.github.io/1.58bit.flux.github.io/
git主頁：https://github.com/Chenglin-Yang

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

亮點(diǎn)分析

1.58-bit FLUX，第一個(gè)將 FLUX 視覺 Transformer 的參數(shù)（共 119 億）減少 99.5% 至 1.58-bit 的量化模型，無需依賴圖像數(shù)據(jù)，大幅降低存儲(chǔ)需求。
開發(fā)了一個(gè)高效的線性內(nèi)核，針對(duì) 1.58-bit 計(jì)算進(jìn)行了優(yōu)化，實(shí)現(xiàn)了顯著的內(nèi)存減少和推理加速。
證明了1.58-bit FLUX在具有挑戰(zhàn)性的 T2I 基準(zhǔn)測(cè)試中，性能與全精度 FLUX 模型相當(dāng)。

總結(jié)速覽

解決的問題

當(dāng)前文本生成圖像（T2I）模型，如 DALLE 3、Stable Diffusion 3 等，參數(shù)量巨大，推理時(shí)內(nèi)存需求高，難以在資源有限的設(shè)備（如移動(dòng)設(shè)備）上部署。
本文重點(diǎn)研究極低比特量化（1.58-bit）在 T2I 模型中的可行性，以減少存儲(chǔ)和內(nèi)存需求，同時(shí)提升推理效率。

提出的方案

選用 FLUX.1-dev 模型作為量化目標(biāo)，通過后訓(xùn)練量化方法將其權(quán)重壓縮為 1.58-bit（值限制為 {-1, 0, +1}），無需訪問圖像數(shù)據(jù)。
開發(fā)專用的低比特操作優(yōu)化內(nèi)核，進(jìn)一步提升推理效率。

應(yīng)用的技術(shù)

1.58-bit 權(quán)重量化：使用類似 BitNet b1.58 的方法，將模型的線性層權(quán)重壓縮至 1.58-bit，并通過 2-bit 有符號(hào)整數(shù)存儲(chǔ)權(quán)重，從而實(shí)現(xiàn)極低比特化。
無監(jiān)督量化方法：完全依賴 FLUX.1-dev 模型本身的自監(jiān)督機(jī)制，無需依賴混合精度方案或額外的訓(xùn)練數(shù)據(jù)。
定制化內(nèi)核：針對(duì)低比特操作優(yōu)化的推理內(nèi)核，降低內(nèi)存使用并縮短推理延遲。

達(dá)到的效果

存儲(chǔ)效率：模型存儲(chǔ)需求減少 7.7×，從 16-bit 壓縮到 2-bit。
推理效率：推理時(shí)的內(nèi)存使用減少 5.1×，推理延遲顯著改善。
生成質(zhì)量：在 GenEval 和 T2I Compbench 基準(zhǔn)測(cè)試上，生成質(zhì)量與全精度 FLUX 基本持平，驗(yàn)證了方案的有效性和實(shí)用性。

實(shí)驗(yàn)結(jié)果

設(shè)置

量化：使用一個(gè)校準(zhǔn)數(shù)據(jù)集進(jìn)行量化，數(shù)據(jù)集由 Parti-1k 數(shù)據(jù)集和 T2I CompBench 訓(xùn)練集的提示語組成，共計(jì) 7,232 條提示語。整個(gè)過程完全不依賴圖像數(shù)據(jù)，不需要額外的數(shù)據(jù)集。量化將 FLUX 中 FluxTransformerBlock 和 FluxSingleTransformerBlock 的所有線性層權(quán)重壓縮至 1.58-bit，占模型總參數(shù)的 99.5%。

評(píng)估：在 GenEval 數(shù)據(jù)集和 T2I CompBench 驗(yàn)證集上評(píng)估 FLUX 和 1.58-bit FLUX，遵循官方的圖像生成流程。

GenEval 數(shù)據(jù)集：包含 553 條提示語，每條提示語生成 4 張圖像。
T2I CompBench 驗(yàn)證集：包含 8 個(gè)類別，每個(gè)類別有 300 條提示語，每條提示語生成 10 張圖像，總計(jì)生成 24,000 張圖像進(jìn)行評(píng)估。
所有圖像均以 1024 × 1024 的分辨率生成，適用于 FLUX 和 1.58-bit FLUX。

結(jié)果

性能：在 T2I Compbench 和 GenEval 基準(zhǔn)測(cè)試中，1.58-bit FLUX 與全精度 FLUX 的性能表現(xiàn)相當(dāng)，具體結(jié)果見表 1 和表 2。在應(yīng)用自定義線性內(nèi)核前后，性能變化微乎其微，進(jìn)一步驗(yàn)證了實(shí)現(xiàn)的準(zhǔn)確性。

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

效率：如下圖 2 所示，1.58-bit FLUX 在模型存儲(chǔ)和推理內(nèi)存上取得了顯著提升。在推理延遲方面，如下表 3 所示，特別是在低性能但易于部署的 GPU（如 L20 和 A10）上，改進(jìn)更為顯著。

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

結(jié)論與討論

本文提出了 1.58-bit FLUX，將 99.5% 的 Transformer 參數(shù)量化至 1.58-bit，并通過自定義計(jì)算內(nèi)核實(shí)現(xiàn)了以下改進(jìn)：

存儲(chǔ)需求減少：模型存儲(chǔ)需求降低 7.7 倍。
推理內(nèi)存減少：推理內(nèi)存使用減少超過 5.1 倍。

盡管實(shí)現(xiàn)了這些壓縮效果，1.58-bit FLUX 在 T2I 基準(zhǔn)測(cè)試中表現(xiàn)出與全精度模型相當(dāng)?shù)男阅?，同時(shí)保持了較高的視覺質(zhì)量。希望 1.58-bit FLUX 能夠激勵(lì)社區(qū)開發(fā)更適合移動(dòng)設(shè)備的模型。

當(dāng)前局限性

關(guān)于速度改進(jìn)的局限性

盡管 1.58-bit FLUX 降低了模型大小和內(nèi)存消耗，但由于缺乏激活值量化和更高級(jí)的內(nèi)核優(yōu)化，其延遲改進(jìn)有限。
鑒于目前取得的成果，希望激勵(lì)社區(qū)開發(fā)適用于 1.58-bit 模型的自定義內(nèi)核實(shí)現(xiàn)。

關(guān)于視覺質(zhì)量的局限性

如下圖 1、圖 3 和圖 4 所示，1.58-bit FLUX 能生成與文本提示高度一致的生動(dòng)逼真的圖像，但在渲染超高分辨率細(xì)節(jié)時(shí)仍落后于原始 FLUX 模型。
計(jì)劃在未來研究中縮小這一差距。

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動(dòng)等發(fā)布首個(gè)1.58-bit FLUX量化模型-AI.x社區(qū)

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:https://mp.weixin.qq.com/s/ZFJ1f7YZZEKoEs5Ie1YAbA

標(biāo)簽

數(shù)據(jù)集

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

字節(jié)開源大模型量化新思路，2-bit量化模型精度齊平fp16

輕薄滴假象 ? 3111瀏覽 ? 0回復(fù)
Flux：Midjourney的新圖像模型挑戰(zhàn)者

魯班模錘1 ? 1958瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 3819瀏覽 ? 0回復(fù)
SD3、FLUX.1等開源文生圖模型，可能將無法使用

Aceryt ? 2447瀏覽 ? 0回復(fù)
DuQuant：通過正交變換分散 LLM 離群值，實(shí)現(xiàn) SOTA 4bit 量化

amei2000go ? 2783瀏覽 ? 0回復(fù)
清華大學(xué)提出1-Bit FQT：將全量化訓(xùn)練極限推到極致,訓(xùn)練速度提升5倍！

AI論文解讀 ? 2260瀏覽 ? 0回復(fù)
Black Forest Labs 發(fā)布 FLUX.1 工具，旨在為基本文本到圖像模型 FLUX.1 添加控制和可操縱性

Halo咯咯 ? 2064瀏覽 ? 0回復(fù)
8B參數(shù)媲美GPT-4o mini | 英偉達(dá)&MIT等發(fā)布NVILA：前沿高效

angel ? 2688瀏覽 ? 0回復(fù)
微軟推出MixLLM，全局混合精度量化方法助力模型效能飛躍

AIPaperDaily ? 2296瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)首創(chuàng)無需數(shù)據(jù)，1.58位超低量化自監(jiān)督生成

Aceryt ? 1879瀏覽 ? 0回復(fù)
即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定

angel ? 1721瀏覽 ? 0回復(fù)
FLUX加持大幅提升渲染質(zhì)量和控制能力！浙大&哈佛提出3DIS升級(jí)版3DIS-FLUX

angel ? 1948瀏覽 ? 0回復(fù)
分布式訓(xùn)練通信優(yōu)化，重疊通信，參數(shù)子集同步，低精度外梯度量化

AI研究前瞻 ? 1865瀏覽 ? 0回復(fù)
AMD開源30億小參數(shù)模型，媲美Qwen-2.5

Aceryt ? 1219瀏覽 ? 0回復(fù)
【模型部署】在Dify中接入ComfyUI+Flux實(shí)現(xiàn)文生圖

一起AI技術(shù) ? 2965瀏覽 ? 0回復(fù)
字節(jié)開源換臉寫真模型InfiniteYou，可實(shí)現(xiàn)零樣本身份ID一致保持，無縫集成FLUX、ControlNets、LoRAs！

AIGCStudio ? 942瀏覽 ? 0回復(fù)
萬字綜述 LLM 訓(xùn)練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案

amei2000go ? 1217瀏覽 ? 0回復(fù)
單模型統(tǒng)一多圖個(gè)性化生成！字節(jié)重磅開源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開源！

angel ? 1465瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5

Aceryt ? 970瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：是時(shí)候接受真實(shí)世界的檢驗(yàn)啦！UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy

下一篇： NeurIPS 2024 | 像素級(jí)LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

社區(qū)精華內(nèi)容

目錄

<xmp id="yv6b3"><p id="yv6b3"></p></xmp>