自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="brzkq"></style>

^{<sub id="brzkq"></sub>}

<style id="brzkq"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ControlNet作者新作：AI繪畫能分圖層了！項目未開源就斬獲660 Star

作者：量子位 2024-03-01 12:33:14

人工智能新聞

給一句prompt，用Stable Diffusion可以直接生成單個或多個透明圖層（PNG）！

“絕不是簡單的摳圖?！?/strong>

ControlNet作者最新推出的一項研究受到了一波高度關(guān)注——

給一句prompt，用Stable Diffusion可以直接生成單個或多個透明圖層（PNG）！

例如來一句：

頭發(fā)凌亂的女性，在臥室里。
Woman with messy hair, in the bedroom.

可以看到，AI不僅生成了符合prompt的完整圖像，就連背景和人物也能分開。

而且把人物PNG圖像放大細(xì)看，發(fā)絲那叫一個根根分明。

再看一個例子：

燃燒的柴火，在一張桌子上，在鄉(xiāng)下。
Burning firewood, on a table, in the countryside.

同樣，放大“燃燒的火柴”的PNG，就連火焰周邊的黑煙都能分離出來：

這就是ControlNet作者提出的新方法——LayerDiffusion，允許大規(guī)模預(yù)訓(xùn)練的潛在擴(kuò)散模型（Latent Diffusion Model）生成透明圖像。

值得再強(qiáng)調(diào)一遍的是，LayerDiffusion絕不是摳圖那么簡單，重點在于生成。

正如網(wǎng)友所說：

這是現(xiàn)在動畫、視頻制作最核心的工序之一。這一步能夠過，可以說SD一致性就不再是問題了。

還有網(wǎng)友以為類似這樣的工作并不難，只是“順便加個alpha通道”的事，但令他意外的是：

結(jié)果這么久才有出來的。

那么LayerDiffusion到底是如何實現(xiàn)的呢？

PNG，現(xiàn)在開始走生成路線了

LayerDiffusion的核心，是一種叫做潛在透明度（latent transparency）的方法。

簡單來說，它可以允許在不破壞預(yù)訓(xùn)練潛在擴(kuò)散模型（如Stable Diffusion）的潛在分布的前提下，為模型添加透明度。

在具體實現(xiàn)上，可以理解為在潛在圖像上添加一個精心設(shè)計過的小擾動（offset），這種擾動被編碼為一個額外的通道，與RGB通道一起構(gòu)成完整的潛在圖像。

為了實現(xiàn)透明度的編碼和解碼，作者訓(xùn)練了兩個獨(dú)立的神經(jīng)網(wǎng)絡(luò)模型：一個是潛在透明度編碼器（latent transparency encoder），另一個是潛在透明度解碼器（latent transparency decoder）。

編碼器接收原始圖像的RGB通道和alpha通道作為輸入，將透明度信息轉(zhuǎn)換為潛在空間中的一個偏移量。

而解碼器則接收調(diào)整后的潛在圖像和重建的RGB圖像，從潛在空間中提取出透明度信息，以重建原始的透明圖像。

為了確保添加的潛在透明度不會破壞預(yù)訓(xùn)練模型的潛在分布，作者提出了一種“無害性”（harmlessness）度量。

這個度量通過比較原始預(yù)訓(xùn)練模型的解碼器對調(diào)整后潛在圖像的解碼結(jié)果與原始圖像的差異，來評估潛在透明度的影響。

在訓(xùn)練過程中，作者還使用了一種聯(lián)合損失函數(shù)（joint loss function），它結(jié)合了重建損失（reconstruction loss）、身份損失（identity loss）和判別器損失（discriminator loss）。

它們的作用分別是：

重建損失：用于確保解碼后的圖像與原始圖像盡可能相似；
身份損失：用于確保調(diào)整后的潛在圖像能夠被預(yù)訓(xùn)練的解碼器正確解碼；
判別器損失：則是用于提高生成圖像的真實感。

通過這種方法，任何潛在擴(kuò)散模型都可以被轉(zhuǎn)換為透明圖像生成器，只需對其進(jìn)行微調(diào)以適應(yīng)調(diào)整后的潛在空間。

潛在透明度的概念還可以擴(kuò)展到生成多個透明圖層，以及與其他條件控制系統(tǒng)結(jié)合，實現(xiàn)更復(fù)雜的圖像生成任務(wù)，如前景/背景條件生成、聯(lián)合圖層生成、圖層內(nèi)容的結(jié)構(gòu)控制等。

值得一提的是，作者還展示了如何把ControlNet引入進(jìn)來，豐富LayerDiffusion的功能：

與傳統(tǒng)摳圖的區(qū)別

至于LayerDiffusion與傳統(tǒng)摳圖上的區(qū)別，我們可以簡單歸整為以下幾點。

原生生成 vs. 后處理

LayerDiffusion是一種原生的透明圖像生成方法，它直接在生成過程中考慮并編碼透明度信息。這意味著模型在生成圖像的同時就創(chuàng)建了透明度通道（alpha channel），從而產(chǎn)生了具有透明度的圖像。

傳統(tǒng)的摳圖方法通常涉及先生成或獲取一個圖像，然后通過圖像編輯技術(shù)（如色鍵、邊緣檢測、用戶指定的遮罩等）來分離前景和背景。這種方法通常需要額外的步驟來處理透明度，并且可能在復(fù)雜背景或邊緣處產(chǎn)生不自然的過渡。

潛在空間操作 vs. 像素空間操作

LayerDiffusion在潛在空間（latent space）中進(jìn)行操作，這是一個中間表示，它允許模型學(xué)習(xí)并生成更復(fù)雜的圖像特征。通過在潛在空間中編碼透明度，模型可以在生成過程中自然地處理透明度，而不需要在像素級別上進(jìn)行復(fù)雜的計算。

傳統(tǒng)的摳圖技術(shù)通常在像素空間中進(jìn)行，這可能涉及到對原始圖像的直接編輯，如顏色替換、邊緣平滑等。這些方法可能在處理半透明效果（如火焰、煙霧）或復(fù)雜邊緣時遇到困難。

數(shù)據(jù)集和訓(xùn)練

LayerDiffusion使用了一個大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練，這個數(shù)據(jù)集包含了透明圖像對，使得模型能夠?qū)W習(xí)到生成高質(zhì)量透明圖像所需的復(fù)雜分布。

傳統(tǒng)的摳圖方法可能依賴于較小的數(shù)據(jù)集或者特定的訓(xùn)練集，這可能限制了它們處理多樣化場景的能力。

靈活性和控制

LayerDiffusion提供了更高的靈活性和控制能力，因為它允許用戶通過文本提示（text prompts）來指導(dǎo)圖像的生成，并且可以生成多個圖層，這些圖層可以被混合和組合以創(chuàng)建復(fù)雜的場景。

傳統(tǒng)的摳圖方法可能在控制方面更為有限，尤其是在處理復(fù)雜的圖像內(nèi)容和透明度時。

質(zhì)量比較

用戶研究顯示，LayerDiffusion生成的透明圖像在大多數(shù)情況下（97%）被用戶偏好，這表明其生成的透明內(nèi)容在視覺上與商業(yè)透明資產(chǎn)相當(dāng)，甚至可能更優(yōu)。

傳統(tǒng)的摳圖方法可能在某些情況下無法達(dá)到同樣的質(zhì)量，尤其是在處理具有挑戰(zhàn)性的透明度和邊緣時。

總而言之，LayerDiffusion提供的是一種更先進(jìn)且靈活的方法來生成和處理透明圖像。

它在生成過程中直接編碼透明度，并且能夠產(chǎn)生高質(zhì)量的結(jié)果，這在傳統(tǒng)的摳圖方法中是很難實現(xiàn)的。

關(guān)于作者

正如我們剛才提到的，這項研究的作者之一，正是大名鼎鼎的ControlNet的發(fā)明人——張呂敏。

他本科就畢業(yè)于蘇州大學(xué)，大一的時候就發(fā)表了與AI繪畫相關(guān)的論文，本科期間更是發(fā)了10篇頂會一作。

目前張呂敏在斯坦福大學(xué)攻讀博士，但他為人可以說是非常低調(diào)，連Google Scholar都沒有注冊。

就目前來看，LayerDiffusion在GitHub中并沒有開源，但即便如此也擋不住大家的關(guān)注，已經(jīng)斬獲660星。

畢竟張呂敏也被網(wǎng)友調(diào)侃為“時間管理大師”，對LayerDiffusion感興趣的小伙伴可以提前mark一波了。

責(zé)任編輯：張燕妮來源：量子位

模型訓(xùn)練

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

ControlNet作者又出新作：百萬數(shù)據(jù)訓(xùn)練，AI圖像生成迎來圖層設(shè)計
有人表示：「等待已久的AI圖像創(chuàng)建功能終于迎來了圖層！」

2024-03-04 00:10:00

AI 模型

ControlNet star量破萬！2023年，AI繪畫殺瘋了？
入2023年，一個名為ControlNet的模型將AI繪畫水平推向了新的高峰。

2023-03-02 14:00:03

AI 繪畫

ControlNet作者新作：AI打光玩得更溜了！細(xì)節(jié)保留能力遠(yuǎn)高于SD1.5
ICLight是此前張呂敏開發(fā)的圖像處理工具，可以通過AI技術(shù)精確控制圖像中的光照效果。而此次的V2版本則是一系列基于FLUX的ICLight型號，具有16通道VAE和原生高分辨率。

2024-11-05 13:21:37

ControlNet作者新作爆火：P照片換背景不求人，AI打光完美融入
用于操縱圖像照明效果的ICLight，全稱lmposingConsistentLight。上傳任意一張圖，系統(tǒng)會自動分離人物等主體，選擇光源位置，填上提示詞，就能毫無破綻的融入新環(huán)境了！

2024-05-11 07:00:00

AI IC-Light P照片換背景

5.4 萬 Star 全部歸零，項目作者：十分后悔
經(jīng)過不斷地迭代和改進(jìn)，HTTPie如今已經(jīng)成為了GitHub平臺上最受歡迎的API工具之一，并擁有超過5.4萬Star和1千多Watch。這個擁有如此高Star數(shù)量的項目，卻因意外導(dǎo)致5.4萬個Star全部歸零。

2022-04-16 21:20:59

HTTPie Star GitHub

只需1%參數(shù)，效果超越ControlNet，新AI繪畫控制大師來襲
研究人員在評估了不同大小的控制模型后發(fā)現(xiàn)，控制模型甚至不必和2.6B參數(shù)的StableDiffusionXL基礎(chǔ)網(wǎng)絡(luò)大小一樣。

2023-09-23 12:52:57

模型淑娟

ControlNet組合拳效果驚人，顛覆AI繪畫游戲規(guī)則
StableDiffusion，相信很多友友們都已經(jīng)很熟悉了，是根據(jù)輸入提示的文本，就可以快速出圖的AI作畫神器。

2023-02-22 17:38:17

AI

ICLR 驚現(xiàn)[10,10,10,10]滿分論文，ControlNet 作者新作，Github 5.8k 顆星
這篇征服了列位審稿人的論文，正是ControlNet作者張呂敏的新作ICLight。我們很少看到一篇論文，能夠讓四位審稿人給出高度一致的「Rating:10:strongaccept,shouldbehighlightedattheconference」。

2024-12-02 09:00:00

ControlNet作者新項目爆火：僅一張圖生成25秒繪畫全過程！不到一天GitHub攬星600+
除了直接生成25秒的從線稿到上色的視頻，還有其它玩法。

2024-07-10 12:41:40

數(shù)據(jù)訓(xùn)練

《Python 機(jī)器學(xué)習(xí)》作者新作：從頭開始構(gòu)建大型語言模型，代碼已開源
最近，SebastianRaschka在GitHub上開源了這本新書對應(yīng)的代碼庫。

2024-06-24 07:50:00

代碼機(jī)器學(xué)習(xí)

ChatGPT核心方法可用于AI繪畫，效果飛升47%，通訊作者：已跳槽OpenAI
RLHF，全稱“ReinforcementLearningfromHumanFeedback”，是OpenAI和DeepMind于2017年合作開發(fā)的一種強(qiáng)化學(xué)習(xí)技術(shù)。

2023-02-27 13:57:43

ChatGPT AI 繪畫

別再問“分庫分表”了，再問就崩潰了！
在談?wù)摂?shù)據(jù)庫架構(gòu)和數(shù)據(jù)庫優(yōu)化的時候，我們經(jīng)常會聽到分庫分表，分庫分表其實涉及到很多難題，今天我們來匯總一下數(shù)據(jù)庫分庫分表解決方案。

2019-12-17 09:29:02

數(shù)據(jù)庫架構(gòu)分庫分表

當(dāng) AI 邂逅繪畫藝術(shù)，能迸發(fā)出怎樣的火花？
?本文從技術(shù)興趣出發(fā)，對多模態(tài)圖像生成技術(shù)與經(jīng)典工作進(jìn)行介紹，最后探索如何使用多模態(tài)圖像生成進(jìn)行神奇的AI繪畫藝術(shù)創(chuàng)作。

2022-09-08 08:08:16

AI 模態(tài)圖像 Transforme

ChatGPT + AI繪畫 = 王炸！
ChatGPT作為自然語言處理技術(shù)，可以為AI繪畫提供更多信息和創(chuàng)意，幫助畫家表達(dá)自己的創(chuàng)意，未來的繪畫藝術(shù)將更加多彩和精彩！

2023-05-06 08:23:36

ChatGPT 自然語言技術(shù)

我沒有前端經(jīng)驗，但1天就搞定了開源項目主頁
前段時間打算為自己的開源項目做一個主頁，一方面有個好的門面能提升項目的關(guān)注度，一方面也能對項目所涉及的資源做一個整合。

2020-10-14 11:33:11

前端開源技術(shù)

有了這個開源項目，小白也能搭建電商系統(tǒng)
今天，筆者要和大家分享一個快速發(fā)展的開源電子商務(wù)平臺——Saleor，基于Python和Django開發(fā)。根據(jù)創(chuàng)建者介紹，最新的重大更新引入了一個由GraphQLAPI驅(qū)動，前端模塊化使用React和Typescript。

2021-07-08 11:47:02

Saleor 開源電子商務(wù)平臺

Github 上 Star 最多的個人 Spring Boot 開源學(xué)習(xí)項目
2016年，在一次技術(shù)調(diào)研的過程中認(rèn)識到了SpringBoot，試用之后便一發(fā)不可收拾的愛上它。

2019-02-28 10:18:44

GitHub 技術(shù)開源

10個Star上萬的Vue開源項目
Vue是一套多用途且高性能的js框架。與眾不同的是，Vue被設(shè)計為可以從下向上逐層應(yīng)用。Github上有很多vue相關(guān)的好項目，以下就是今日推薦。

2020-11-05 14:12:16

Vue 開源項目 js框架

美團(tuán)、字節(jié)、百度紛紛發(fā)布繪畫AI產(chǎn)品，AI繪畫有多驚艷？
AI生成視頻是一個充滿挑戰(zhàn)和機(jī)遇的領(lǐng)域。在這個科技進(jìn)步的時代，我們需要不斷探索和研究新的技術(shù)和方法，以便更好地應(yīng)對這個領(lǐng)域帶來的挑戰(zhàn)和機(jī)遇。同時，我們也需要關(guān)注這些技術(shù)發(fā)展背后的倫理和社會問題。

2023-02-28 23:16:38

AI 視頻技術(shù)

Airbnb開源項目Lottie碉堡了
Airbnb還提供了一個sampleapk，考慮到部分人在GooglePlay上下載apk有些困難，我也貼心的把sampleapk下載下來了，公眾號AndroidDeveloper后臺回復(fù)「lottie」關(guān)鍵字獲取。

2017-02-06 14:40:55

Airbnb Lottie Gif

相似話題

機(jī)器學(xué)習(xí)
2031內(nèi)容

深度學(xué)習(xí)
1694內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費(fèi)了深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時狂攬17k星 MCP 服務(wù)器很危險！這里有安全使用指南！剛剛，Qwen3強(qiáng)勢登頂，成開源新王！國內(nèi)首個混合推理模型，235B擊敗R1、o1!源神火力全開：全系列8個模型一口氣開源！Kimi-Audio開源橫掃全場景，1300萬+小時數(shù)據(jù)煉成語音世界“大一統(tǒng)”看不懂GitHub代碼？剛剛這個AI工具讓全球每個GitHub項目開口說話一文詳解深度學(xué)習(xí)中的標(biāo)量、向量、矩陣、張量大模型應(yīng)用系列：兩萬字解讀MCP

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟(jì)新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷