自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文 精華

發(fā)布于 2024-6-3 09:29
瀏覽
0收藏

ControlNet作者新項目,居然也搞起大模型和Agent了。


當(dāng)然還是和AI繪畫相關(guān):解決大伙不會寫提示詞的痛點(diǎn)。


現(xiàn)在只需一句超簡單的提示詞說明意圖,Agent就會自己開始“構(gòu)圖”:


a funny cartoon batman fights joker(一幅有趣的卡通蝙蝠俠與小丑戰(zhàn)斗的圖畫)

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)


ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

這就是ControlNet作者Lvmin Zhang的新玩具Omost。Omost這個名字有雙層含義:

  • 發(fā)音與英文單詞almost(幾乎)相似,意味著每次使用Omost后,用戶所需的圖像幾乎就完成了;
  • “O”代表“omni”(全能的),“most”表示希望最大限度地利用它。


這個新項目讓網(wǎng)友直呼:也太強(qiáng)了!

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

放大翻譯成中文來看,用戶簡短的提示詞會被拆解擴(kuò)展,從圖像全局描述到局部每個元素的都會詳細(xì)說明,直觀地指定圖像中各個元素的位置和大小。


之后,特定圖像生成器根據(jù)LLM描繪的“藍(lán)圖”創(chuàng)建最終的圖像。

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

而且,已經(jīng)完成的圖像整體布局可以保留,想修改畫面中的某個元素,也只需一句提示詞。


原版是這樣嬸兒的:

generate an image of the fierce battle of warriors and the dragon(生成勇士與龍的激烈戰(zhàn)斗的圖像)

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

然后把龍變成恐龍:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

目前,Omost用來生成代碼的LLM有基于Llama3和Phi3變體的三種模型,Lvmin Zhang還放出了Demo大伙兒可以試玩。


網(wǎng)友們第一時間也紛紛上手嘗試:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

不禁感慨Lvmin Zhang的項目都很鵝妹子嚶:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

729個框,設(shè)定圖像所有元素的位置

Omost目前提供基于Llama3和Phi3變體的三種LLM。


下面扒開Omost看看里面有什么。


首先,所有的Omost LLM都經(jīng)過訓(xùn)練,可以提供嚴(yán)格定義的子提示,大伙兒可以利用其來設(shè)計無損文本編碼方法。


“子提示”(sub-prompt)指的是如果一個提示少于75個token,并且能夠獨(dú)立描述一個事物,不依賴于其他提示,就是“子提示”。


Omost通過預(yù)定義的位置、偏移量和區(qū)域這三大參數(shù)來簡化圖像元素的描述。


首先將圖像劃分為3*3=9個位置:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

然后進(jìn)一步將每個位置劃分為33個偏移量,得到99=81個位置:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

以這些位置為中心,進(jìn)一步定義了 9 種類型的邊界框:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

如此一來就涵蓋了999=729個不同的邊界框,幾乎涵蓋了圖像中元素的所有常見可能位置。


接下來,distance_to_viewer和HTML_web_color_name兩大參數(shù)調(diào)整視覺表現(xiàn)。


組合distance_to_viewer和HTML_web_color_name可以繪制出非常粗糙的構(gòu)圖。


例如,如果LLM效果良好,“在暗室的木桌上的紅瓶子前面有一個綠色瓶子”應(yīng)該可以計算出如下圖像:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

此外,ControlNet作者Lvmin Zhang還提供了一個基于注意力操縱的Omost LLM的baseline渲染器。并總結(jié)了目前要實(shí)現(xiàn)區(qū)域引導(dǎo)的擴(kuò)散系統(tǒng)的一些選擇。


基于注意力分?jǐn)?shù)操作,他編寫了一個baseline公式,并認(rèn)為這種無參數(shù)公式是一個非常標(biāo)準(zhǔn)的baseline實(shí)現(xiàn),幾乎會引入zero style偏移或質(zhì)量下降。將來,他們可能會考慮為Omost訓(xùn)練一些參數(shù)化方法。


具體來說,現(xiàn)在考慮一個只有2*2=4像素的極簡化圖像:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

有三個提示“兩只貓”、“一只黑貓”、“一只白貓”,有它們的掩碼:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

然后就可以畫出這個注意力分?jǐn)?shù)表:

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

簡而言之,就是通過調(diào)整注意力分?jǐn)?shù)來控制模型在不同區(qū)域的關(guān)注度,來實(shí)現(xiàn)更精細(xì)的圖像生成。


此外,Lvmin Zhang還發(fā)現(xiàn)了另一種可以提高提示理解的技巧,并稱其為提示前綴樹(Prompt Prefix Tree)。


因?yàn)楝F(xiàn)在所有的提示都是可以任意合并的子提示(所有子提示嚴(yán)格少于75個token,通常少于40個標(biāo)記,描述獨(dú)立的概念,并且可以任意合并為clip編碼的常規(guī)提示),找到一種更好的方法來合并這些子提示可能會改進(jìn)結(jié)果和提示描述。


例如,下面是一個全局/局部整體/詳細(xì)描述的樹結(jié)構(gòu):

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

由于所有子提示都可以任意合并,因此可以將此樹形圖中的路徑用作提示。


例如,下面的路徑將給出提示“一只貓和一只狗。沙發(fā)上的貓”。

ControlNet作者搞起大模型:讓天下沒有難寫的生圖提示詞,一句話變構(gòu)圖小作文-AI.x社區(qū)

感興趣的家銀親自上手玩玩吧~


GitHub鏈接:https://github.com/lllyasviel/Omost
Demo鏈接:https://huggingface.co/spaces/lllyasviel/Omost


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/18XdJ4R6QcofH4b-9HV0qQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦