Midjourney學(xué)會(huì)看圖說話!輸入圖像秒出prompt,網(wǎng)友玩瘋了
?Midjourney V5上線后,網(wǎng)友們用它生成了數(shù)不清的驚嘆作品。
在這個(gè)AI作畫工具面前,人和人的差距,或許就體現(xiàn)在prompt上了。
去年在科羅拉多州博覽會(huì)藝術(shù)比賽上用AI打敗了人類的獲獎(jiǎng)?wù)?,花?0多個(gè)小時(shí),經(jīng)過900次迭代后,才用Midjourney完成了《太空歌劇院》這一藝術(shù)杰作。而ta直接拒絕分享出自己的prompt。
是的,現(xiàn)在很多時(shí)候,一行完美又專業(yè)的prompt,已經(jīng)價(jià)值千金。
而Midjourney仿佛深知我們的需求,最近,它上線了一個(gè)新功能——/describe,可以幫我們從圖像中反推prompt。
從圖像反推prompt
現(xiàn)在,如果你有一個(gè)想模仿的圖像,但你不知道要用什么樣的prompt去描述它,這時(shí)候,describe就幫你大忙了。比如,下圖是新海誠的《言葉之庭》(「言の葉の庭」)。
拖進(jìn)圖像后,Midjourney生成了下面四種prompt。
根據(jù)這四個(gè)prompt,Midjourney又生成了類似風(fēng)格的四幅圖。
簡(jiǎn)直完美。
并且,Midjourney提供的描述也可以激發(fā)出用戶的更多靈感。傳統(tǒng)的畫家可能會(huì)患有空白畫布綜合征,AI藝術(shù)家有時(shí)也會(huì)詞窮,很難找到描述照片的詞語。
在Midjourney的Discord頻道上,從「/describe」就可以啟動(dòng)文本描述過程了。
Midjourney提供了一個(gè)拖放區(qū),可以讓你拖入圖像。
然后按下回車鍵,就可以等待prompt了。
四個(gè)文本提示,包括描述性詞語、樣式詳細(xì)信息和縱橫比。寬高比在像素精確度方面與計(jì)算機(jī)類似,比如如果是一個(gè)16:9的圖像,它會(huì)輸出504:283。
而四個(gè)文本提示生成后,你可以直接點(diǎn)擊按鈕,直接用它們生成圖像,當(dāng)然,在提交之前,你也可以選擇自己優(yōu)化提示。
作家的意外收獲?
更有趣的是,Midjourney的這個(gè)新功能,竟然意外地讓作家們獲得了幫手。
如果找不到完美的形容詞來描繪一幅畫,只需要把圖像上傳到Midjourney,文采斐然的句子就自動(dòng)蹦出來了。
而Midjourney返回的文本提示,真是讓人驚喜連連。其中包括「palewave」、「cranberrycore」和「icepunk」等流行語,以及各種藝術(shù)家、攝影師和作者的姓名。
而提示中出現(xiàn)人名時(shí),甚至是可點(diǎn)擊的鏈接,可以打開谷歌搜索,如果點(diǎn)擊進(jìn)去,你或許會(huì)獲得更多的靈感來源。
比如,上傳Ross Burgener的一張絕佳的作品,Midjourney會(huì)這樣描述:"極光在LED照明的冰屋上跳舞,給雪的顏色帶來了藍(lán)色調(diào)"。
它認(rèn)出了北極光,會(huì)在提示中給出建議——可參考藝術(shù)家Qlexis Gritchenko和攝影師Nathan Wirth。它采用的詞匯包括 「極地冰山」、「發(fā)光的天空」和「空靈的雕塑」。
網(wǎng)友們大喜,已玩瘋
現(xiàn)在,網(wǎng)友們已經(jīng)玩瘋了。
有網(wǎng)友利用describe功能,生成了許多穿白色蕾絲裙的美女。
有人輸入了一堆珠寶的圖像。
得到了如下的prompt。
根據(jù)這些prompt生成的圖像如下。
輸入一個(gè)二次元萌妹。
輸出的prompt,出圖效果很驚艷。
輸入一只氣質(zhì)憨憨的大捻角羚的照片。
生成的prompt如下。
輸出的prompt生成的大捻角羚,氣質(zhì)更為冷峻。
輸入一只海灘上的狗。
Prompt生出了四只埋在坑里的狗。
輸入穿著燕尾服的動(dòng)漫人物。
生成如下prompt。
生成四張動(dòng)漫人物。
是RLHF?
可以看到,Midjourney最近的進(jìn)步,可以用飛速形容。
英偉達(dá)AI科學(xué)家Jim Fan猜測(cè),Midjourney一直在根據(jù)人類反饋(「RLHF」)進(jìn)行大規(guī)模的強(qiáng)化學(xué)習(xí),并且,這可能是有史以來規(guī)模最大的文本到圖像強(qiáng)化學(xué)習(xí)。
當(dāng)用戶選擇放大圖像時(shí),是因?yàn)樗麄兏矚g它。如果不把這個(gè)過程當(dāng)作獎(jiǎng)勵(lì)信號(hào),那真是巨大的浪費(fèi)。這些數(shù)據(jù)收集起來很便宜,而且完全符合用戶群的需求。
擁有的用戶越多,可以做的RLHF就越好,然后獲得的用戶就越多。
他還給出了一個(gè)免責(zé)聲明,表示這就是自己的一個(gè)腦洞,自己并不認(rèn)識(shí)Midjourney的人。
但他們一定已經(jīng)是這么做的,因?yàn)閁I的格式看起來就像一個(gè)多項(xiàng)選擇題。
最后,要注意的是,同圖像生成一樣,describe功能需要使用積分,所以需要謹(jǐn)慎地考慮。
而且現(xiàn)在,Midjourney的免費(fèi)功能,已經(jīng)徹底關(guān)閉了。
參考資料:
https://the-decoder.com/midjourney-new-image-tool-works-in-reverse/
https://twitter.com/DrJimFan/status/1643279641065713665