自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta最新圖像生成工具火了,竟能把夢境畫成現(xiàn)實(shí)!

人工智能 新聞
在AI畫畫上,國外大廠已經(jīng)卷上了新高度。這不,Meta也整了一個(gè)AI「畫家」——Make-A-Scene。

AI在畫畫這塊兒,已經(jīng)拿捏的死死的。

近日,Meta也整了一個(gè)AI「畫家」——Make-A-Scene。

圖片

還以為只是用文字生成畫作就這么簡單嗎?

要知道,僅是靠文字描述還有時(shí)候會「翻車」,就比如谷歌前段時(shí)間推出的「藝術(shù)家」Parti。

「一個(gè)沒有香蕉的盤子,旁邊有一個(gè)沒有橙汁的玻璃杯?!?/p>

這次,Make-A-Scene可以通過文本描述,再加上一張草圖,就能生成你想要的樣子。

構(gòu)圖上下、左右、大小、形狀等各種元素都由你說了算。

圖片

就連LeCun也出來力推自家的產(chǎn)品了,創(chuàng)意就不用說了,關(guān)鍵還「可控」!

圖片

Make-A-Scene有多厲害,不如一起來看看。

Meta的神筆馬良

光說不練,假把式!

我們這就看看,人們究竟會怎么用Make-A-Scene,來實(shí)現(xiàn)他們的想象力。

研究團(tuán)隊(duì)將和知名的人工智能藝術(shù)家一起來進(jìn)行Make-A-Scene的演示環(huán)節(jié)。

圖片

藝術(shù)家團(tuán)隊(duì)可謂陣容強(qiáng)大,包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol等等,這些大師都有第一手的應(yīng)用生成性人工智能的使用經(jīng)驗(yàn)。

研發(fā)團(tuán)隊(duì)讓這些藝術(shù)家們用Make-A-Scene作為創(chuàng)作過程的一部分,邊使用邊反饋。

接下來,我們就來欣賞一下大師們用Make-A-Scene創(chuàng)作出的作品吧。

例如,Sofia Crespo是一位專注于自然和技術(shù)交融的藝術(shù)家。她很愛想象從來沒存在過的人造生命形式感,所以她使用Make-A-Scene的素描和文本提示功能,創(chuàng)造了全新的「混合生物」。

圖片

比如,花形的水母。

Crespo利用它的自由繪畫功能,可以快速迭代新的想法。她表示,Make-A-Scene將有助于藝術(shù)家更好地發(fā)揮創(chuàng)造力,能讓藝術(shù)家使用更直觀的界面作畫。

圖片

(花型的水母)

Scott Eaton是一位藝術(shù)家、教育家和創(chuàng)意技術(shù)專家,他的工作是調(diào)研究當(dāng)代現(xiàn)狀和技術(shù)之間的關(guān)系。

他用Make-A-Scene作為一種構(gòu)成場景的方式,通過不同的提示來探索場景的變化,比如用類似「沙漠中沉沒和腐爛的摩天大樓」這種主題來強(qiáng)調(diào)氣候危機(jī)。

圖片

(沙漠中的摩天大樓)

Alexander Reben是一位藝術(shù)家、研究人員和機(jī)器人專家。

他認(rèn)為,如果能對輸出有更多的掌控,確實(shí)有助于表達(dá)自己的藝術(shù)意圖。他將這些工具融入了他正在進(jìn)行的系列作品之中。

圖片

而對于媒體藝術(shù)家和導(dǎo)演Refik Anadol來說,這個(gè)工具是一種促進(jìn)想象力發(fā)展、更好地探索未知領(lǐng)域的方式。

圖片

其實(shí),這個(gè)原型工具不僅僅是為對藝術(shù)有興趣的人準(zhǔn)備的。

研究團(tuán)隊(duì)相信,Make-A-Scene可以幫助任何人更好地表達(dá)自己,包括那些沒什么藝術(shù)細(xì)胞的人。

作為開始,研究團(tuán)隊(duì)向美達(dá)公司的員工提供了一部分使用權(quán)。他們正在測試并提供關(guān)于他們使用Make-A-Scene經(jīng)驗(yàn)的反饋。

美達(dá)公司的項(xiàng)目經(jīng)理Andy Boyatzis使用Make-A-Scene與他兩歲和四歲的孩子一起創(chuàng)造藝術(shù)。他們用俏皮的圖畫把他們的想法和想象力變成了現(xiàn)實(shí)。

以下就是他們的作品~

圖片

一只五彩斑斕的雕塑貓~是不是很可愛。但是這個(gè)色調(diào)其實(shí)有點(diǎn)不忍直視,像小孩把一大坨橡皮泥瞎揉到一起。

圖片

一只乘坐火車的怪獸熊。說真的,密恐患者抓緊繞行。小編看完這張圖密恐直接竄到頂了??纯催@詭異的胳膊,像臉一樣的身子,像眼珠子一樣的輪子...

圖片

一座山峰。講道理,這張圖蠻有意境的。但有沒有感覺,遠(yuǎn)處的山和近處的小火車壓根不是一個(gè)畫風(fēng)?

圖片

背后技術(shù)

雖然目前的方法提供了文本和圖像域之間還算不錯(cuò)的轉(zhuǎn)換,但它們?nèi)匀挥袔讉€(gè)關(guān)鍵問題沒有很好地解決:可控性、人類感知、圖像質(zhì)量。

該模型的方法一定程度提高了結(jié)構(gòu)一致性和圖像質(zhì)量。

整個(gè)場景由三個(gè)互補(bǔ)的語義分割組(全景、人類和人臉)組成。

通過組合三個(gè)提取的語義分割組,網(wǎng)絡(luò)學(xué)習(xí)生成語義的布局和條件,生成最終圖像。

為了創(chuàng)建場景的token空間,作者們采用了「VQ-SEG」,這是一項(xiàng)對「VQ-VAE」的改進(jìn)。

在該實(shí)現(xiàn)中,「VQ-SEG」的輸入和輸出都是m個(gè)通道。附加通道是分隔不同類和實(shí)例的邊的映射。邊緣通道為同一類的相鄰實(shí)例提供分離,并強(qiáng)調(diào)具有高度重要性的稀缺類。

在訓(xùn)練「VQ-SEG」網(wǎng)絡(luò)時(shí),由于每個(gè)人臉部分在場景空間中所占的像素?cái)?shù)量相對較少,因此導(dǎo)致了重建場景中代表人臉部分(如眼睛、鼻子、嘴唇、眉毛)的語義分割頻繁減少。

對此,作者們嘗試在分割人臉部分類的基礎(chǔ)上采用加權(quán)二元交叉熵人臉損失,更加突出人臉部分的重要性。此外,還將人臉部分的邊緣作為上述語義分割邊緣圖的一部分。

作者們采用了在ImageNet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練VGG網(wǎng)絡(luò),而不是專門的人臉嵌入網(wǎng)絡(luò),并引入了表示重建圖像和真實(shí)圖像之間感知差異的特征匹配損失。

通過使用特征匹配,給VQ-IMG中的encoder和decoder分別添加額外的上采樣層和下采樣層,便可以將輸出圖像的分辨率從256×256進(jìn)行提高。

想必大家對Transformer并不陌生,那么基于場景的Transformer又是什么呢?

它依賴于一個(gè)具有三個(gè)獨(dú)立連續(xù)的token空間的自回歸Transformer,即文本、場景和圖像。

圖片

token序列由BPE編碼器編碼的文本token、VQ-SEG編碼的場景token以及VQ-IMG編碼或者解碼的圖像token組成。

在訓(xùn)練基于場景的Transformer之前,每個(gè)編碼好的token序列都對應(yīng)一個(gè)[文本,場景,圖像]元組,使用相應(yīng)的encoder提取。

此外,作者們還采用了無分類器引導(dǎo),即將無條件樣本引導(dǎo)到條件樣本的過程。

該模型實(shí)現(xiàn)了SOTA結(jié)果。具體看一下和之前方法的效果對比

圖片

圖片

現(xiàn)在,研究人員還將Make-A-Scene整合了一個(gè)超分辨率網(wǎng)絡(luò),就可以生成2048x2048、4倍分辨率的圖像。

如下:

圖片

其實(shí),與其他生成AI模型一樣,Make-A-Scene通過對數(shù)百萬個(gè)示例圖像進(jìn)行訓(xùn)練來學(xué)習(xí)視覺和文本之間的關(guān)系。

不可否認(rèn)的是,訓(xùn)練數(shù)據(jù)中反映的偏差會影響這些模型的輸出。

正如研究者所指出的那樣,Make-A-Scene還有很多地方有待提高。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-12 07:54:15

Meta人工智能廣告工具

2023-06-13 09:33:37

視頻阿里巴巴

2021-03-01 14:05:50

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-07-12 08:33:04

機(jī)房數(shù)據(jù)中心服務(wù)器

2022-10-10 15:09:12

AI

2025-01-07 07:05:00

生成式檢索系統(tǒng)GenAI人工智能

2023-08-14 11:52:32

AI工具機(jī)器學(xué)習(xí)

2023-03-22 11:06:32

2021-03-12 10:40:46

CycleGAN網(wǎng)絡(luò)圖像深度學(xué)習(xí)

2021-03-04 15:23:35

工具代碼開發(fā)

2023-12-07 10:22:26

人工圖像生成器Meta圖像生成模型

2023-08-30 13:24:00

AI工具

2023-05-31 14:08:44

視覺功能信號想象

2017-10-09 11:13:51

圖像工具.深度學(xué)習(xí)

2022-09-30 15:35:43

AI視頻

2011-08-30 17:22:50

研究報(bào)告大數(shù)據(jù)時(shí)代數(shù)據(jù)集成

2022-02-22 14:36:52

編程Swift程序員

2022-08-27 15:03:16

FacebookMeta虛擬現(xiàn)實(shí)

2022-11-09 15:41:47

人工智能小程序視頻

2023-10-19 13:12:32

Open-AIAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號