自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

女妝馬斯克!超好玩的模型StyleCLIP開源,快給自己也捏臉換裝

新聞 人工智能
最近以色列的科研人員推出一個新的生成模型StyleCLIP,只需要輸入文本提示符,就可以獲得一個你想要的假圖。

 ?[[421561]]?

馬斯克真是為科研事業(yè)奉獻太多!最近以色列的科研人員推出一個新的生成模型StyleCLIP,只需要輸入文本提示符,就可以獲得一個你想要的假圖,例如「化妝」就可以獲得一個精致的馬斯克,或者輸入「短發(fā)」給馬斯克換發(fā)型,那輸入「女裝」豈不是?

馬斯克又被網(wǎng)友以科研的名義玩壞了,只需要輸入你想要的發(fā)型或者膚色的名稱,立刻就能獲得一個相應發(fā)型的馬斯克!

例如輸入蒼白的(Pale),就可以獲得一個雪白的馬斯克;輸入曬黑的(Tanned),又可以獲得一個馬斯克日光浴限定版。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

輸入化妝、卷發(fā)、直發(fā)等等,解鎖更多馬斯克肖像,不過第三排的發(fā)型,在馬斯克的腦袋上顯得十分違和。

這是一項來自以色列的研究人員的工作StyleCLIP,可以使用基于人工智能的生成對抗性網(wǎng)絡對照片進行超逼真的修改,并且只需要讓用戶輸入他們想要的東西的描述即可,無需輸入特定的圖片。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

??https://arxiv.org/pdf/2103.17249.pdf??

這個模型也會產(chǎn)生一些非常搞笑的結(jié)果。例如可以給Facebook 的CEO馬克 · 扎克伯格的臉隨意修改,例如讓他看起來禿頂,戴上眼鏡,或者在下巴上扎上山羊胡。

這個「火星人」的臉上似乎也有了一點人類的感覺。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

目前代碼已經(jīng)開源,快玩一玩看看自己適合什么樣的發(fā)型吧!

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

??https://github.com/orpatashnik/StyleCLIP??

StyleCLIP

StyleCLIP模型主要由StyleGAN和CLIP模型組成。

StyleGAN可以在不同領(lǐng)域(domain)生成高度真實圖像,最近也有大量的工作都集中在理解如何使用StyleGAN的隱空間來處理生成的和真實的圖像。

但發(fā)現(xiàn)語義上潛在有意義的操作通常需要對多個自由度進行細致的檢查,這需要耗費大量的人工操作,或者需要為每個期望的風格創(chuàng)建一個帶注釋的圖像集合。

既然基于注釋,那多模態(tài)模型CLIP(Contrastive Language-Image Pre-training)的能力是否就可以利用上,來開發(fā)一個不需要手動操作的基于文本的StyleGAN圖像處理。

例如輸入可愛的貓(cute cat),瞇眼睛的貓就被放大了眼睛,獲取了所有可愛小貓的特征,還可以老虎變獅子等等。

提出三種方法來利用CLIP的語義表達能力:

1、隱優(yōu)化技術(shù)(latent optimization technique)

使用標準的反向傳播方法修改給定的潛編碼,使得生成的圖像和給定的目標文本之間的CLIP-space內(nèi)距離最小。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

2、隱映射(latent mapper)

訓練網(wǎng)絡將輸入的隱編碼轉(zhuǎn)換為修改生成圖像中文本描述屬性的編碼。這個映射器使用相同的全局CLIP損失進行訓練,從而最小化到目標文本的CLIP-space距離。對于一些劇烈的形狀修改,研究人員發(fā)現(xiàn)訓練這樣一個隱映射器可以幫助提高識別結(jié)果。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

文本引導mapper的架構(gòu),在輸入"surprise"后,源圖像被轉(zhuǎn)換為隱編碼w。訓練三個單獨的映射函數(shù)來生成殘差(藍色),這些殘差被添加到w中以生成目標代碼,從中預訓練的樣式(綠色)生成圖像(右側(cè)),通過CLIP loss進行評估生成效果。

mapper經(jīng)過訓練后,可以操作文本提示t所指示的圖像的所需屬性,同時保留輸入圖像的其他視覺屬性。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

為了保持原始輸入圖像的視覺屬性,還需要在隱空間中最小化操作步驟的L2范數(shù)。

文本提示一次不限于單個屬性,例如可以同時設置頭發(fā)屬性的四種不同組合,直發(fā)/卷發(fā)和短發(fā)/長發(fā),每種組合都會產(chǎn)生預期的結(jié)果,并且任何先前的方法都無法達到這種控制程度。

由于隱映射器上為每個輸入圖像推斷定制的操作步驟,因此檢查潛在空間中的步驟方向在不同輸入上的變化程度也是很有趣的。

3、全局方向(Global Direction)

通過確定修改哪些維度的隱編碼會導致圖像空間變化,從而發(fā)現(xiàn)GAN隱空間中有意義的變化方向。盡管隱映射器允許快速推理,但研究人員發(fā)現(xiàn),當需要細粒度的操作時,有時會出現(xiàn)不足的映射能力。

此外,對于給定的文本提示,不同操作步驟的方向趨于相似。所以需要一種將文本提示映射到單一、全局的StyleGAN樣式空間中的方法,文中提出的方法已被證明比其他隱空間更為有效。

在實驗部分,和其他基于文本驅(qū)動的圖像處理方法如TediGAN相比,輸入強指定文本為"Trump", 弱特指"Mohawk", 更常見的文本"without wrinkles"。

對于無皺紋(without wrinkle)的文字提示,Global Direction模型可以成功地消除皺紋,同時保持其他屬性大部分不受影響,而Mapper模型做不到這點。

可以得出結(jié)論,對于復雜和特定屬性(尤其是涉及身份的屬性),Mapper能夠產(chǎn)生更好的生成結(jié)果。

但對于更簡單和/或更常見的屬性,一個全局方向就足夠了,同時提供了更多的分離操作。

并且可以看到TediGAN產(chǎn)生的結(jié)果在三個實驗中都不太理想。

但StyleCLIP也有缺陷,例如依賴于一個預訓練的StyleGAN生成器和CLIP模型來實現(xiàn)聯(lián)合語言視覺embedding,因此無法將圖像操縱到某些預訓練模型的域外點。

女妝馬斯克!最好玩的模型StyleCLIP開源,快給自己也捏臉換裝

類似地,映射到到CLIP空間中沒有圖像填充的區(qū)域的文本提示也不能期望產(chǎn)生期待的結(jié)果。

并且在視覺變化較大的操作是很難實現(xiàn)的,例如,雖然老虎很容易轉(zhuǎn)化為獅子,但將老虎轉(zhuǎn)化為狼的成功率較低。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-01-23 10:53:47

星鏈互聯(lián)網(wǎng)衛(wèi)星

2024-03-18 14:17:06

大模型開源人工智能

2023-01-04 13:34:27

算法馬斯克

2024-03-12 13:14:40

2023-10-25 11:05:54

深度偽造AI

2025-02-10 08:15:00

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2022-06-01 13:53:43

加密貨幣Deepfake

2021-08-20 15:32:14

機器人人工智能系統(tǒng)

2024-04-07 11:25:54

2022-04-15 10:55:59

Web3反壟斷元宇宙

2024-03-18 13:21:13

2021-06-11 17:14:26

黑客馬斯克加密貨幣

2023-09-08 16:41:53

AI模型

2023-04-07 10:24:44

Twitter開源算法

2025-01-23 11:57:47

2024-03-18 15:00:48

Grok現(xiàn)已開源Grok-1混合專家模型

2023-08-26 19:14:21

開源算法Linux

2023-12-13 08:46:33

人工智能ChatGPT機器人

2023-04-18 15:03:24

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號