自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達:從圖像中抽象出概念再生成新的圖像,網(wǎng)友:人類幼崽這個技能AI終于學(xué)會了

人工智能 新聞
人類幼崽2歲就能做的事,AI竟然才學(xué)會?

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

早在2017年,就有網(wǎng)友吐槽:2歲幼童只要見過一次犀牛的照片,就能在其他圖片里認(rèn)出不同姿勢、視角和風(fēng)格的卡通犀牛,但AI卻做不到。

圖片

直到現(xiàn)在,這一點終于被科學(xué)家攻克了!

最新研究發(fā)現(xiàn),只要給AI喂3-5張圖片,AI就能抽象出圖片里的物體或風(fēng)格,再隨機生成個性化的新圖片。

圖片

有網(wǎng)友評價:非???,這可能是我這幾個月來看到的最好的項目。

圖片

它是如何工作的?

讓我們先來看幾個例子。

當(dāng)你上傳3張不同角度的陶瓷貓照片,可能會得到以下4張新圖像:兩只在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術(shù)風(fēng)格的貓以及陶瓷貓主題的午餐盒。

圖片

同樣的例子還有藝術(shù)品:

圖片

鎧甲小人:

圖片

碗:

圖片

不只是提取圖像中的物體,AI還能生成特定風(fēng)格的新圖像。

例如下圖,AI提取了輸入圖像的繪畫風(fēng)格,生成了一系列該風(fēng)格的新畫作。

圖片

更神奇的是,它還能將兩組輸入圖像相結(jié)合,提取一組圖像中的物體,再提取另一組的圖像風(fēng)格,兩者結(jié)合,生成一張嶄新的圖像。

圖片

除此之外,有了這個功能,你還可以對一些經(jīng)典圖像“下手”,給它們添加一些新元素。

圖片

那么,這么神奇的功能背后是什么原理呢?

盡管近兩年來,大規(guī)模文本-圖像模型,如DALL·E、CLIP、GLIDE等,已經(jīng)被證明有很強的自然語言推理能力。

但有一點:如果用戶提出一些特定的需求,比如生成一張包含我最喜歡的童年玩具的新照片,或者把孩子的涂鴉變成一件藝術(shù)品,這些大規(guī)模模型都很難做到。

為了應(yīng)對這一挑戰(zhàn),研究給出了一個固定的、預(yù)先訓(xùn)練好的文本-圖像模型和一個描述概念的小圖像集(用戶輸入的3-5張圖像),目標(biāo)是找到一個單一的詞嵌入,從小集合中重建圖像。由于這種嵌入是通過優(yōu)化過程發(fā)現(xiàn)的,于是稱之為“文本倒置(Textual Inversion)”。

具體來說,就是先抽象出用戶輸入圖像中的物體或風(fēng)格,并轉(zhuǎn)換為“S?”這一偽詞(pseudo-word),這時,這個偽詞就可以被當(dāng)作任何其他詞來處理,最后根據(jù)“S?”組合成的自然語句,生成個性化的新圖像,比如:

“一張S?在海灘上的照片”、”一幅掛在墻上的S?的油畫”、”以S2?的風(fēng)格畫一幅S1?”。

圖片

值得注意的是,由于本次研究應(yīng)用了一個小規(guī)模、經(jīng)過策劃的數(shù)據(jù)集,因此在生成圖像時能有效地避免刻板印象。

例如下圖,當(dāng)提示“醫(yī)生”時,其他模型傾向于生成白種人和男性的圖像,而本模型生成圖像中則增加了女性和其他種族的人數(shù)。

圖片

目前,該項目的代碼和數(shù)據(jù)已開源,感興趣的小伙伴可以關(guān)注一下。

作者介紹

該篇論文來自特拉維夫大學(xué)和英偉達的研究團隊,作者分別是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal,是特拉維夫大學(xué)的計算機科學(xué)博士生,師從Daniel Cohen-Or和Amit Bermano,主要研究方向是在減少監(jiān)督的條件下生成2D和3D模型,目前在英偉達工作。

圖片

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-01-12 15:36:11

AI 數(shù)據(jù)人工智能

2023-04-07 13:51:00

Midjourneyprompt工具

2024-05-13 13:37:10

模型數(shù)據(jù)

2020-03-30 08:00:38

Nginx徹底搞懂

2019-12-20 10:20:02

圖像識別AI機器視覺

2023-01-04 13:36:11

谷歌

2023-05-26 17:15:45

2023-10-13 13:11:58

數(shù)據(jù)智能

2024-12-04 10:59:26

2021-06-24 13:15:35

開源技術(shù) 圖像識別

2020-10-04 13:12:53

開源技術(shù) 數(shù)據(jù)

2024-07-30 09:43:59

2023-05-04 16:24:10

人工智能圖像生成器

2025-04-02 04:55:00

2025-01-08 14:40:48

2025-01-26 15:31:27

2017-03-19 15:47:50

神經(jīng)網(wǎng)絡(luò)

2024-12-12 13:00:00

2024-08-29 14:48:42

2023-08-14 11:52:32

AI工具機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號