自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="wswwq"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

英偉達：從圖像中抽象出概念再生成新的圖像，網(wǎng)友：人類幼崽這個技能AI終于學(xué)會了

作者：羿閣 2022-08-14 15:13:04

人工智能新聞

人類幼崽2歲就能做的事，AI竟然才學(xué)會？

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

早在2017年，就有網(wǎng)友吐槽：2歲幼童只要見過一次犀牛的照片，就能在其他圖片里認(rèn)出不同姿勢、視角和風(fēng)格的卡通犀牛，但AI卻做不到。

直到現(xiàn)在，這一點終于被科學(xué)家攻克了！

最新研究發(fā)現(xiàn)，只要給AI喂3-5張圖片，AI就能抽象出圖片里的物體或風(fēng)格，再隨機生成個性化的新圖片。

有網(wǎng)友評價：非?？?，這可能是我這幾個月來看到的最好的項目。

它是如何工作的？

讓我們先來看幾個例子。

當(dāng)你上傳3張不同角度的陶瓷貓照片，可能會得到以下4張新圖像：兩只在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術(shù)風(fēng)格的貓以及陶瓷貓主題的午餐盒。

同樣的例子還有藝術(shù)品：

鎧甲小人：

碗：

不只是提取圖像中的物體，AI還能生成特定風(fēng)格的新圖像。

例如下圖，AI提取了輸入圖像的繪畫風(fēng)格，生成了一系列該風(fēng)格的新畫作。

更神奇的是，它還能將兩組輸入圖像相結(jié)合，提取一組圖像中的物體，再提取另一組的圖像風(fēng)格，兩者結(jié)合，生成一張嶄新的圖像。

除此之外，有了這個功能，你還可以對一些經(jīng)典圖像“下手”，給它們添加一些新元素。

那么，這么神奇的功能背后是什么原理呢？

盡管近兩年來，大規(guī)模文本-圖像模型，如DALL·E、CLIP、GLIDE等，已經(jīng)被證明有很強的自然語言推理能力。

但有一點：如果用戶提出一些特定的需求，比如生成一張包含我最喜歡的童年玩具的新照片，或者把孩子的涂鴉變成一件藝術(shù)品，這些大規(guī)模模型都很難做到。

為了應(yīng)對這一挑戰(zhàn)，研究給出了一個固定的、預(yù)先訓(xùn)練好的文本-圖像模型和一個描述概念的小圖像集（用戶輸入的3-5張圖像），目標(biāo)是找到一個單一的詞嵌入，從小集合中重建圖像。由于這種嵌入是通過優(yōu)化過程發(fā)現(xiàn)的，于是稱之為“文本倒置（Textual Inversion）”。

具體來說，就是先抽象出用戶輸入圖像中的物體或風(fēng)格，并轉(zhuǎn)換為“S?”這一偽詞（pseudo-word），這時，這個偽詞就可以被當(dāng)作任何其他詞來處理，最后根據(jù)“S?”組合成的自然語句，生成個性化的新圖像，比如：

“一張S?在海灘上的照片”、”一幅掛在墻上的S?的油畫”、”以S2?的風(fēng)格畫一幅S1?”。

值得注意的是，由于本次研究應(yīng)用了一個小規(guī)模、經(jīng)過策劃的數(shù)據(jù)集，因此在生成圖像時能有效地避免刻板印象。

例如下圖，當(dāng)提示“醫(yī)生”時，其他模型傾向于生成白種人和男性的圖像，而本模型生成圖像中則增加了女性和其他種族的人數(shù)。

目前，該項目的代碼和數(shù)據(jù)已開源，感興趣的小伙伴可以關(guān)注一下。

作者介紹

該篇論文來自特拉維夫大學(xué)和英偉達的研究團隊，作者分別是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal，是特拉維夫大學(xué)的計算機科學(xué)博士生，師從Daniel Cohen-Or和Amit Bermano，主要研究方向是在減少監(jiān)督的條件下生成2D和3D模型，目前在英偉達工作。

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="czj3c"></blockquote>}

<sub id="czj3c"></sub>