自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="mj613"></pre>

<cite id="mj613"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI靠語意理解把照片變抽象畫，無需相應(yīng)數(shù)據(jù)集，只畫四筆也保留神韻，有畢加索內(nèi)味兒了

作者：行早 2022-03-21 11:42:27

人工智能機(jī)器學(xué)習(xí) 新聞

為什么這個(gè)CLIPasso甚至連速寫畫數(shù)據(jù)集訓(xùn)練都沒做，就能get到抽象簡(jiǎn)筆畫的“靈魂”呢？

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

只用幾筆，如何勾勒一只動(dòng)物的簡(jiǎn)筆畫，很多人從小都沒整明白的問題——

如今AI也能實(shí)現(xiàn)了。

下面圖中，左邊是三張不同的動(dòng)物照片，右邊是AI僅用線條來描出它們的外形和神態(tài)。

從32筆到4筆，即使大量信息都抽象略去了，但我們還是能辨識(shí)出對(duì)應(yīng)動(dòng)物，尤其是最下面的貓貓，只需4筆曲線也能展示出貓的神韻：

再看這匹馬，抽象到最后只保留了馬頭、馬鬃和揚(yáng)蹄飛奔的動(dòng)作，真有點(diǎn)畢加索那幅公牛那味兒了。

更神奇的是，其背后的模型CLIPasso并沒有在速寫畫數(shù)據(jù)集上訓(xùn)練——

等于說，沒“學(xué)”過怎么畫抽象畫，按照文字描述就能完成簡(jiǎn)筆速寫。

要知道，日常速寫都比較抽象，即使是人來畫，要想抓住物體的“靈魂”，也需要經(jīng)過很久的訓(xùn)練。

那為什么這個(gè)CLIPasso甚至連速寫畫數(shù)據(jù)集訓(xùn)練都沒做，就能get到抽象簡(jiǎn)筆畫的“靈魂”呢？

CLIPasso如何畫抽象畫

其實(shí)AI畫抽象簡(jiǎn)筆畫比人更難。

既要準(zhǔn)確地理解語義，又要在幾何上相似，才能讓抽象畫看起來有“像”的感覺。

具體實(shí)現(xiàn)上，模型會(huì)根據(jù)圖像的特征圖先生成初始線條的位置，然后靠CLIP構(gòu)建兩個(gè)損失函數(shù)，來控制抽象畫幾何相似、語義理解準(zhǔn)確。

其中CLIP就是OpenAI發(fā)布的一個(gè)重排序的模型，它會(huì)通過打分排名來篩選出和文字匹配度最高的圖片。

這樣一來，CLIPasso的整體結(jié)構(gòu)就比較清晰了：

例如我們要畫一匹馬，首先通過特征圖（saliency）標(biāo)記一些初始線條（S₁，S₂…S_n）的位置。

然后通過光柵化（Rasterizer）把線條投影到成像平面：

接下來就是優(yōu)化線條參數(shù)了。把初始圖像導(dǎo)入CLIP模型，計(jì)算幾何損失（L_g）和語義損失（L_s）。

其中語義損失通過余弦相似度來判斷兩圖的差異，而幾何損失通過中間層來控制。

這樣就能保證在準(zhǔn)確理解語義的情況下保持幾何準(zhǔn)確，再通過反向傳播不斷調(diào)整線條參數(shù)，直到損失收斂。

那速寫的抽象程度是怎么控制的呢？

就是靠設(shè)置線條的數(shù)量。

同樣畫一匹馬，用32筆去畫和只用4筆去畫，抽象效果肯定是不一樣的：

最后，我們來看一下CLIPasso畫出的畫辨識(shí)度怎么樣。

下圖中這個(gè)柱形圖代表的是五類動(dòng)物的辨識(shí)準(zhǔn)確度。

不過在猜測(cè)的時(shí)候還有第六個(gè)選項(xiàng)：這五種動(dòng)物都不是。

從圖中可以看出，無論什么動(dòng)物，在高度抽象的時(shí)候（4筆畫），辨識(shí)度都很低，隨著筆畫越來越多，辨識(shí)度也會(huì)逐漸提高。

畢竟這么抽象的畫，看不出來是啥也很正常。

但是，模型團(tuán)隊(duì)在第二輪測(cè)試辨識(shí)度時(shí)刪除了第六個(gè)選項(xiàng)，也就是必須從這五個(gè)動(dòng)物類型中選一個(gè)歸類。

這時(shí)，我們從下面的柱形圖中可以看到，即使是高度抽象的4筆畫，辨識(shí)度也提高了不少，從36%提到了76%。

這就說明了之前辨認(rèn)不出是太抽象導(dǎo)致的，AI畢加索的畫仍然抓住了動(dòng)物的核心特征。

目前這個(gè)模型已經(jīng)出了colab版本，只需在左側(cè)文件夾中添加你想要抽象化的圖片，然后運(yùn)行三個(gè)部分即可得到輸出照片。

作者簡(jiǎn)介

CLIPasso團(tuán)隊(duì)成員主要來自洛桑聯(lián)邦理工學(xué)院、特拉維夫大學(xué)等。

其中Jessica是蘇黎世聯(lián)邦理工學(xué)院機(jī)器人方向的碩士研究生，目前在洛桑聯(lián)邦理工學(xué)院的計(jì)算機(jī)視覺實(shí)驗(yàn)室VILAB實(shí)習(xí)。

而Yale Vinker是特拉維夫大學(xué)計(jì)算機(jī)科學(xué)的博士研究生，對(duì)藝術(shù)和技術(shù)的交叉領(lǐng)域非常感興趣，也難怪CLIPasso有這么豐富的藝術(shù)細(xì)胞。

責(zé)任編輯：張燕妮來源：量子位

AI 抽象畫模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="ixtge"></sub>

<sub id="ixtge"></sub>