自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<rt id="efawd"></rt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出自動(dòng)匹配排名系統(tǒng)

作者：李梅 2022-10-10 09:50:55

人工智能新聞

近日，卡內(nèi)基梅隆大學(xué)的助理教授朱俊彥等人首次提出了基于內(nèi)容的模型搜索算法，讓你能夠一鍵搜索出最匹配的深度圖像生成模型。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

最近的生成式 AI 可謂十分火爆，新出的預(yù)訓(xùn)練圖像生成模型多到讓人目不暇接。無(wú)論是肖像、風(fēng)景，還是卡通漫畫、特定藝術(shù)家風(fēng)格元素等等，每個(gè)模型都有它擅長(zhǎng)生成的內(nèi)容。

這么多模型里面，如何快速找到一個(gè)能滿足自己創(chuàng)作欲的最佳模型呢？

近日，卡內(nèi)基梅隆大學(xué)的助理教授朱俊彥等人首次提出了基于內(nèi)容的模型搜索算法，讓你能夠一鍵搜索出最匹配的深度圖像生成模型。

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

論文地址：https://arxiv.org/pdf/2210.03116.pdf

在團(tuán)隊(duì)基于這套模型搜索算開發(fā)的在線模型共享和搜索平臺(tái) Modelverse 上，你可以輸入文本、圖像、草圖和給定模型，來(lái)搜索出最匹配或相似的相關(guān)模型。

Modelverse 平臺(tái)地址：https://modelverse.cs.cmu.edu/

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：輸入文本（如“非洲動(dòng)物”）、圖像（如一張風(fēng)景圖）、草圖（如一只站立的貓的草圖）或者一個(gè)給定模型，輸出排名靠前的相關(guān)模型（第二行、第三行）

比如，輸入文本“face”，得到結(jié)果如下：

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

輸入一只貓咪圖像：

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

輸入一匹馬的草圖：

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

1 基于內(nèi)容的模型搜索

和傳統(tǒng)的多媒體搜索一樣，模型搜索能夠幫助用戶找到最適合其特定需求的模型。但基于內(nèi)容的模型搜索任務(wù)有其特殊難點(diǎn)：

判斷模型是否可以生成特定圖像，這是一個(gè)比較難計(jì)算的問(wèn)題，而且很多深度生成模型并沒有提供有效方法來(lái)估計(jì)密度，其本身也不支持評(píng)估跨模態(tài)相似性。而蒙特卡洛這種基于抽樣的方法又會(huì)使模型搜索過(guò)程變得非常緩慢。

為此，朱俊彥團(tuán)隊(duì)提出了一種新的模型搜索系統(tǒng)。

每個(gè)生成模型都會(huì)產(chǎn)生一個(gè)圖像分布，所以作者將搜索問(wèn)題處理為優(yōu)化，以最大化在給定模型的情況下生成與查詢匹配的概率。如下圖所示，該系統(tǒng)由預(yù)緩存階段（a，b）和推理階段（c）組成。

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：模型搜索方法概覽

給定一組模型，（a）首先為每個(gè)模型生成 50K 樣本；(b) 然后將圖像編碼為圖像特征并計(jì)算每個(gè)模型的一階和二階特征統(tǒng)計(jì)。統(tǒng)計(jì)數(shù)據(jù)緩存在系統(tǒng)中以提高效率；(c) 在推理階段，支持不同模態(tài)的查詢，包括圖像、草圖、文本描述、另一個(gè)生成模型或這些查詢類型的組合。作者在這里引入近似值，查詢被編碼為特征向量，通過(guò)評(píng)估查詢特征與每個(gè)模型統(tǒng)計(jì)數(shù)據(jù)之間的相似性，來(lái)檢索具有最佳相似性度量的模型。

2 模型搜索效果

作者對(duì)算法進(jìn)行評(píng)估，對(duì) 133 個(gè)深度生成模型（包括 GAN、擴(kuò)散模型和自回歸模型）進(jìn)行了消融實(shí)驗(yàn)分析。與蒙特卡洛基線相比，該方法可以實(shí)現(xiàn)更高效的搜索，速度在 0.08 毫秒內(nèi)，提升 5 倍，同時(shí)還能保持高精度。

通過(guò)對(duì)比模型檢索結(jié)果，我們也可以大致了解針對(duì)不同查詢輸入，哪些模型能生成質(zhì)量更高的圖像。比如下圖展示了模型檢索的結(jié)果對(duì)比。

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：模型檢索結(jié)果示例

最上面一行是圖像查詢，輸入靜物畫，檢索相關(guān)藝術(shù)風(fēng)格的模型，得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中間行是草圖查詢，輸入馬和教堂的草圖，得到 ADM、ProGAN 等模型。最下面一行是文本查詢，輸入“戴眼鏡的人”和“說(shuō)話的鳥”，分別檢索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者還發(fā)現(xiàn)，不同網(wǎng)絡(luò)特征空間的模型性能存在差異。如下圖所示，在輸入圖像查詢時(shí)，結(jié)果顯示三個(gè)網(wǎng)絡(luò) CLIP、DINO 和 Inception 都具有相似的性能；而在輸入草圖查詢時(shí)，CLIP 效果明顯更好，而 DINO 和 Inception 則不太適合給定查詢，它們?cè)谒囆g(shù)風(fēng)格的模型上表現(xiàn)更好。

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：不同網(wǎng)絡(luò)特征空間中基于圖像和草圖的模型檢索比較

另外，這項(xiàng)工作所提出的模型搜索算法還能支持多種應(yīng)用，包括多模態(tài)用戶查詢、相似模型查詢、真實(shí)圖像重構(gòu)和編輯等。

例如多模態(tài)查詢可以幫助細(xì)化模型搜索，在只有“Nicolas Cage”的圖像時(shí)，只能檢索到人臉模型；但當(dāng)同時(shí)使用“Nicolas Cage”和“dog”作為輸入時(shí)，就可以檢索到能生成“Nicolas Cage dog”圖像的 StyleGAN-NADA 模型。（如下圖）

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：多模態(tài)用戶查詢

當(dāng)輸入是一個(gè)人臉模型時(shí)，可以檢索到更多的人臉生成模型，并且類別保持相似。（如下圖）

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：相似模型查詢

給定真實(shí)人臉的查詢圖像，使用排名較高的模型能獲得更準(zhǔn)確的圖像重建。下圖是使用不同排名模型的 CelebA-HQ 和 LSUN Church 圖像的圖像逆映射示例。

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：將真實(shí)圖像投射到檢索到的 StyleGAN2 模型。

在對(duì)真實(shí)圖像進(jìn)行編輯的任務(wù)中，不同模型的表現(xiàn)也有高低之分。下圖中，使用基于圖像的模型檢索算法排名第一的模型來(lái)對(duì)真實(shí)圖像進(jìn)行逆映射，然后使用 GANspace 進(jìn)行編輯，從而將浮世繪圖像中的皺眉人臉變成笑臉。

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：編輯真實(shí)圖像?

這項(xiàng)研究已經(jīng)證明了模型搜索的可行性，而文本、音頻或其他內(nèi)容生成的模型搜索還有很大的研究空間。

但目前來(lái)看，這項(xiàng)工作所提出的方法還有一定的局限性。例如，在查詢特定的草圖時(shí)，有時(shí)會(huì)匹配出抽象形狀的模型；而有時(shí)進(jìn)行多模態(tài)查詢時(shí)，只能檢索到單一的模型，系統(tǒng)可能會(huì)很難處理像一只狗的圖像 + “大象”這樣的多模態(tài)查詢。（如下圖）

AI 生成模型五花八門，誰(shuí)好誰(shuí)壞？CMU 朱俊彥團(tuán)隊(duì)推出首個(gè)自動(dòng)匹配排名系統(tǒng)

圖注：失敗案例

另外，在其模型搜索平臺(tái)上，對(duì)檢索出的模型列表并未根據(jù)其效果進(jìn)行自動(dòng)排序，如在生成圖像的分辨率、逼真度、匹配度等方面對(duì)不同模型進(jìn)行評(píng)估并給出排名，這樣可更便于用戶檢索，也能幫助用戶更好地了解目前生成模型的優(yōu)劣情況，期待這方面的后續(xù)工作。

責(zé)任編輯：張燕妮來(lái)源：雷鋒網(wǎng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)