自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

人工智能 深度學(xué)習(xí)
深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛用于顯著目標(biāo)檢測,并獲得了 SOTA 的性能。在 CVPR 2019 的一篇論文中,來自加拿大阿爾伯塔大學(xué)的研究者曾提出了邊界感知顯著目標(biāo)檢測網(wǎng)絡(luò) BASNet,并衍生出了一系列流行的工具。

 深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛用于顯著目標(biāo)檢測,并獲得了 SOTA 的性能。在 CVPR 2019 的一篇論文中,來自加拿大阿爾伯塔大學(xué)的研究者曾提出了邊界感知顯著目標(biāo)檢測網(wǎng)絡(luò) BASNet,并衍生出了一系列流行的工具。今年,該團(tuán)隊(duì)又提出了一種用于肖像畫生成的深度網(wǎng)絡(luò)架構(gòu) U^2-Net,不僅所需的計(jì)算開銷較少,而且生成肖像畫具有豐富的細(xì)節(jié)。該論文被 ICPR 2020 會(huì)議接收。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

從人臉圖片生成藝術(shù)肖像畫的 AI 應(yīng)用不在少數(shù),但效果驚艷的不多。上面這張圖片中的輸入 - 輸出結(jié)果,來源于一個(gè) GitHub 熱門項(xiàng)目 U^2-Net (U square net),開源至今已經(jīng)獲得了 1.7K 的 star 量。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

這項(xiàng)研究來自阿爾伯塔大學(xué)的一個(gè)團(tuán)隊(duì),論文此前已被國際模式識別大會(huì) ICPR 2020 會(huì)議接收。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫
  • 論文鏈接:https://arxiv.org/pdf/2005.09007.pdf
  • 項(xiàng)目地址:https://github.com/NathanUA/U-2-Net

最近,研究者又將其應(yīng)用于人臉肖像畫的生成中,并基于 APDrawingGAN 數(shù)據(jù)集為此類任務(wù)訓(xùn)練了新的模型。不管是兒童肖像還是成年男性、成年女性,都能獲得相當(dāng)細(xì)致的生成結(jié)果:

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫
皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

近年來,顯著性目標(biāo)檢測廣泛應(yīng)用于視覺跟蹤和圖像分割等領(lǐng)域。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,尤其是全卷積網(wǎng)絡(luò)(FCN)在圖像分割領(lǐng)域的興起,顯著性目標(biāo)檢測技術(shù)得到了明顯的改善。

大多數(shù) SOD 網(wǎng)絡(luò)的設(shè)計(jì)都有一個(gè)共同的模式,也就是說,它們專注于充分利用現(xiàn)有的基礎(chǔ)網(wǎng)絡(luò)提取的深度特征,例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但這些主干網(wǎng)絡(luò)最初都是為圖像分類任務(wù)設(shè)計(jì)的。它們提取代表語義含義的特征,而不是代表局部性細(xì)節(jié)或全局對照信息,這對于顯著性目標(biāo)檢測至關(guān)重要。并且這些網(wǎng)絡(luò)通常需要在 ImageNet 數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,效率比較低。

為了解決這個(gè)問題,阿爾伯塔大學(xué)的研究者提出了 U^2-Net。研究團(tuán)隊(duì)在論文中介紹,U^2-Net 是一個(gè)簡單而強(qiáng)大的深度網(wǎng)絡(luò)架構(gòu),其架構(gòu)是兩層嵌套的 U 形結(jié)構(gòu)。該研究提出的 ReSidual U-block(RSU)中混合了不同大小的接收域,因此它能夠從不同尺度中捕獲更多的語境信息。此外,RSU 中使用了池化操作,因此在不顯著增加計(jì)算成本的情況下,也能夠增加整個(gè)架構(gòu)的深度。

方法

在方法部分,研究者不僅詳細(xì)闡釋了其提出的殘差 U-block 以及利用該 U-block 構(gòu)建的嵌套 U 形架構(gòu),而且還描述了該網(wǎng)絡(luò)的監(jiān)督策略和訓(xùn)練損失。

殘差 U-block

受到 U-Net 網(wǎng)絡(luò)的啟發(fā),研究者提出了新型殘差 U-block(ReSidual U-block, RSU),以捕獲階段內(nèi)的多尺度特征。RSU-L (C_in, M, C_out)的結(jié)構(gòu)如下圖 2 (e)所示,其中 L 表示編碼器中的層數(shù),C_in、C_out 分別表示輸入和輸出通道,M 表示 RSU 內(nèi)層通道數(shù)。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

本研究提出的 RSU 與現(xiàn)有其他卷積塊的結(jié)構(gòu)對比

具體而言,RSU 主要有三個(gè)組成部件,分別是一個(gè)輸入卷積層、一個(gè)高度為 L 的類 U-Net 對稱編碼器 - 解碼器結(jié)構(gòu)以及一個(gè)通過求和來融合局部和多尺度特征的殘差連接。

為了更好地理解設(shè)計(jì)理念,研究者在下圖 3 中對 RSU 與原始?xì)埐顗K進(jìn)行了比較。結(jié)果顯示,RSU 與原始?xì)埐顗K的最大區(qū)別在于 RSU 通過一個(gè)類 U-Net 的結(jié)構(gòu)替換普通單流卷積,并且通過一個(gè)由權(quán)重層轉(zhuǎn)換的局部特征替換原始特征。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

更值得注意的是,得益于 U 形結(jié)構(gòu),RSU 的計(jì)算開銷相對較少,因?yàn)榇蠖鄶?shù)運(yùn)算在下采樣特征圖中應(yīng)用。下圖 4 展示了 RSU 與其他特征提取模塊的計(jì)算成本曲線圖:

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

U^2-Net 架構(gòu)

研究者提出了一種用于顯著目標(biāo)檢測的新型堆疊 U 形結(jié)構(gòu) U^n-Net。從理論上講,n 可以設(shè)置成任意正整數(shù),以構(gòu)建單級或多級嵌套 U 形結(jié)構(gòu)。研究者將 n 設(shè)置為 2 以構(gòu)建二級嵌套 U 型結(jié)構(gòu) U^2-Net,具體如下圖所示:

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

具體而言,U^2-Net 主要由三部分組成:(1)6 階段編碼器;(2)5 階段解碼器;(3)與解碼器階段和最后編碼器階段相連接的顯著圖融合模塊。

總的來說,U^2-Net 的設(shè)計(jì)構(gòu)建了具有豐富多尺度特征以及較低計(jì)算和內(nèi)存成本的深度架構(gòu)。此外,由于 U^2-Net 架構(gòu)僅在 RSU 塊上構(gòu)建,并且沒有使用任何經(jīng)過圖像分類處理的預(yù)訓(xùn)練主干網(wǎng)絡(luò),所以在性能損失不大的情況下 U^2-Net 可以靈活且方便地適應(yīng)不同的工作環(huán)境。

監(jiān)督

在訓(xùn)練過程中,研究者使用了類似于整體嵌套邊緣檢測(Holistically-nested edge detection, HED)的深度監(jiān)督算法。訓(xùn)練過程定義如下:

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

訓(xùn)練過程努力將上述公式 (1) 的整體損失最小化。在測試過程中,研究者選擇將融合輸出 l_fuse 作為最終顯著圖。

實(shí)驗(yàn)

研究者在 DUTS-TR 上訓(xùn)練了 U^2-Net 網(wǎng)絡(luò),該數(shù)據(jù)集包含 10553 張圖片,是目前最大和最常用的顯著目標(biāo)檢測數(shù)據(jù)集。研究者對數(shù)據(jù)進(jìn)行了水平翻轉(zhuǎn),總共獲得了 21106 張訓(xùn)練圖像。在評估階段,研究者使用了 DUTOMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD 六個(gè)常用的基準(zhǔn)數(shù)據(jù)集來評估方法。

控制變量研究

實(shí)驗(yàn)從三個(gè)方面來驗(yàn)證 U^2 -Net 的效果:基本塊、架構(gòu)和主干網(wǎng)絡(luò)。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

表 2:不同模塊的控制變量實(shí)驗(yàn)結(jié)果。“PLN”、 “RES”、 “DSE”、“INC”、“PPM” 和 “RSU” 分別代表普通卷積塊、殘差塊、 密集塊、初始化塊、金字塔池化模型和殘差 U-block。粗體字代表的是性能最佳的兩種。

不同方法性能對比

下表 3 展示了在 DUT-OMRON、DUTS-TE、HKU-IS 三個(gè)數(shù)據(jù)集上,本文方法與其他 20 種 SOTA 方法的對比。紅、綠、藍(lán)分別代表了性能上的最佳、第二和第三。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

下表 4 展示了在 ECSSD、PASCAL-S 和 SOD 三個(gè)數(shù)據(jù)集上的方法對比結(jié)果。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

下圖 7 展示了本文方法與其他 7 種 SOTA 方法定性比較的結(jié)果。(a) 是原圖, (c)是本文方法的生成結(jié)果。

皺眉細(xì)節(jié)完美復(fù)刻,阿爾伯塔大學(xué)團(tuán)隊(duì)的項(xiàng)目生成超逼真的肖像畫

研究團(tuán)隊(duì)

該研究的第一作者秦雪彬,目前是加拿大阿爾伯塔大學(xué)的一名計(jì)算機(jī)科學(xué)在讀博士,共同作者還包括 Zichen Zhang、Chenyang Huang、Masood Dehghan、Osmar R. Zaiane 和 Martin Jagersand。

[[353666]]

左起:秦雪彬、Zichen Zhang、Chenyang Huang。

此前,機(jī)器之心也介紹過秦雪彬等研究者在顯著目標(biāo)檢測方面的另一篇論文《BASNet: Boundary-Aware Salient Object Detection》,該論文被 CVPR 2019 接收。研究公布后,業(yè)界隨之誕生了許多基于 BASNet 的圖像處理工具,比如「隔空移物」神器 AR Cut & Paste、在線摳圖程序「ObjectCut」等。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2022-05-30 19:49:43

機(jī)器人藝術(shù)人工智能

2020-11-27 17:57:08

AI 數(shù)據(jù)人工智能

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2021-05-28 10:22:15

AI 數(shù)據(jù)人工智能

2023-03-24 16:14:32

框架訓(xùn)練

2015-05-26 13:17:44

光纖

2020-08-18 10:50:47

AI 數(shù)據(jù)人工智能

2023-12-16 09:49:18

2011-04-26 09:03:13

網(wǎng)頁設(shè)計(jì)

2024-07-15 09:36:16

2025-02-11 10:30:00

2024-01-16 08:00:00

人工智能基本模型

2023-10-04 09:56:33

圖片AI

2024-12-19 10:20:53

2024-01-08 13:49:00

2012-03-26 21:42:18

微軟

2021-10-29 15:35:21

自動(dòng)駕駛數(shù)據(jù)人工智能

2024-12-09 12:08:55

2023-07-25 16:25:00

研究模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號