自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解決VAE表示學習問題,北海道大學提出新型生成模型GWAE

人工智能 新聞
日本北海道大學提出 Gromov-Wasserstein Autoencoders(GWAE),將變分自編碼器 Variational Autoencoder (VAE) 重寫為數(shù)據(jù)和表示之間的最優(yōu)傳輸?shù)撵`活表征學習框架。

學習高維數(shù)據(jù)的低維表示是無監(jiān)督學習中的基本任務(wù),因為這種表示簡明地捕捉了數(shù)據(jù)的本質(zhì),并且使得執(zhí)行以低維輸入為基礎(chǔ)的下游任務(wù)成為可能。變分自編碼器(VAE)是一種重要的表示學習方法,然而由于其目標控制表示學習仍然是一個具有挑戰(zhàn)性的任務(wù)。雖然 VAE 的證據(jù)下界(ELBO)目標進行了生成建模,但學習表示并不是直接針對該目標的,這需要對表示學習任務(wù)進行特定的修改,如解糾纏。這些修改有時會導致模型的隱式和不可取的變化,使得控制表示學習成為一個具有挑戰(zhàn)性的任務(wù)。

為了解決變分自編碼器中的表示學習問題,本文提出了一種稱為 Gromov-Wasserstein Autoencoders(GWAE)的新型生成模型。GWAE 提供了一種基于變分自編碼器(VAE)模型架構(gòu)的表示學習新框架。與傳統(tǒng)基于 VAE 的表示學習方法針對數(shù)據(jù)變量的生成建模不同,GWAE 通過數(shù)據(jù)和潛在變量之間的最優(yōu)傳輸獲得有益的表示。Gromov-Wasserstein(GW)度量使得在不可比變量之間(例如具有不同維度的變量)進行這種最優(yōu)傳輸成為可能,其側(cè)重于所考慮的變量的距離結(jié)構(gòu)。通過用 GW 度量替換 ELBO 目標,GWAE 在數(shù)據(jù)和潛在空間之間執(zhí)行比較,直接針對變分自編碼器中的表示學習(如圖 1)。這種表示學習的表述允許學習到的表示具有特定的被認為有益的屬性(例如分解性),這些屬性被稱為元先驗。

圖片

圖 1 VAE 與 GWAE 的區(qū)別

本研究目前已被 ICLR 2023 接受。

  • 論文鏈接:https://arxiv.org/abs/2209.07007
  • ?代碼鏈接:https://github.com/ganmodokix/gwae

方法介紹

數(shù)據(jù)分布和潛在先驗分布之間的GW目標定義如下 :

圖片

這種最優(yōu)傳輸代價的公式可以衡量不可比空間中分布的不一致性;然而對于連續(xù)分布,由于需要對所有耦合進行下確界,計算精確的 GW 值是不切實際的。為了解決這個問題,GWAE 解決了一個松弛的優(yōu)化問題,以此來估計和最小化 GW 估計量,其梯度可以通過自動微分進行計算。松弛目標是估計的 GW 度量和三個正則化損失的總和,可以在可微編程框架(如 PyTorch)中全部實現(xiàn)。該松弛目標由一個主要損失和三個正則化損失組成,即主要估計的 GW 損失,基于 WAE 的重構(gòu)損失,合并的充分條件損失以及熵正則化損失。

這個方案還可以靈活地定制先驗分布,以將有益的特征引入到低維表示中。具體而言,該論文引入了三種先驗族群,分別是:

神經(jīng)先驗 (NP) 在具有 NP 的 GWAEs 中,使用全連接的神經(jīng)網(wǎng)絡(luò)構(gòu)建先驗采樣器。該先驗分布族群在潛在變量方面做出了更少的假設(shè),適用于一般情況。

因子化神經(jīng)先驗 (FNP)在具有 FNP 的 GWAEs 中,使用本地連接的神經(jīng)網(wǎng)絡(luò)構(gòu)建采樣器,其中每個潛在變量的條目獨立生成。這種采樣器產(chǎn)生一個因子化的先驗和一個逐項獨立的表示,這是代表性元先驗、解糾纏的一種突出方法。

高斯混合先驗 (GMP) 在 GMP 中,定義為幾個高斯分布的混合物,其采樣器可以使用重參數(shù)化技巧和 Gumbel-Max 技巧來實現(xiàn)。GMP 允許在表示中假設(shè)簇,其中先驗的每個高斯組件都預計捕捉一個簇。

實驗及結(jié)果

該研究對 GWAE 進行了兩種主要元先驗的經(jīng)驗評估解糾纏和聚類。

解糾纏 研究使用了 3D Shapes 數(shù)據(jù)集和 DCI 指標來衡量 GWAE 的解糾纏能力。結(jié)果表明,使用 FNP 的 GWAE 能夠在單個軸上學習對象色調(diào)因素,這表明了 GWAE 的解糾纏能力。定量評估也展示了 GWAE 的解糾纏表現(xiàn)。

圖片

聚類 為了評估基于聚類元先驗獲得的表征,該研究進行了一項 Out-of-Distribution(OoD)檢測。MNIST 數(shù)據(jù)集被用作 In-Distribution(ID)數(shù)據(jù),Omniglot 數(shù)據(jù)集被用作 OoD 數(shù)據(jù)。雖然 MNIST 包含手寫數(shù)字,但 Omniglot 包含不同字母的手寫字母。在這個實驗中,ID 和 OoD 數(shù)據(jù)集共享手寫圖像領(lǐng)域,但它們包含不同的字符。模型在 ID 數(shù)據(jù)上進行訓練,然后使用它們學到的表征來檢測 ID 或 OoD 數(shù)據(jù)。在 VAE 和 DAGMM 中,用于 OoD 檢測的變量是先驗的對數(shù)似然,而在 GWAE 中,它是 Kantorovich potential。GWAE 的先驗是用 GMP 構(gòu)建的,以捕捉 MNIST 的簇。ROC 曲線顯示了模型的 OoD 檢測性能,其中所有三個模型都實現(xiàn)了近乎完美的性能;然而,使用 GMP 構(gòu)建的 GWAE 在曲線下面積(AUC)方面表現(xiàn)最佳。

圖片

此外該研究對 GWAE 進行了生成能力的評估。

作為基于自動編碼器的生成模型的性能 為了評估 GWAE 在沒有特定元先驗的情況下對一般情況的處理能力,使用 CelebA 數(shù)據(jù)集進行了生成性能的評估。實驗使用 FID 評估模型的生成性能,使用 PSNR 評估自編碼性能。GWAE 使用 NP 獲得了第二好的生成性能和最佳的自編碼性能,這表明其能夠在其模型中捕捉數(shù)據(jù)分布并在其表示中捕捉數(shù)據(jù)信息的能力。

圖片

總結(jié)

  • GWAE 是基于 Gromov-Wasserstein 度量構(gòu)建的變分自編碼器生成模型,旨在直接進行表示學習。
  • 由于先驗僅需要可微分樣本,因此可以構(gòu)建各種先驗分布設(shè)置來假設(shè)元先驗(表示的理想特性)。
  • 在主要元先驗上的實驗以及作為變分自編碼器的性能評估表明了 GWAE 公式的靈活性和 GWAE 的表示學習能力。
  • 第一作者 Nao Nakagawa 個人主頁:https://ganmodokix.com/note/cv
  • 日本北海道大學多媒體實驗室主頁:https://www-lmd.ist.hokudai.ac.jp/
責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-08-03 11:54:40

新華三

2022-10-09 17:55:50

數(shù)據(jù)代碼

2020-06-09 10:15:21

模型人工智能自然語言

2010-04-28 22:40:40

云計算日本

2017-08-07 11:09:19

機器學習用戶推薦轉(zhuǎn)化率

2015-08-06 14:02:31

數(shù)據(jù)分析

2022-10-09 15:26:45

人工智能ML機器學習

2022-02-24 13:36:21

3D模型AI

2010-07-07 20:23:57

思科云計算

2025-01-26 13:20:49

谷歌AI模型Titans

2019-10-12 11:10:32

AI 數(shù)據(jù)人工智能

2024-05-06 12:24:00

模型訓練

2018-08-29 08:13:22

Google 學習框架技術(shù)

2025-02-26 10:14:12

2021-09-10 16:24:00

框架AI開發(fā)

2022-01-05 10:42:12

AI 數(shù)據(jù)人工智能

2024-11-01 16:46:48

2009-03-26 18:46:20

戴爾Nehalem服務(wù)器

2012-05-08 15:19:10

2024-12-06 18:48:39

點贊
收藏

51CTO技術(shù)棧公眾號