自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌、MIT提出統(tǒng)一框架MAGE:表征學(xué)習(xí)超MAE,無監(jiān)督圖像生成超越 Latent Diffusion

人工智能 新聞
在一篇 CVPR 2023 論文中,來自 MIT 和谷歌的研究人員提出了一種全新的框架MAGE,同時(shí)在圖像識(shí)別和生成兩大任務(wù)上實(shí)現(xiàn)了 SOTA。

識(shí)別和生成是人工智能領(lǐng)域中的兩大核心任務(wù),如果能將二者合并到一個(gè)統(tǒng)一的系統(tǒng)中,這兩個(gè)任務(wù)應(yīng)該能實(shí)現(xiàn)互補(bǔ)。事實(shí)上,在自然語言處理中,像 BERT [1] 這樣的模型不僅能夠生成高質(zhì)量的文本,還能夠提取文本中的特征。

然而,在計(jì)算機(jī)視覺領(lǐng)域,目前的圖像生成模型和識(shí)別模型大多是分開進(jìn)行訓(xùn)練,沒有充分利用這兩個(gè)任務(wù)的協(xié)同作用。這主要是由于圖像生成和圖像識(shí)別的模型通常具有本質(zhì)上的結(jié)構(gòu)差異:圖像生成的輸入是低維度的特征或噪聲,而輸出是高維度的原始圖像;與之相反,圖像識(shí)別的輸入是高維度的原始圖像,而輸出是低維度的特征。

最近,來自 MIT 和 Google Research 的研究人員提出了一種基于圖像語義符掩碼的表征學(xué)習(xí)方法,首次在一個(gè)統(tǒng)一的框架中實(shí)現(xiàn)了圖像生成和表征學(xué)習(xí),并在多個(gè)數(shù)據(jù)集上取得了 SOTA 表現(xiàn)。研究論文已被 CVPR 2023 接收,相關(guān)代碼與預(yù)訓(xùn)練模型已開源。

圖片

  • 論文地址:https://arxiv.org/abs/2211.09117
  • 代碼地址:https://github.com/LTH14/mage

在 CVPR 2022 上,MAE [2] 提出了一種基于圖像掩碼(MIM)的表征學(xué)習(xí)方法,并在多個(gè)子任務(wù)上取得了非常好的效果。在高達(dá) 75% 的掩碼率下,MAE 可以重構(gòu)出與原圖語義十分貼合的圖像,并借此讓網(wǎng)絡(luò)能夠自監(jiān)督地學(xué)習(xí)圖像中的特征。然而,如圖 1 所示, MAE 重建的圖像雖然具有與原始圖像相似的語義信息,但會(huì)出現(xiàn)嚴(yán)重的模糊與失真問題。類似的問題也出現(xiàn)在所有基于 MIM 的表征學(xué)習(xí)方法中。同時(shí),目前的生成模型,不管是擴(kuò)散模型還是 GAN,都缺乏提取高質(zhì)量圖像特征的能力。

圖片

圖 1:MAE 與 MAGE 重構(gòu)對(duì)比

方法概述

針對(duì)上述問題,本文作者提出了 MAGE(Masked Generative Encoder),首次實(shí)現(xiàn)了統(tǒng)一的圖像生成和特征提取模型。與MIM直接作用于圖像的掩碼方法不同,MAGE 提出了基于圖像語義符的 masked image token modeling 方法。如圖所示,MAGE 首先使用 VQGAN [3] 編碼器將原始圖像轉(zhuǎn)換為離散的語義符。之后,MAGE 對(duì)其進(jìn)行隨機(jī)掩碼,并使用基于 transformer 的 encoder-decoder 結(jié)構(gòu)對(duì)掩碼進(jìn)行重構(gòu),重構(gòu)后的語義符可以通過 VQGAN 解碼器生成原始圖像。通過在訓(xùn)練中使用不同的掩碼率,MAGE 可以同時(shí)進(jìn)行生成模型(接近 100% 掩碼率)和表征學(xué)習(xí)(50%-80% 掩碼率)的訓(xùn)練。如圖 1 所示,MAGE 重建出的圖像不僅具有與原始圖像一致的語義信息,還能夠同時(shí)保證生成圖像的多樣性與真實(shí)性。

圖片


圖 2:MAGE 結(jié)構(gòu)圖

實(shí)驗(yàn)結(jié)果

MAGE 在多個(gè)圖像生成與圖像識(shí)別任務(wù)上都達(dá)到或超過了 SOTA。

圖片

在 ImageNet 的無監(jiān)督圖像生成任務(wù)中,MAGE 的 FID 從之前的 > 20 降至 7.04,甚至達(dá)到了有監(jiān)督圖像生成的水準(zhǔn)(有監(jiān)督 Latent Diffusion 在 ImageNet 上的 FID 為 3.60):

圖片

圖片

圖3:MAGE 無監(jiān)督圖像生成樣例

MAGE 還能夠進(jìn)行各類圖像編輯工作,包括 image inpainting、outpainting、uncropping:

圖片

圖片

圖片

圖片

圖 4:MAGE 圖像編輯樣例

在表征學(xué)習(xí)方面,MAGE 在 ImageNet linear probing、少樣本學(xué)習(xí)、遷移學(xué)習(xí)等任務(wù)中,相較于目前的 MIM 方法有了大幅提升,并且可以達(dá)到或超過目前最優(yōu)的自監(jiān)督學(xué)習(xí)方法的水平。

圖片

結(jié)語

本文旨在將圖像生成與表征學(xué)習(xí)統(tǒng)一起來。為此,本文作者提出了 MAGE,一種基于圖像語義符掩碼的自監(jiān)督學(xué)習(xí)框架。該框架簡(jiǎn)潔、高效,并首次在圖像生成和表征學(xué)習(xí)上都達(dá)到或超越了 SOTA 的表現(xiàn)。感興趣的讀者可以查看論文原文,以了解更多研究細(xì)節(jié)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-07-10 05:47:37

GAN無監(jiān)督表征學(xué)習(xí)機(jī)器學(xué)習(xí)

2021-09-10 16:24:00

框架AI開發(fā)

2021-12-31 14:11:20

框架AI開發(fā)

2018-04-23 14:49:31

表征句子深度學(xué)習(xí)自然語言

2021-12-01 10:05:12

模型人工智能計(jì)算

2023-02-07 13:57:18

量子數(shù)據(jù)

2022-12-18 19:49:45

AI

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2022-08-19 09:00:00

人工智能GANs生成模型

2025-04-10 11:52:55

2023-11-28 12:03:46

人工智能無監(jiān)督學(xué)習(xí)算法

2024-10-30 14:10:00

圖像生成模型

2020-11-11 09:00:00

機(jī)器學(xué)習(xí)技術(shù)人工智能

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2025-03-03 05:00:00

DiffUCD擴(kuò)散模型SOTA

2019-11-17 22:26:36

數(shù)據(jù)無監(jiān)督學(xué)習(xí)模型

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2020-12-16 16:21:06

谷歌架構(gòu)技術(shù)

2025-01-03 10:30:00

2024-06-28 09:15:31

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)