自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

擴(kuò)散模型攻克算法難題，AGI不遠(yuǎn)了！谷歌大腦找到迷宮最短路徑

作者：新智元 2024-04-02 11:37:59

GAN、VAE、大型自回歸神經(jīng)網(wǎng)絡(luò)模型、歸一化流等方法，在樣本質(zhì)量、采樣速度、對(duì)數(shù)似然，以及訓(xùn)練穩(wěn)定性方面都各有千秋。

「擴(kuò)散模型」也能攻克算法難題？

圖片

一位博士研究人員做了一個(gè)有趣的實(shí)驗(yàn)，用「離散擴(kuò)散」尋找用圖像表示的迷宮中的最短路徑。

圖片

作者介紹，每個(gè)迷宮都是通過(guò)反復(fù)添加水平和垂直墻生成的。

其中，起始點(diǎn)和目標(biāo)點(diǎn)隨機(jī)選取。

從起點(diǎn)到目標(biāo)點(diǎn)的最短路徑中，隨機(jī)采樣一條作為解決方案的路徑。最短路徑是通過(guò)精確算法算出來(lái)的。

圖片

然后使用離散擴(kuò)散模型和U-Net。

將起點(diǎn)和目標(biāo)的迷宮被編碼在一個(gè)通道中，而模型在另一個(gè)通道中用解來(lái)消除迷宮的噪聲。

圖片

再難一點(diǎn)的迷宮，也能做的很好。

圖片

為了估算去噪步驟 p(x_{t-1} | x_t)，算法會(huì)估算 p(x_0 | x_t)。在這個(gè)過(guò)程中可視化這一估計(jì)值（底行），顯示「當(dāng)前假設(shè)」，最終聚焦在結(jié)果上。

圖片

英偉達(dá)高級(jí)科學(xué)家Jim Fan表示，這是一個(gè)有趣的實(shí)驗(yàn)，擴(kuò)散模型可以「渲染」算法。它可以?xún)H從像素實(shí)現(xiàn)迷宮遍歷，甚至使用了比Transforme弱得多的U-Net。

我一直認(rèn)為擴(kuò)散模型是渲染器，而Transformer是推理引擎?？雌饋?lái)，渲染器本身也可以編碼非常復(fù)雜的順序算法。

圖片

這個(gè)實(shí)驗(yàn)簡(jiǎn)直驚呆了網(wǎng)友，「擴(kuò)散模型還能做什么？！」

圖片

還有人表示，一旦有人在足夠好的數(shù)據(jù)集上訓(xùn)練擴(kuò)散Transformer，AGI就解決了。

圖片

不過(guò)這項(xiàng)研究還未正式發(fā)布，作者表示稍后更新在arxiv上。

值得一提的是，這個(gè)實(shí)驗(yàn)中，他們采用了谷歌大腦團(tuán)隊(duì)曾在2021年提出的離散擴(kuò)散模型。

圖片

就在最近，這項(xiàng)研究重新更新了一版。

離散擴(kuò)散模型

「生成模型」是機(jī)器學(xué)習(xí)中的核心問(wèn)題。

它既可用于衡量我們捕獲自然數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)的能力，也可用于需要生成圖像、文本和語(yǔ)音等高維數(shù)據(jù)的下游應(yīng)用程序。

GAN、VAE、大型自回歸神經(jīng)網(wǎng)絡(luò)模型、歸一化流等方法，在樣本質(zhì)量、采樣速度、對(duì)數(shù)似然，以及訓(xùn)練穩(wěn)定性方面都各有千秋。

最近，「擴(kuò)散模型」已成為圖像、音頻生成，最受歡迎的替代方案。

它可以用更少的推理步驟，實(shí)現(xiàn)了與GAN相當(dāng)?shù)臉颖举|(zhì)量，以及與自回歸模型相當(dāng)?shù)膶?duì)數(shù)似然。

圖片

論文地址：https://arxiv.org/pdf/2107.03006.pdf

雖然已有人提出了離散和連續(xù)狀態(tài)空間的擴(kuò)散模型，但最近的研究主要集中在，連續(xù)狀態(tài)空間中運(yùn)行的高斯擴(kuò)散過(guò)程（如實(shí)值圖像和波形數(shù)據(jù)）。

離散狀態(tài)空間的擴(kuò)散模型，已在文本和圖像分割領(lǐng)域進(jìn)行了探索，但是還沒(méi)有在文本和圖像的大規(guī)模生成任務(wù)中，證明是一個(gè)有競(jìng)爭(zhēng)力的模型。

谷歌研究團(tuán)隊(duì)提出了一種全新的離散去噪擴(kuò)散概率模型（D3PM）。

研究中，作者證明了過(guò)度矩陣的選擇是一個(gè)重要的設(shè)計(jì)決策，它能改善圖像和文本領(lǐng)域的結(jié)果。

此外，他們還提出了一種新的損失函數(shù)，它結(jié)合了變分下界和輔助的交叉熵?fù)p失。

在文本方面，這個(gè)模型在字符級(jí)文本生成方面取得了很好的效果，同時(shí)可以擴(kuò)展到大詞匯量的LM1B數(shù)據(jù)集上。

在CIFAR-10圖像數(shù)據(jù)集上，最新模型接近了連續(xù)空間DDPM模型的樣本質(zhì)量，并超過(guò)了連續(xù)空間 DDPM 模型的對(duì)數(shù)似然。

圖片

項(xiàng)目作者

Arnaud Pannatier

Arnaud Pannatier從2020年3月在導(dǎo)師Fran?ois Fleuret的機(jī)器學(xué)習(xí)小組開(kāi)始攻讀博士學(xué)位。

他最近開(kāi)發(fā)了HyperMixer，使用超級(jí)網(wǎng)絡(luò)讓MLPMixer能夠處理各種長(zhǎng)度輸入。這使得模型能夠以一種排列不變的方式處理輸入，并證明了它給了模型一種隨著輸入長(zhǎng)度線性擴(kuò)展的注意力行為。

在EPFL，他先后獲得了物理學(xué)學(xué)士學(xué)位和計(jì)算機(jī)科學(xué)與工程碩士學(xué)位（CSE-MASH）。

參考資料：

https://arxiv.org/pdf/2107.03006.pdf

https://x.com/DrJimFan/status/1762888644933902681?s=20

責(zé)任編輯：武曉燕來(lái)源：新智元

AGI 網(wǎng)絡(luò)模型 GAN

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="1angq"><track id="1angq"></track></legend>

<p id="1angq"></p>

<sub id="1angq"></sub>

<tfoot id="1angq"></tfoot>

<cite id="1angq"></cite>