自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

新聞 深度學(xué)習(xí)
近日,一篇名為《GFlowNet Foundations》的論文引發(fā)了人們的關(guān)注,這是一篇圖靈獎(jiǎng)得主 Yoshua Bengio 一作的新研究,論文長(zhǎng)達(dá) 70 頁。

 近日,一篇名為《GFlowNet Foundations》的論文引發(fā)了人們的關(guān)注,這是一篇圖靈獎(jiǎng)得主 Yoshua Bengio 一作的新研究,論文長(zhǎng)達(dá) 70 頁。

在 Geoffrey Hinton 的「膠囊網(wǎng)絡(luò)」之后,深度學(xué)習(xí)的另一個(gè)巨頭 Bengio 也對(duì) AI 領(lǐng)域未來的方向提出了自己的想法。在該研究中,作者提出了名為「生成流網(wǎng)絡(luò)」(Generative Flow Networks,GFlowNets)的重要概念。

[[436303]]

GFlowNets 靈感來源于信息在時(shí)序差分 RL 方法中的傳播方式(Sutton 和 Barto,2018 年)。兩者都依賴于 credit assignment 一致性原則,它們只有在訓(xùn)練收斂時(shí)才能實(shí)現(xiàn)漸近。由于狀態(tài)空間中的路徑數(shù)量呈指數(shù)級(jí)增長(zhǎng),因此實(shí)現(xiàn)梯度的精確計(jì)算比較困難,因此,這兩種方法都依賴于不同組件之間的局部一致性和一個(gè)訓(xùn)練目標(biāo),即如果所有學(xué)習(xí)的組件相互之間都是局部一致性的,那么我們就得到了一個(gè)系統(tǒng),該系統(tǒng)可以進(jìn)行全局估計(jì)。

至于 GFlowNets 作用,論文作者之一 Emmanuel Bengio 也給出了一些回答:「我們可以用 GFlowNets 做很多事情:對(duì)集合和圖進(jìn)行一般概率運(yùn)算,例如可以處理較難的邊緣化問題,估計(jì)配分函數(shù)和自由能,計(jì)算給定子集的超集條件概率,估計(jì)熵、互信息等?!?/p>

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

本文為主動(dòng)學(xué)習(xí)場(chǎng)景提供了形式化理論基礎(chǔ)和理論結(jié)果集的擴(kuò)展,同時(shí)也為主動(dòng)學(xué)習(xí)場(chǎng)景提供了更廣泛的方式。GFlowNets 的特性使其非常適合從集合和圖的分布中建模和采樣,估計(jì)自由能和邊緣分布,并用于從數(shù)據(jù)中學(xué)習(xí)能量函數(shù)作為馬爾可夫鏈蒙特卡洛(Monte-Carlo Markov chains,MCMC)一個(gè)可學(xué)習(xí)的、可分?jǐn)偅╝mortized)的替代方案。

GFlowNets 的關(guān)鍵特性是其學(xué)習(xí)了一個(gè)策略,該策略通過幾個(gè)步驟對(duì)復(fù)合對(duì)象 s 進(jìn)行采樣,這樣使得對(duì)對(duì)象 s 進(jìn)行采樣的概率 P_T (s) 與應(yīng)用于該對(duì)象的給定獎(jiǎng)勵(lì)函數(shù)的值 R(s) 近似成正比。一個(gè)典型的例子是從正例數(shù)據(jù)集訓(xùn)練一個(gè)生成模型,GFlowNets 通過訓(xùn)練來匹配給定的能量函數(shù),并將其轉(zhuǎn)換為一個(gè)采樣器,我們將其視為生成策略,因?yàn)閺?fù)合對(duì)象 s 是通過一系列步驟構(gòu)造的。這類似于 MCMC 方法的實(shí)現(xiàn),不同的是,GFlowNets 不需要在此類對(duì)象空間中進(jìn)行冗長(zhǎng)的隨機(jī)搜索,從而避免了 MCMC 方法難以處理模式混合的難題。GFlowNets 將這一難題轉(zhuǎn)化為生成策略的分?jǐn)傆?xùn)練(amortized training)來處理。

本文的一個(gè)重要貢獻(xiàn)是條件 GFlowNet 的概念,可用于計(jì)算不同類型(例如集合和圖)聯(lián)合分布上的自由能。這種邊緣化還可以估計(jì)熵、條件熵和互信息。GFlowNets 還可以泛化,用來估計(jì)與豐富結(jié)果 (而不是一個(gè)純量獎(jiǎng)勵(lì)函數(shù)) 相對(duì)應(yīng)的多個(gè)流,這類似于分布式強(qiáng)化學(xué)習(xí)。

本文對(duì)原始 GFlowNet (Bengio 等人,2021 年)的理論進(jìn)行了擴(kuò)展,包括計(jì)算變量子集邊緣概率的公式(或自由能公式),該公式現(xiàn)在可以用于更大集合的子集或子圖 ;GFlowNet 在估計(jì)熵和互信息方面的應(yīng)用;以及引入無監(jiān)督形式的 GFlowNet(訓(xùn)練時(shí)不需要獎(jiǎng)勵(lì)函數(shù),只需要觀察結(jié)果)可以從帕累托邊界進(jìn)行采樣。

盡管基本的 GFlowNets 更類似于 bandits 算法(因?yàn)楠?jiǎng)勵(lì)僅在一系列動(dòng)作的末尾提供),但 GFlowNets 可以通過擴(kuò)展來考慮中間獎(jiǎng)勵(lì),并根據(jù)回報(bào)進(jìn)行采樣。GFlowNet 的原始公式也僅限于離散和確定性環(huán)境,而本文建議如何解除這兩種限制。最后,雖然 GFlowNets 的基本公式假設(shè)了給定的獎(jiǎng)勵(lì)或能量函數(shù),但本文考慮了 GFlowNet 如何與能量函數(shù)進(jìn)行聯(lián)合學(xué)習(xí),為新穎的基于能量的建模方法、能量函數(shù)和 GFlowNet 的模塊化結(jié)構(gòu)打開了大門。

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

論文地址:https://arxiv.org/pdf/2111.09266.pdf

機(jī)器之心對(duì)這篇論文的主要章節(jié)做了簡(jiǎn)單介紹,更多細(xì)節(jié)內(nèi)容請(qǐng)參考原論文。

GFlowNets:學(xué)習(xí)流(flow)

研究者充分考慮了 Bengio et al. (2021)中引入的一般性問題,在這些問題中給出了一些關(guān)于流的約束或偏好。研究者的目標(biāo)是使用估計(jì)量 Fˆ(s)和 Pˆ(s→s'|s)找到最能匹配需求的函數(shù),如狀態(tài)流函數(shù) F(s)或轉(zhuǎn)移概率函數(shù) P(s→s' |s),這些可能不符合 proper flow。因此,他們將這類學(xué)習(xí)機(jī)器稱為 Generative Flow Networks(簡(jiǎn)稱為 GFlowNets)。

GFlowNets 的定義如下:

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

需要注意的是,GFlowNet 的狀態(tài)空間(state-space)可以輕松修改以適應(yīng)底層狀態(tài)空間,其中轉(zhuǎn)換(transition)不會(huì)形成有向無環(huán)圖(directed acyclic graph, DAG)。

對(duì)于從終端流(Terminal Flow)估計(jì)轉(zhuǎn)換概率,在 Bengio et al. (2021)的設(shè)置中, 研究者得到了與「作為狀態(tài)確定性函數(shù)的終端獎(jiǎng)勵(lì)函數(shù) R 」相對(duì)應(yīng)的終端流:

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

這樣一來就可以擴(kuò)展框架并以各種方式處理隨機(jī)獎(jiǎng)勵(lì)。

GFlowNets 可以作為 MCMC Sampling 的替代方案。GFlowNet 方法分?jǐn)偳捌谟?jì)算以訓(xùn)練生成器,為每個(gè)新樣本產(chǎn)生非常有效的計(jì)算(構(gòu)建單個(gè)配置,不需要鏈)。

流匹配和詳細(xì)的平衡損失。為了訓(xùn)練 GFlowNet,研究者需要構(gòu)建一個(gè)訓(xùn)練流程,該流程可以隱式地強(qiáng)制執(zhí)行約束和偏好。他們將流匹配(flow-matching)或細(xì)致平衡條件(detailed balance condition)轉(zhuǎn)換為可用的損失函數(shù)。

對(duì)于獎(jiǎng)勵(lì)函數(shù),研究者考慮了「獎(jiǎng)勵(lì)是隨機(jī)而不是狀態(tài)確定性函數(shù)」的設(shè)置。如果有一個(gè)像公式 44 中的獎(jiǎng)勵(lì)匹配損失,則終端流 F(s→s_f)的有效目標(biāo)是預(yù)期獎(jiǎng)勵(lì) E_R[R(s),因?yàn)檫@是給定 s 時(shí)最小化 R(s)上預(yù)期損失的值。

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

如果有一個(gè)像公式 43 中的獎(jiǎng)勵(lì)匹配損失,終端流 log F(s→s_f)的 log 有效目標(biāo)是 log-reward E_R[log R(s)]的預(yù)期值。這表明了使用獎(jiǎng)勵(lì)匹配損失時(shí),GFlowNets 可以泛化至匹配隨機(jī)獎(jiǎng)勵(lì)。

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

此外,GFlowNets 可以像離線強(qiáng)化學(xué)習(xí)一樣離線訓(xùn)練。對(duì)于 GFlowNets 中的直接信用分配(Direct Credit Assignment),研究者認(rèn)為可以將使用 GFlowNet 采樣軌跡的過程等同于在隨機(jī)循環(huán)神經(jīng)網(wǎng)絡(luò)中采樣狀態(tài)序列。讓事情變得更復(fù)雜的原因有兩個(gè),其一這類神經(jīng)網(wǎng)絡(luò)不直接輸出與某個(gè)目標(biāo)匹配的預(yù)測(cè),其二狀態(tài)可能是離散(或者離散和連續(xù)共存)的。

條件流和自由能

本章主要介紹了條件流(Conditional flows)和自由能(Free energies)。

流的一個(gè)顯著特性是:如果滿足細(xì)致平衡或流匹配條件,則可以從初始狀態(tài)流 F(s_0) 恢復(fù)歸一化常數(shù) Z(推論 3)。Z 還提供了與指定了終端轉(zhuǎn)換流的給定終端獎(jiǎng)勵(lì)函數(shù) R 相關(guān)聯(lián)的配分函數(shù)(partition function)。下圖展示了如何條件化 GFlowNet,給定狀態(tài) s,考慮通過原始流(左)和轉(zhuǎn)移流來創(chuàng)建一組新的流(右)。

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

自由能是與能量函數(shù)相關(guān)的邊緣化操作(即對(duì)大量項(xiàng)求和)的通用公式。研究者發(fā)現(xiàn)對(duì)自由能的估計(jì)為有趣的應(yīng)用打開了大門,以往成本高昂的馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC)通常是主要方法。

自由能 F(s)的狀態(tài)定義如下:

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

如何估計(jì)自由能呢?讓我們考慮條件式 GFlowNet 的一種特殊情況,它允許網(wǎng)絡(luò)估計(jì)自由能 F(s)。為此,研究者提議訓(xùn)練一個(gè)條件式 GFlowNet,其中條件輸入 x 是軌跡中較早的狀態(tài) s。

狀態(tài)條件式 GFlowNet 的定義如下,并且將 F(s|s)定義為 conditional state self-flow。

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

研究者表示,使用 GFlowNet 可以訓(xùn)練基于能量的模型。具體地,GFlowNet 被訓(xùn)練用于將能量函數(shù)轉(zhuǎn)換為逼近對(duì)應(yīng)的采樣器。因此,GFlowNet 可以用作 MCMC 采樣的替代方法。

此外,GFlowNet 還可用于主動(dòng)學(xué)習(xí)。Bengio et al. (2021)使用的主動(dòng)學(xué)習(xí)方案中,GFlowNet 被用于對(duì)候選 x 進(jìn)行采樣,其中研究者預(yù)計(jì)獎(jiǎng)勵(lì) R(x)通常很大,這是因?yàn)?GFlowNet 與 R(x)成比例地采樣。

多流、分布式 GFlowNets、無監(jiān)督 GFlowNets 和帕累托 GFlowNets

與分布式強(qiáng)化學(xué)習(xí)類似,非常有趣的一點(diǎn)是,泛化 GFlowNets 不僅可以捕獲可實(shí)現(xiàn)的最終獎(jiǎng)勵(lì)的預(yù)期值,還能得到其他分布式統(tǒng)計(jì)數(shù)據(jù)。更一般地講,GFlowNets 可以被想象成一個(gè)族(family),其中每一個(gè)都可以在自身流中對(duì)感興趣的特定的未來環(huán)境結(jié)果進(jìn)行建模。

下圖為以結(jié)果為條件的(outcome-conditioned)GFlowNet 的定義:

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

在實(shí)踐中,GFlowNet 永遠(yuǎn)無法完美地訓(xùn)練完成,因此應(yīng)當(dāng)將這種以結(jié)果為條件的 GFlowNet 與強(qiáng)化學(xué)習(xí)中以目標(biāo)為條件的策略或者獎(jiǎng)勵(lì)條件顛倒的強(qiáng)化學(xué)習(xí)(upside-down RL)同等看待。未來更是可以將這些以結(jié)果為條件的 GFlowNets 擴(kuò)展到隨機(jī)獎(jiǎng)勵(lì)或隨機(jī)環(huán)境中。

此外,訓(xùn)練一個(gè)以結(jié)果為條件的 GFlowNet 只能離線完成,因?yàn)闂l件輸入(如最終返回)可能只有在軌跡被采樣后才能知道。

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

論文的完整目錄如下:

70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域
70頁論文,圖靈獎(jiǎng)得主Yoshua Bengio:生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2019-10-15 05:15:00

深度學(xué)習(xí)人工智能AI

2024-10-14 13:45:00

AI模型

2021-02-25 15:40:21

深度學(xué)習(xí)編程人工智能

2021-06-04 15:39:03

深度學(xué)習(xí)編程人工智能

2020-12-23 15:26:48

AI 數(shù)據(jù)人工智能

2023-04-04 14:24:25

深度學(xué)習(xí)技術(shù)

2023-10-30 17:14:59

AI模型

2021-07-21 16:56:33

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-04-29 14:15:10

AI 機(jī)器學(xué)習(xí)圖靈獎(jiǎng)

2023-05-25 14:05:48

圖靈論文

2021-09-23 09:35:00

編程技能開發(fā)

2022-10-17 15:04:40

量子計(jì)算

2023-08-22 14:06:27

AI智能

2021-09-02 16:10:21

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-06-20 09:00:00

深度學(xué)習(xí)人工智能研究

2020-07-31 09:42:18

AI 數(shù)據(jù)人工智能

2022-11-02 13:50:15

深度學(xué)習(xí)系統(tǒng)

2022-12-02 15:19:16

深度學(xué)習(xí)算法

2011-03-03 21:12:47

圖靈獎(jiǎng)人才

2012-11-23 09:42:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)