自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法 原創(chuàng)

發(fā)布于 2024-5-27 12:59
瀏覽
0收藏

上下文學(xué)習(xí)指的是模型在推斷時(shí)學(xué)習(xí)能力,而不需要調(diào)整其參數(shù)。模型(例如transformers)的輸入包括上下文(即實(shí)例-標(biāo)簽對(duì))和查詢實(shí)例(即提示)。然后,模型能夠根據(jù)上下文在推斷期間為查詢實(shí)例輸出一個(gè)標(biāo)簽。上下文學(xué)習(xí)的一個(gè)可能解釋是,(線性)transformers的前向傳播在上下文中實(shí)現(xiàn)了對(duì)實(shí)例-標(biāo)簽對(duì)的梯度下降迭代。在本文中,研究人員通過(guò)構(gòu)造證明了transformers在前向傳播中也能實(shí)現(xiàn)時(shí)間差異(TD)學(xué)習(xí),并將這一現(xiàn)象稱為上下文TD。在訓(xùn)練transformers使用多任務(wù)TD算法后展示了上下文TD的出現(xiàn),并進(jìn)行了理論分析。此外,研究人員證明了transformers具有足夠的表達(dá)能力,可以在前向傳播中實(shí)現(xiàn)許多其他策略評(píng)估算法,包括殘差梯度、帶有資格跟蹤的TD和平均獎(jiǎng)勵(lì)TD。

上下文學(xué)習(xí)已經(jīng)成為大型語(yǔ)言模型最顯著的能力之一。在上下文學(xué)習(xí)中,模型的輸入(即提示)包括上下文(即實(shí)例-標(biāo)簽對(duì))和一個(gè)查詢實(shí)例。然后,模型在推斷期間(即前向傳播)為查詢實(shí)例輸出一個(gè)標(biāo)簽。模型輸入和輸出的一個(gè)示例可以是:

Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法 -AI.x社區(qū)

其中,“5 → number; a → letter”是包含兩個(gè)實(shí)例-標(biāo)簽對(duì)的上下文,“6”是查詢實(shí)例。根據(jù)上下文,模型推斷查詢“6”的標(biāo)簽為“number”。值得注意的是,整個(gè)過(guò)程在模型的推斷時(shí)間內(nèi)完成,而不需要調(diào)整模型的參數(shù)。

在(1)中的示例說(shuō)明了一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。在經(jīng)典的機(jī)器學(xué)習(xí)框架中,這個(gè)監(jiān)督學(xué)習(xí)問(wèn)題通常通過(guò)首先基于上下文中的實(shí)例-標(biāo)簽對(duì)訓(xùn)練一個(gè)分類器來(lái)解決,使用諸如梯度下降之類的方法,然后要求分類器預(yù)測(cè)查詢實(shí)例的標(biāo)簽。值得注意的是,研究表明,transformers能夠在前向傳播中實(shí)現(xiàn)這個(gè)梯度下降訓(xùn)練過(guò)程,而不需要調(diào)整任何參數(shù),為上下文學(xué)習(xí)提供了一個(gè)可能的解釋。

超越監(jiān)督學(xué)習(xí),智能涉及到順序決策,其中強(qiáng)化學(xué)習(xí)已經(jīng)成為一個(gè)成功的范式。transformers在推斷期間能否執(zhí)行上下文RL,以及如何執(zhí)行?為了解決這些問(wèn)題,研究人員從馬爾可夫獎(jiǎng)勵(lì)過(guò)程MRP中的一個(gè)簡(jiǎn)單評(píng)估問(wèn)題開始。在MRP中,代理程序在每個(gè)時(shí)間步中從一個(gè)狀態(tài)轉(zhuǎn)換到另一個(gè)狀態(tài)。用(S0,S1,S2,...)表示代理訪問(wèn)的狀態(tài)序列。在每個(gè)狀態(tài)下,代理程序會(huì)接收到一個(gè)獎(jiǎng)勵(lì)。用(r(S0),r(S1),r(S2),...)表示代理程序在路途中接收到的獎(jiǎng)勵(lì)序列。評(píng)估問(wèn)題是估計(jì)值函數(shù)v,該函數(shù)計(jì)算每個(gè)狀態(tài)未來(lái)代理程序?qū)⑹盏降钠谕偅ㄕ劭郏┆?jiǎng)勵(lì)。所需的輸入輸出的一個(gè)示例可以是:

Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法 -AI.x社區(qū)

引人注目的是,上述任務(wù)與監(jiān)督學(xué)習(xí)根本不同,因?yàn)槟繕?biāo)是預(yù)測(cè)值v(s),而不是即時(shí)獎(jiǎng)勵(lì)r(s)。此外,查詢狀態(tài)s是任意的,不必是S3。時(shí)間差分學(xué)習(xí)TD是解決這類評(píng)估問(wèn)題(2)的最常用的RL算法。而且眾所周知,TD不是梯度下降。

在這項(xiàng)工作中,研究人員做出了三個(gè)主要貢獻(xiàn)。首先,通過(guò)構(gòu)造證明transformers具有足夠的表達(dá)能力來(lái)在前向傳播中實(shí)現(xiàn)TD,這一現(xiàn)象我們稱為上下文TD。換句話說(shuō),transformers能夠通過(guò)上下文TD在推斷時(shí)間內(nèi)解決問(wèn)題(2)。超越最直接的TD,transformers還可以實(shí)現(xiàn)許多其他策略評(píng)估算法,包括殘差梯度(Baird,1995)、帶有資格跟蹤的TD(Sutton,1988)和平均獎(jiǎng)勵(lì)TD(Tsitsiklis和Roy,1999)。特別地,為了實(shí)現(xiàn)平均獎(jiǎng)勵(lì)TD,transformers需要使用多頭注意力和過(guò)度參數(shù)化的提示,例如,

Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法 -AI.x社區(qū)

這里,“□”充當(dāng)一個(gè)虛擬占位符,在推斷期間transformers將使用它作為“記憶”。第二,通過(guò)在多個(gè)隨機(jī)生成的評(píng)估問(wèn)題上訓(xùn)練transformers與TD,實(shí)證地證明了在推斷中出現(xiàn)了上下文TD。換句話說(shuō),學(xué)習(xí)的transformer參數(shù)與我們?cè)谧C明中的構(gòu)造非常相符。將這種訓(xùn)練方案稱為多任務(wù)TD。第三,通過(guò)展示對(duì)于單層transformer,證明了實(shí)現(xiàn)上下文TD所需的transformer參數(shù)在多任務(wù)TD訓(xùn)練算法的不變集合的子集中,來(lái)彌合理論和實(shí)證結(jié)果之間的差距。

論文:https://arxiv.org/pdf/2405.13861


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/voNZDTww7E5ec1hUwulztw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦