自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度強(qiáng)化學(xué)習(xí):智能機(jī)器中的頭號(hào)玩家

人工智能
從小小菜鳥(niǎo)開(kāi)始,一路闖蕩,跌跌撞撞,最后成長(zhǎng)為一代巨俠!那么深度強(qiáng)化學(xué)習(xí)的原理是怎樣的呢?讓我們來(lái)一起看看吧。

Labs 導(dǎo)讀

你是否想象過(guò)機(jī)器人也可以成為游戲領(lǐng)域的超級(jí)高手?是時(shí)候讓你的幻想成為現(xiàn)實(shí),深度強(qiáng)化學(xué)習(xí)這位頭號(hào)玩家來(lái)啦!這是一個(gè)令人興奮又神秘的領(lǐng)域,簡(jiǎn)單來(lái)說(shuō),它就是讓計(jì)算機(jī)像人類一樣學(xué)習(xí)和玩游戲。深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過(guò)程就像是一場(chǎng)盛大的冒險(xiǎn),只不過(guò)主角不再是你,而是一臺(tái)智能機(jī)器。在這個(gè)冒險(xiǎn)的旅程中,機(jī)器會(huì)探索各種各樣的環(huán)境,在探索的過(guò)程中,機(jī)器需要學(xué)習(xí)如何在這個(gè)世界中生存,這個(gè)過(guò)程就像一段傳奇的武俠故事,從小小菜鳥(niǎo)開(kāi)始,一路闖蕩,跌跌撞撞,最后成長(zhǎng)為一代巨俠!那么深度強(qiáng)化學(xué)習(xí)的原理是怎樣的呢?讓我們來(lái)一起看看吧。

Part 01、 深度學(xué)習(xí) 

深度強(qiáng)化學(xué)習(xí)融合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),深度學(xué)習(xí)讓機(jī)器可以處理復(fù)雜的問(wèn)題。這就像是機(jī)器有了一個(gè)超級(jí)大腦,深度神經(jīng)網(wǎng)絡(luò)讓它可以處理更多的信息,并做出更聰明的決策。這樣一來(lái),機(jī)器可以在各種各樣的游戲中展現(xiàn)出驚人的技能,從圍棋、超級(jí)馬里奧到復(fù)雜的電子游戲,通通難不倒它。我們先來(lái)介紹一下深度學(xué)習(xí)。

深度學(xué)習(xí)是一種基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,其目的是通過(guò)多層神經(jīng)元的組合計(jì)算來(lái)挖掘樣本數(shù)據(jù)的潛在規(guī)律,實(shí)現(xiàn)高效的數(shù)據(jù)處理、數(shù)據(jù)識(shí)別、數(shù)據(jù)分類等任務(wù)。當(dāng)前常見(jiàn)的深度學(xué)習(xí)應(yīng)用領(lǐng)域有圖像識(shí)別、自然語(yǔ)言處理、深度強(qiáng)化學(xué)習(xí)等等。

深度神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的核心組成部分,它由多個(gè)神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò)層疊加而成,神經(jīng)網(wǎng)絡(luò)依據(jù)自身的狀態(tài)對(duì)外界輸入信息做出響應(yīng),實(shí)現(xiàn)對(duì)數(shù)據(jù)的智能處理。神經(jīng)元是深度神經(jīng)網(wǎng)絡(luò)中的基本單位,其設(shè)計(jì)模仿了自然界中的生物神經(jīng)元的工作機(jī)制:通過(guò)接收外界的刺激信號(hào)而興奮,內(nèi)部對(duì)信號(hào)進(jìn)行處理,之后將信號(hào)傳導(dǎo)到下一個(gè)神經(jīng)元。

圖1 神經(jīng)元模型圖

多個(gè)擁有輸入和輸出的神經(jīng)元組成一層神經(jīng)網(wǎng)絡(luò),多層神經(jīng)網(wǎng)絡(luò)疊加則構(gòu)成了深度神經(jīng)網(wǎng)絡(luò),與淺層神經(jīng)網(wǎng)絡(luò)相比,深度神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到更復(fù)雜的特征表示,并在許多任務(wù)上取得了更優(yōu)秀的性能。

圖2 深度神經(jīng)網(wǎng)絡(luò)模型圖

深度神經(jīng)網(wǎng)絡(luò)通常由多個(gè)層組成,在深度神經(jīng)網(wǎng)絡(luò)中,上一層網(wǎng)絡(luò)的輸出將作為下一層網(wǎng)絡(luò)的輸入,其中,接收外界輸入的網(wǎng)絡(luò)層被稱作輸入層,最終輸出結(jié)果的網(wǎng)絡(luò)層被稱作輸出層,剩余中間網(wǎng)絡(luò)層均被稱為隱含層。深度神經(jīng)網(wǎng)絡(luò)的層與層之間的連接形成了一張復(fù)雜的圖結(jié)構(gòu),稱為神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的層數(shù)越深,包含的可訓(xùn)練參數(shù)就越多,訓(xùn)練時(shí)的計(jì)算量就越大。

Part 02、  強(qiáng)化學(xué)習(xí)  

接下來(lái),我們介紹一下強(qiáng)化學(xué)習(xí)。

機(jī)器學(xué)習(xí)方法通常分為三類:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)中的一種重要類型,常用于處理連續(xù)決策問(wèn)題,不同于前兩種學(xué)習(xí)方式,強(qiáng)化學(xué)習(xí)更注重于從與環(huán)境的交互行為中學(xué)習(xí)并改進(jìn)自身策略。強(qiáng)化學(xué)習(xí)涉及到智能體(agent)和環(huán)境(environment)兩個(gè)概念,其中,智能體代表強(qiáng)化學(xué)習(xí)算法的交互實(shí)體,環(huán)境代表與智能體交互的外部環(huán)境模型。

圖3 強(qiáng)化學(xué)習(xí)概念圖

智能體的學(xué)習(xí)模式如圖3所示,首先,智能體觀測(cè)環(huán)境,獲取當(dāng)前的環(huán)境狀態(tài)State,然后通過(guò)自身當(dāng)前的策略制定行為Action并將其執(zhí)行。智能體的動(dòng)作會(huì)影響環(huán)境,環(huán)境會(huì)對(duì)該行為做出反饋,即給智能體一個(gè)即時(shí)獎(jiǎng)勵(lì)信號(hào)Reward,同時(shí)環(huán)境狀態(tài)發(fā)生改變,到達(dá)下一新?tīng)顟B(tài),智能體繼續(xù)觀測(cè)環(huán)境,獲取新的環(huán)境狀態(tài),繼而制定下一個(gè)行為。智能體反復(fù)迭代與環(huán)境之間的交互行為,根據(jù)層層反饋不斷改進(jìn)策略,以達(dá)到最大化累積獎(jiǎng)勵(lì)的探索目標(biāo)。

舉個(gè)例子,在智能機(jī)器的探索過(guò)程中,機(jī)器并不會(huì)被告知應(yīng)該怎么做,而是通過(guò)試錯(cuò)來(lái)使它學(xué)習(xí)。當(dāng)它嘗試一種行動(dòng),比如在超級(jí)馬里奧游戲中跳躍,它可能會(huì)得到積極的獎(jiǎng)勵(lì),比如得分增加;或者得到消極的獎(jiǎng)勵(lì),比如游戲角色受傷。通過(guò)不斷嘗試和反饋,機(jī)器逐漸學(xué)會(huì)了在不同情況下采取最優(yōu)的行動(dòng),就像我們?cè)诂F(xiàn)實(shí)生活中學(xué)習(xí)避免犯同樣的錯(cuò)誤一樣。

圖4 超級(jí)馬里奧游戲畫面

在強(qiáng)化學(xué)習(xí)中,為了避免過(guò)擬合和提高泛化能力,通常采用探索和利用的策略。探索策略是指在學(xué)習(xí)過(guò)程中,以一定的概率選擇未經(jīng)歷過(guò)的動(dòng)作,以便學(xué)習(xí)更加全面和深入的策略。利用策略是指在學(xué)習(xí)過(guò)程中,以一定的概率選擇已經(jīng)證明有效的動(dòng)作,以獲得更高的累積獎(jiǎng)勵(lì)。

Part 03、 深度強(qiáng)化學(xué)習(xí) 

接下來(lái),介紹我們的主角——深度強(qiáng)化學(xué)習(xí)。

深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的結(jié)合。借助于深度神經(jīng)網(wǎng)絡(luò)的計(jì)算優(yōu)勢(shì)和感知優(yōu)勢(shì),深度強(qiáng)化學(xué)習(xí)算法對(duì)具有復(fù)雜的高維狀態(tài)空間和高維動(dòng)作空間的環(huán)境的探索能力有了長(zhǎng)足進(jìn)步,對(duì)狀態(tài)價(jià)值和動(dòng)作價(jià)值的求解能力也得到顯著提升。深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可以接收高維輸入,在與環(huán)境的交互中學(xué)習(xí)最優(yōu)控制策略并輸出動(dòng)作,廣泛應(yīng)用于實(shí)時(shí)決策、智能機(jī)器人、游戲博弈等多個(gè)領(lǐng)域。

Deep-Q-Network(DQN)是深度強(qiáng)化學(xué)習(xí)領(lǐng)域里程碑式的算法,該算法由DeepMind在2013年提出,首次將深度學(xué)習(xí)方法與強(qiáng)化學(xué)習(xí)方法融合,開(kāi)辟了深度強(qiáng)化學(xué)習(xí)研究的先河。

DQN算法旨在解決傳統(tǒng)Q-learning算法在處理高維狀態(tài)空間時(shí)出現(xiàn)的問(wèn)題。

傳統(tǒng)Q-learning算法維護(hù)一張S-A表來(lái)記錄在每個(gè)狀態(tài)下采取每個(gè)動(dòng)作對(duì)應(yīng)的價(jià)值Q,通過(guò)查詢S-A表,智能體在每一個(gè)狀態(tài)下都選取具有最大價(jià)值的動(dòng)作,也就實(shí)現(xiàn)了智能體的最優(yōu)控制。

圖5 模擬S-A表示意圖

S-A表存在一定的局限性,其使用前提是S-A的組合為有限值,當(dāng)S-A組合無(wú)法窮舉時(shí),則無(wú)法通過(guò)查詢S-A表的方式選取最優(yōu)動(dòng)作,同時(shí),在S-A組合數(shù)量超出算力承受范圍時(shí),查詢Q表的復(fù)雜度也是極高的。

深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的擬合能力,DQN繼承了Q-learning的思想,但采用了深度神經(jīng)網(wǎng)絡(luò)來(lái)替代S-A表。

圖6 Q-Net

通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò),使其能根據(jù)狀態(tài)輸出對(duì)應(yīng)狀態(tài)下動(dòng)作的價(jià)值。模型的損失函數(shù):

圖片圖片

其中圖片為Q值的目標(biāo)值,損失函數(shù)表示了當(dāng)前估計(jì)Q值與目標(biāo)Q值之間的差距。通過(guò)使用梯度下降方法最小化損失函數(shù),來(lái)進(jìn)行對(duì)網(wǎng)絡(luò)的訓(xùn)練。

需要注意到,Q-Net在更新時(shí)參數(shù)發(fā)生變化,則圖片的值發(fā)生變化,但同時(shí)圖片的值也發(fā)生了變化,即模型追求的目標(biāo)Q值處于一種變化的狀態(tài),具有不穩(wěn)定性,以變動(dòng)的目標(biāo)值來(lái)訓(xùn)練網(wǎng)絡(luò)則導(dǎo)致估計(jì)值也陷入不穩(wěn)定的狀態(tài),因此DQN算法引入了另一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)Target-Net。Target-Net的網(wǎng)絡(luò)結(jié)構(gòu)與Q-Net完全相同,在訓(xùn)練過(guò)程中,DQN算法使用Target-Net來(lái)生成目標(biāo)Q值,而不是Q-Net。Target-Net保持穩(wěn)定的權(quán)重,使用Target-Net生成的目標(biāo)Q值來(lái)計(jì)算損失函數(shù),這可以有效解決目標(biāo)Q值的不穩(wěn)定性和發(fā)散問(wèn)題。Target-Net處于慢更新?tīng)顟B(tài),每隔一定的時(shí)間步,Target-Net使用Q-Net的參數(shù)來(lái)實(shí)現(xiàn)自身的更新:

圖片

其中圖片表示Target-Net的參數(shù),圖片表示Q-Net的參數(shù),圖片參數(shù)用來(lái)調(diào)整更新幅度。

DQN算法在Atari游戲中取得了優(yōu)異的表現(xiàn),它的成功也促進(jìn)了更多深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)融合研究的發(fā)展。

Part 04、深度強(qiáng)化學(xué)習(xí)的經(jīng)驗(yàn)回放機(jī)制 

深度強(qiáng)化學(xué)習(xí)智能體的交互行為可以用四元組圖片來(lái)記錄,其中s為t時(shí)刻的環(huán)境狀態(tài),a為t時(shí)刻的智能體動(dòng)作,r為t時(shí)刻的獎(jiǎng)勵(lì),圖片為t+1時(shí)刻的環(huán)境狀態(tài)。通過(guò)對(duì)該交互記錄進(jìn)行計(jì)算,可以得到損失函數(shù)用于訓(xùn)練網(wǎng)絡(luò)。

傳統(tǒng)的Q-learning算法使用的是在線更新方式,每次訓(xùn)練都只使用當(dāng)前的交互記錄,訓(xùn)練結(jié)束后就會(huì)丟棄該條交互記錄,繼續(xù)采集新記錄,這種方式更新較慢。事實(shí)上,模型每次采集的記錄可以重復(fù)使用。通過(guò)使用一個(gè)經(jīng)驗(yàn)回放池來(lái)存儲(chǔ)智能體交互產(chǎn)生的記錄樣本,然后從經(jīng)驗(yàn)回放池批量采集經(jīng)驗(yàn)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,可以增加樣本的利用率,減少采樣壓力。在實(shí)際應(yīng)用中,要當(dāng)經(jīng)驗(yàn)回放池中存儲(chǔ)了足夠數(shù)量的經(jīng)驗(yàn)后才會(huì)開(kāi)始采樣并更新網(wǎng)絡(luò),當(dāng)經(jīng)驗(yàn)回放池的容量達(dá)到上限時(shí),每存進(jìn)一條新樣本,就會(huì)以先進(jìn)先出的方式刪除最早進(jìn)入經(jīng)驗(yàn)池的一條樣本。

同時(shí),在一些連續(xù)場(chǎng)景如游戲場(chǎng)景中,當(dāng)前的畫面狀態(tài)與下一時(shí)刻的畫面狀態(tài)會(huì)比較接近,導(dǎo)致兩個(gè)相鄰的樣本間據(jù)有很強(qiáng)的相關(guān)性,如果對(duì)樣本進(jìn)行順序采樣,則可能導(dǎo)致網(wǎng)絡(luò)更新過(guò)擬合。所以經(jīng)驗(yàn)回放池在設(shè)計(jì)上采用了隨機(jī)抽樣的方式,降低采樣結(jié)果之間的關(guān)聯(lián),該隨機(jī)采樣方式可以提升模型訓(xùn)練的效果。

Part 05、  總結(jié)  

近年來(lái),深度強(qiáng)化學(xué)習(xí)像一顆新星冉冉升起,迎來(lái)了研究的熱潮,同時(shí)研究的成果也被各大主流媒體爭(zhēng)相報(bào)道,比如擊敗人類圍棋世界冠軍的AlphaGo、擊敗DOTA2世界冠軍戰(zhàn)隊(duì)的OpenAI Five、擊敗KPL頂尖戰(zhàn)隊(duì)的騰訊AI-絕悟等等,深度強(qiáng)化學(xué)習(xí)展現(xiàn)出了越來(lái)越令人驚奇的潛力。

當(dāng)然,深度強(qiáng)化學(xué)習(xí)不僅僅局限于應(yīng)用在游戲領(lǐng)域,它在許多領(lǐng)域都有著應(yīng)用潛力,比如自動(dòng)駕駛、金融交易和醫(yī)療保健等領(lǐng)域,就連當(dāng)下大放異彩的ChatGPT也應(yīng)用了深度強(qiáng)化學(xué)習(xí)。

深度強(qiáng)化學(xué)習(xí)不僅是讓機(jī)器變得更智能,更重要的是,它讓科技變得更加有趣和有益。讓我們期待未來(lái),看看深度強(qiáng)化學(xué)習(xí)會(huì)帶給我們?cè)鯓拥捏@喜吧!

責(zé)任編輯:龐桂玉 來(lái)源: 移動(dòng)Labs
相關(guān)推薦

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2022-03-25 10:35:20

機(jī)器學(xué)習(xí)深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2021-02-02 10:08:17

AI深度強(qiáng)化學(xué)習(xí)智能城市

2020-05-12 07:00:00

深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2023-08-28 06:52:29

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)DQN

2017-02-20 16:35:10

人工智能算法強(qiáng)化學(xué)習(xí)

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-01-26 08:31:49

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2024-11-29 16:33:24

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2021-03-30 13:45:00

人工智能

2025-01-03 11:46:31

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)