自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

狂攬4k star,AI通過強(qiáng)化學(xué)習(xí)玩寶可夢(mèng),兩萬場(chǎng)后成功拿下

人工智能 新聞
一開始,AI 沒有任何的知識(shí)和經(jīng)驗(yàn),只能夠隨機(jī)按下按鈕。但在五年的模擬游戲時(shí)間里,它在經(jīng)歷中習(xí)得了更多能力。最終,AI 能夠抓住寶可夢(mèng),進(jìn)化它們,并擊敗了健身房的領(lǐng)導(dǎo)者。

圖片

是不是說起「口袋妖怪」,你就不困了?

「口袋妖怪」是「寶可夢(mèng)」的非官方譯名。從 1996 年至今,它可以被分為數(shù)個(gè)世代,成為很多玩家心中的經(jīng)典之作。游戲畫風(fēng)簡(jiǎn)單,但是身為策略游戲,其中包含的角色、屬性、戰(zhàn)術(shù)、體系等讓這個(gè)游戲入門容易精通難。

如果訓(xùn)練 AI 來玩寶可夢(mèng),你覺得它的實(shí)力如何?

推特用戶 @computerender 用強(qiáng)化學(xué)習(xí)訓(xùn)練 AI 玩起了寶可夢(mèng)。他也通過視頻記錄了這一過程,不僅生動(dòng)地展示了訓(xùn)練過程,還詳盡地介紹了其中的方法。

圖片


  • 項(xiàng)目地址:https://github.com/PWhiddy/PokemonRedExperiments
  • 視頻地址:https://www.youtube.com/watch?v=DcYLT37ImBY

當(dāng)你打開視頻,就能觀看兩萬場(chǎng) AI 玩的《寶可夢(mèng)?紅》。一開始,AI 沒有任何的知識(shí)和經(jīng)驗(yàn),只能夠隨機(jī)按下按鈕。但在五年的模擬游戲時(shí)間里,它在經(jīng)歷中習(xí)得了更多能力。最終,AI 能夠抓住寶可夢(mèng),進(jìn)化它們,并擊敗了健身房的領(lǐng)導(dǎo)者。

那么這是怎么做到的呢?

最基礎(chǔ)的目標(biāo)是讓 AI 去探索地圖。作者所使用的方法是在 AI 到達(dá)新位置時(shí)給予獎(jiǎng)勵(lì)。

圖片

作者記錄 AI 在玩游戲時(shí)看到的每個(gè)屏幕并將當(dāng)前屏幕與記錄中的所有屏幕進(jìn)行比較,看看是否有接近的匹配。如果沒有找到匹配,這意味著 AI 發(fā)現(xiàn)了一些新東西。在此情況下,作者將給它一個(gè)獎(jiǎng)勵(lì),并將新屏幕添加到記錄中。獨(dú)特屏幕帶來的獎(jiǎng)勵(lì)可以鼓勵(lì)它繼續(xù)尋找游戲的新部分。

圖片

經(jīng)過幾次迭代之后,AI 能更快的走出初始房間。但在這過程中,作者發(fā)現(xiàn)了隨著探索越來越多,AI 卻會(huì)被「困」在某處。這是因?yàn)樵搱?chǎng)景中有草、水、隨意走動(dòng)的 NPC,這會(huì)更容易觸發(fā)新場(chǎng)景產(chǎn)生。作者通過改變畫面差異的像素閾值來進(jìn)行改進(jìn)。

除此之外,AI 還遇到了戰(zhàn)斗畫面大致相同,無法得到獎(jiǎng)勵(lì)而逃離的行為。但是不戰(zhàn)斗,就無法前進(jìn)。最后,作者通過增加額外獎(jiǎng)勵(lì)來保持 AI 的前進(jìn)。

圖片

戰(zhàn)斗畫面相似性較高

圖片

增加額外關(guān)卡獎(jiǎng)勵(lì)

當(dāng)然,AI 在這個(gè)過程中遇到的問題遠(yuǎn)多于此。

當(dāng)寶可夢(mèng)戰(zhàn)斗的時(shí)間很長(zhǎng),其默認(rèn)行動(dòng)被耗盡時(shí),它似乎會(huì)卡住,在多次訓(xùn)練迭代之后,才有了實(shí)質(zhì)性的改進(jìn)。作者發(fā)現(xiàn),在看到一只鴿子第一次參與進(jìn)來后,它終于知道當(dāng)一個(gè)移動(dòng)耗盡時(shí)該做什么,并能夠切換到另一個(gè)替代移動(dòng)。

圖片

就當(dāng)一切順利時(shí),作者發(fā)現(xiàn)了一個(gè)關(guān)鍵問題。AI 會(huì)直接投入戰(zhàn)斗,即使是那些它無法獲勝的戰(zhàn)斗。并且,它從不去寶可夢(mèng)中心治療,這意味著當(dāng)它輸了,它會(huì)一直回到游戲的開始。

圖片

作者試圖使用輸?shù)魬?zhàn)斗就減去獎(jiǎng)勵(lì)來改進(jìn),但是沒有效果。當(dāng) AI 即將失敗時(shí),它沒有避免艱難的戰(zhàn)斗,而是拒絕按下按鈕繼續(xù)無限期地拖延。這在技術(shù)上滿足了目標(biāo),但不是作者想要的。

作者在細(xì)致地觀察后發(fā)現(xiàn),在一些罕見的情況下會(huì)造成巨大的獎(jiǎng)勵(lì)減扣。一直以來,AI 都會(huì)在一場(chǎng)游戲中扣除比預(yù)期多 10 倍的獎(jiǎng)勵(lì)。作者在回顧時(shí)發(fā)現(xiàn),AI 寶可夢(mèng)中心,在角落里的電腦前徘徊。登錄并漫無目的地按了一會(huì)兒按鈕后,它將一只寶可夢(mèng)存入了系統(tǒng),隨即大量獎(jiǎng)勵(lì)就流失了。這是因?yàn)楠?jiǎng)勵(lì)是根據(jù)寶可夢(mèng)的等級(jí)總和分配的。因此,存入一只 13 級(jí)的寶可夢(mèng)就會(huì)立即損失 13 分。這會(huì)發(fā)出強(qiáng)烈的負(fù)面信號(hào),給 AI 造成類似創(chuàng)傷的體驗(yàn)。AI 不像人類那樣有情感,但一個(gè)具有極端獎(jiǎng)勵(lì)價(jià)值的事件仍會(huì)對(duì)它的行為產(chǎn)生持久的影響。在這種情況下,僅僅失去一次寶可夢(mèng)就足以讓 AI 對(duì)整個(gè)寶可夢(mèng)中心形成負(fù)面聯(lián)想,從而在今后的游戲中完全避開它。為了解決這個(gè)問題,作者再次修改獎(jiǎng)勵(lì)函數(shù),只有當(dāng)?shù)燃?jí)增加時(shí)才給予獎(jiǎng)勵(lì)。這似乎解決了問題。重新啟動(dòng)訓(xùn)練后,AI 開始訪問寶可夢(mèng)中心。

圖片

當(dāng)它到達(dá)了寶可夢(mèng)中心內(nèi)的月亮山入口。在這里,一個(gè)男人會(huì)以 500 元的價(jià)格賣給你一條魔法鯉魚。魔法鯉魚在短期內(nèi)一點(diǎn)幫助都沒有,所以你可能會(huì)認(rèn)為 AI 不會(huì)對(duì)此感興趣。然而,購買它是獲得 5 級(jí)的超級(jí)簡(jiǎn)單方法。所以 AI 每次都買。在所有的游戲中,它總共購買了超過 10000 個(gè)魔法碳水化合物。

圖片

作者將 AI 行為與人類類比

作者還分析了 AI 的行動(dòng)路線,它似乎更喜歡在地圖的幾乎所有邊緣逆時(shí)針行走。這意味著,當(dāng)站在右邊的邊緣時(shí),它更喜歡往上走,藍(lán)色顯示的就是這種情況。當(dāng)上方有邊緣時(shí),它喜歡往左走,顯示為粉紅色。當(dāng)左邊有邊緣時(shí),它喜歡向下走,用橙色表示。而當(dāng)下面有一條邊時(shí),它更喜歡向右走,顯示為綠色。

圖片

作者在視頻中表明,機(jī)器學(xué)習(xí)的基本挑戰(zhàn)是在不明確告訴程序如何做的情況下讓它做一些事情。這意味著,如果你的模型沒有按照你預(yù)期的方式運(yùn)行,你必須弄清楚如何通過學(xué)習(xí)算法或在線訓(xùn)練數(shù)據(jù)間接地改進(jìn)它。強(qiáng)化學(xué)習(xí)增加了一層間接性。在此基礎(chǔ)上,輸入模型的訓(xùn)練數(shù)據(jù)不再是靜止的、受你控制的,而是模型在早期時(shí)間點(diǎn)行為的產(chǎn)物。這種反饋循環(huán)會(huì)導(dǎo)致無法預(yù)測(cè)的突發(fā)行為。 

圖片

在沒有機(jī)構(gòu)規(guī)模的資源時(shí),作者建議你可以這么做:

  • 將問題簡(jiǎn)化,以避免工具、資源的限制。
  • 接下來,在合理的時(shí)間和成本內(nèi)迭代實(shí)驗(yàn)的設(shè)置非常重要。
  • 然后需要仔細(xì)考慮 AI 如何與環(huán)境交互以及獎(jiǎng)勵(lì)函數(shù)如何設(shè)計(jì)。在視頻中,作者對(duì)他所用到的獎(jiǎng)勵(lì)函數(shù)已經(jīng)有所介紹,但是受制于篇幅,并沒有介紹全部。它使用到了至關(guān)重要的七個(gè)函數(shù),實(shí)際上還有更多的并沒有測(cè)試或是最終使用。
  • 通過可視化的方法了解 AI 的行為。

圖片

作者說道,在未來還可能應(yīng)用遷移學(xué)習(xí)的方法。即在一個(gè)大型的廣泛數(shù)據(jù)集上預(yù)先訓(xùn)練一個(gè)模型,然后可以非常有效地利用它來完成新任務(wù)。在過去,這已經(jīng)給計(jì)算機(jī)視覺和自然語言處理領(lǐng)域帶來了革命性的變化。在將其應(yīng)用于 RL 方面,已經(jīng)有一些有趣的早期工作,但尚未真正落地。這是由于這些類型的任務(wù)缺乏大型的多樣化數(shù)據(jù)集。

圖片

在視頻最后,作者還介紹了項(xiàng)目的更多操作細(xì)節(jié)。

更多詳細(xì)內(nèi)容,請(qǐng)觀看原視頻。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-07 09:20:00

2024-05-30 16:37:29

2023-04-23 10:12:14

算法強(qiáng)化學(xué)習(xí)

2025-04-01 09:10:00

2023-09-10 10:40:08

2014-05-15 15:36:55

AMD

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2024-12-09 08:45:00

模型AI

2024-07-26 09:33:22

2018-04-21 06:41:39

Q-learning算法函數(shù)

2017-03-28 10:15:07

2023-07-02 14:47:26

AI速通效率

2023-06-20 16:05:58

AI代碼

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-01-14 13:20:56

2015-07-01 13:48:04

華曦達(dá)

2025-03-11 13:07:58

2025-03-10 06:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)