用Python寫出Gameboy模擬器,還能訓練AI模型:丹麥小哥的大學項目火了
感覺用 Atari 游戲研究人工智能有點「不夠接地氣」?現(xiàn)在我們可以使用 Gameboy 模擬器了。
對于很多 80 后、90 后來說,任天堂 Gameboy 代表了青春的很大一部分。很多我們耳熟能詳?shù)挠螒蚨际亲畛醮钶d在這款 8 位游戲掌機上的,包括鼎鼎有名的《馬里奧》、《塞爾達》系列。對于國內(nèi)玩家來說,我們玩得最多的則應該是《口袋妖怪》系列了。
這款游戲機距離首次發(fā)布已過去了 30 年時間,不過人們對于它的熱情卻絲毫不減。昨天,一款利用 Python 編寫的 Gameboy 模擬器在社交網(wǎng)絡(luò)上吸引了人們的廣泛關(guān)注。
爺?shù)那啻夯貋砹??作者?Reddit 上發(fā)出的帖子迅速獲得了上千點贊。
該項目的作者之一 Mads Ynddal 宣布,PyBoy 的 1.0 版正式發(fā)布。
PyBoy 是什么?
簡而言之,它是一個完全用 Python 從頭開始編寫的 Game Boy 模擬器,并且支持通過 API 編寫腳本。研究者添加了類型定義,使其可以使用 Cython 編譯軟件,從而獲得與用 C 和 C++編寫的模擬器相媲美的性能。
項目鏈接:https://github.com/Baekalfen/PyBoy
特點
PyBoy 被設(shè)計成通過 Python 訪問,因此支持并鼓勵人們做實驗研究,機器人和人工智能在作此嘗試。研究者正在構(gòu)建游戲特定的包裝器,目前,包裝器可讓程序員與俄羅斯方塊和超級瑪麗進行交互,而不需要對 Game Boy 有深入的了解。可以參考該文檔:https://docs.pyboy.dk。
項目作者還想學習和嘗試更多奇特的功能,根據(jù)大學項目的研究,他們向模擬器添加了倒回功能,也就是說,您可以在任何游戲中倒回時間。
PyBoy 模擬器架構(gòu)
1990 年,任天堂為 Game Boy 申請了專利。下圖展示了該專利中 CPU、RAM、盒帶和顯示屏之間的集成與連接。
Game Boy 專利中的架構(gòu)圖。
PyBoy 項目成員基于此在 Python 中為每個組件制定類(class),從而在「主機系統(tǒng)」上為「客戶系統(tǒng)」搭建了基礎(chǔ)(系統(tǒng)運行 Python)。該客戶系統(tǒng)就是虛擬的 Game Boy 硬件,理論上它能夠運行為 Game Boy 編寫的每一個軟件部分。
下圖展示了 PyBoy 模擬器中所有類及其關(guān)系:
PyBoy 對強化學習的意義以及與其他環(huán)境的比較
這些年來,已有很多人開發(fā)過 Gameboy 模擬器,現(xiàn)在的電腦和手機上都有可運行的工具。為什么要用 Python 來寫一款呢?當然是用來訓練人工智能的。
想打游戲?Gameboy 對于現(xiàn)在的人來說恐怕有點「難以上手」。
最接近通用人工智能的方法——強化學習
通用人工智能這一概念指的是機器能夠成功完成任意一件人類能夠做到的智力型任務。目前我們對 AI 的研究距離這一目標還差很遠的距離,吳恩達之前就表示過,深度學習做的僅是高維的「curve fitting」。
不同于那些依靠預先收集數(shù)據(jù)(甚至需要大量人工標記)的機器學習算法,強化學習是一種僅通過環(huán)境獎賞進行訓練的算法,其工作機制類似于人體內(nèi)部的多巴胺系統(tǒng)。強化學習是目前最接近于人類從經(jīng)驗中學習這一能力的機器學習算法,尤其適用于智能體需要根據(jù)其所處環(huán)境進行決策的情景。
下圖展示了 RL 智能體是如何僅以游戲圖像作為輸入,來學習馬里奧控制策略的。
為什么大量關(guān)于 RL 的研究都在 Atari 上進行,而不是其他更實際的問題?
- 關(guān)于 RL 的研究使用 Atari 作為基準的原因主要有如下幾點:
- Atari 環(huán)境能夠讓我們使用相同的算法測試多個不同的環(huán)境,驗證 RL 算法的通用性;
- 由于輸入僅為游戲圖像,增加了問題的復雜性;
- Atari 為研究人員提供了一個公認的測試平臺,能夠較為公平地比較不同算法之間的性能;
- RL 需要大量的交互數(shù)據(jù)進行學習,在真實環(huán)境中實際測試之前,Atari 為算法的初期驗證提供了一個安全、快速、低成本的測試平臺。
下圖為一些 Atari 環(huán)境的展示:
Atari、PySC2 之類環(huán)境與 PyBoy 對比
上一小節(jié)介紹了在 Atari 環(huán)境中訓練 RL 智能體的諸多優(yōu)勢,然而隨著 RL 的發(fā)展,這一相對較簡單的環(huán)境逐漸不再適用于目前新的 RL 研究。不久之前,由 DeepMind 提出的 Agent57 在所有 Atari 環(huán)境中表現(xiàn)均超越了人類玩家平均水平,也預示著在 Atari 環(huán)境上的 RL 研究逐漸進入尾聲。
更困難環(huán)境有諸如 DeepMind 與暴雪合作的 PySC2,需要智能體學會復雜的協(xié)同、對抗策略。雖然 AlphaStar 在這一環(huán)境中取得了令人矚目的成果,但仍存在很多亟待解決的問題。以下為 PySC2 環(huán)境示意圖。
PyBoy 環(huán)境的難度可以說介于 Atari 與 PySC2 之間,它為我們提供了一個驗證 RL 性能的新基準。在將 RL 應用于更復雜的實際問題之前,我們可以先在這一難度適中的環(huán)境中進行低成本、高效的測試。
就像特斯拉的人工智能和自動駕駛視覺總監(jiān) Andrej Karpathy 說的,「One should always try a BB gun before reaching for the Bazooka.」
Github 介紹
如何安裝?
如果已經(jīng)配置了一個能夠正常運行 Python 的環(huán)境,那么安裝會非常簡單:
- 通過軟件包管理器安裝 SDL2(sudo apt install libsdl2-dev 或是 brew install sdl2)
- 使用 pip install pyboy 安裝 Pyboy
可以直接從終端 $ pyboy file.rom 使用 PyBoy 或者在 Python 腳本中使用:
- from pyboy import PyBoy
- pyboy = PyBoy('ROMs/gamerom.gb')while not pyboy.tick():
- pass
該項目同時支持 macOS, Raspberry Pi (Raspbian), Linux (Ubuntu), 以及 Windows 10.
PyBoy API 文檔
如果用戶需要創(chuàng)建一個自己的機器人或者是 AI,可以在 PyBoy Documentation (https://baekalfen.github.io/PyBoy/index.html) 找到所有用以支持的外部組件,其中各種類及其用法都非常詳細,這里不再一一贅述。(如下圖結(jié)構(gòu)索引)
簡短示例
PyBoy 可以作為 Python 中的對象加載。所以它可以從另一個腳本進行初始化,并可以由該腳本控制和探測??匆幌?gamewrapper_tetris.py 上一個粗糙的「機器人」,正在與游戲進行交互。當然,所有的外部組件都可以在 PyBoy 文檔中找到。
對于一般的 Game Boy 文檔,可以查看 Pan Docs,其中包含了每個主題的詳細信息。
以下是從屏幕讀取數(shù)據(jù)的簡短演示,該代碼也可以在 gamewrapper_mario.py 中找到:
- import osimport sys
- from pyboy import PyBoy, WindowEvent
- # Makes us able to import PyBoy from the directory below
- file_path = os.path.dirname(os.path.realpath(__file__))
- sys.path.insert(0, file_path + "/..")
- # Check if the ROM is given through argvif len(sys.argv) > 1:
- filename = sys.argv[1]else:
- print("Usage: python mario_boiler_plate.py [ROM file]")
- exit(1)
- quiet = "--quiet" in sys.argv
- pyboy = PyBoy(filename, window_type="headless" if quiet else "SDL2", window_scale=3, debug=not quiet, game_wrapper=True)
- pyboy.set_emulation_speed(0)assert pyboy.cartridge_title() == "SUPER MARIOLAN"
- mario = pyboy.game_wrapper()
- mario.start_game()
- assert mario.score == 0assert mario.lives_left == 2assert mario.time_left == 400assert mario.world == (1, 1)assert mario.fitness == 0 # A built-in fitness score for AI development
- last_fitness = 0print(mario)
- pyboy.send_input(WindowEvent.PRESS_ARROW_RIGHT)for _ in range(1000):
- assert mario.fitness >= last_fitness
- last_fitness = mario.fitness
- pyboy.tick()
- if mario.lives_left == 1:
- assert last_fitness == 27700assert mario.fitness == 17700 # Loosing a live, means 10.000 points in this fitness scoringprint(mario)
- breakelse:
- print("Mario didn't die?")
- exit(2)
- mario.reset_game()assert mario.lives_left == 2
- pyboy.stop()
如果你在加載了 Super Mario Land ROM 的情況下運行上述代碼,則將在下面得到圖片和終端輸出。值得注意的是,Mario 的形態(tài)顯示為索引 0,1,16,17。
作者簡介
該項目的作者 Asger Anders Lund Hansen、Mads Ynddal 和 Troels Ynddal 均來自丹麥。畢業(yè)于丹麥哥本哈根大學的 Mads Ynddal 表示,事實上這一 Gameboy 模擬器可以追溯到 2015 年他在大學期間的項目。
Gameboy 模擬器的的 1.0 版發(fā)布了,但對于開發(fā)者們來說還有很多事可以去做。項目研發(fā)者表示,目前可以推進的方向包括為模擬器加入聲音、彩色、Gameboy 模擬連線,以及更多游戲的封裝,當然還有在其之上訓練神經(jīng)網(wǎng)絡(luò)的示例。
希望在人們的努力下,Gameboy 中的游戲也能重獲新生。更重要的是,它現(xiàn)在還有了訓練人工智能的任務。