使用Python和OpenCV在線打乒乓球
我最喜歡的YouTuber之一,CodeBullet,曾經(jīng)嘗試創(chuàng)建一個(gè)乒乓球 AI來(lái)統(tǒng)治所有人。
這似乎是一個(gè)非常有趣且簡(jiǎn)單的任務(wù),所以我也想嘗試一下。在這篇文章中,我將概述一些我考慮過(guò)的因素,如果你希望在任何類似的項(xiàng)目上工作,這些因素可能會(huì)有所幫助,并且我想我會(huì)嘗試其中的一些其他工作,因此,如果你喜歡這種類型的事情,可以關(guān)注我。
使用計(jì)算機(jī)視覺(jué)的好處是,我可以使用已經(jīng)構(gòu)建的游戲并處理圖像。話雖如此,我們將使用與ponggame.org上使用的那個(gè)與CodeBullet相同的游戲版本。它還具有2人模式,因此我可以與自己的AI對(duì)抗;我做到了,這確實(shí)很難……
捕捉屏幕
第一件事就是捕捉屏幕。我想確保我的幀速率盡可能快,為此我發(fā)現(xiàn)MSS是一個(gè)很棒的python包。有了這個(gè),我很容易達(dá)到60幀/秒的最高速度,與 PIL 相比,我只能得到大約20幀每秒。它以 numpy 數(shù)組的形式返回。
Paddle detection
為了簡(jiǎn)單起見,我們需要定義paddle 的位置。這可以用幾種不同的方法來(lái)完成,但我認(rèn)為最明顯的是對(duì)每個(gè)Paddle的區(qū)域進(jìn)行遮罩,然后運(yùn)行連接的組件來(lái)找到Paddle對(duì)象。下面是一段代碼:
- def get_objects_in_masked_region(img, vertices, connectivity = 8):
- ''':return connected components with stats in masked region
- [0] retval number of total labels 0 is background
- [1] labels image
- [2] stats[0] leftmostx, [1] topmosty, [2] horizontal size, [3] vertical size, [4] area
- [3] centroids
- '''
- mask = np.zeros_like(img) # fill the mask
- cv2.fillPoly(mask, [vertices], 255)
- # now only show the area that is the mask
- mask = cv2.bitwise_and(img, mask)
- conn = cv2.connectedComponentsWithStats(mask, connectivity, cv2.CV_16U)
- return conn
在上面,“vertices”只是定義遮罩區(qū)域的坐標(biāo)列表。一旦在每個(gè)區(qū)域內(nèi)有了對(duì)象,我就可以得到它們的質(zhì)心位置或邊界框。需要注意的一點(diǎn)是OpenCV將背景作為任何連接的組件列表中的第0個(gè)對(duì)象,因此在本例中,我總是獲取第二大的對(duì)象。結(jié)果如下——右邊綠色質(zhì)心的球拍是玩家 / 即將成為人工智能控制的球拍。

移動(dòng)paddle
現(xiàn)在我們有了輸出,我們需要一個(gè)輸入。為此,我求助于一個(gè)有用的包和其他人的代碼 。
它使用ctypes來(lái)模擬鍵盤按下,在這種情況下,游戲是用“k”和“m”鍵來(lái)玩的。我這里有掃描碼。在測(cè)試了它只是隨機(jī)上下移動(dòng)后,我們就可以開始跟蹤了。
乒乓球檢測(cè)
下一步是識(shí)別并跟蹤乒乓球。同樣,這可以用幾種方法來(lái)處理——其中一種可能是通過(guò)使用模板進(jìn)行對(duì)象檢測(cè),然而,我再次使用了連接的組件和對(duì)象屬性,即乒乓球的區(qū)域,因?yàn)樗俏ㄒ痪哂谐叽绲膶?duì)象。
我知道每當(dāng)乒乓球穿過(guò)或碰到其他白色物體時(shí),我都會(huì)遇到問(wèn)題,但我也認(rèn)為只要我能在大多數(shù)時(shí)間里追蹤到它,這一切都沒(méi)問(wèn)題。畢竟,它是直線運(yùn)動(dòng)的。如果你看下面的視頻,你會(huì)看到標(biāo)記乒乓球的紅色圓圈是如何閃爍的。這是因?yàn)樗辉诿?幀中找到一個(gè)。在60幀/秒時(shí),這并不重要。

反彈預(yù)測(cè)的光線投射
在這一點(diǎn)上,我們已經(jīng)有一個(gè)可工作的人工智能。如果我們只是移動(dòng)球員的球拍,使其處于與乒乓球相同的y軸位置,它的效果相當(dāng)不錯(cuò)。然而,當(dāng)乒乓球得到良好的反彈時(shí),它確實(shí)會(huì)遇到問(wèn)題。球拍太慢了,跟不上,需要預(yù)測(cè)乒乓球的位置,而不是僅僅移動(dòng)到當(dāng)前的位置。這已經(jīng)在上面的剪輯中實(shí)現(xiàn)了,下面是兩種方法的比較。

差別并不大,但如果選擇了正確的人工智能,這絕對(duì)是一場(chǎng)更穩(wěn)定的勝利。為此,我首先為乒乓球創(chuàng)建了一個(gè)位置列表。為了公平起見,我把這個(gè)列表的長(zhǎng)度控制在5個(gè),基本上可以做到。列表不要太長(zhǎng),否則要花更長(zhǎng)的時(shí)間才能發(fā)現(xiàn)它改變了方向。在得到位置列表后,我使用簡(jiǎn)單的矢量平均法來(lái)平滑并得到方向矢量——如綠色箭頭所示。這也被標(biāo)準(zhǔn)化成一個(gè)單位向量,然后乘以一個(gè)長(zhǎng)度以方便可視化。
投射光線只是這個(gè)的延伸——使前向投影變長(zhǎng)。然后我檢查了未來(lái)的位置是否在頂部和底部區(qū)域的邊界之外。如果是這樣的話,它只是將位置投影回游戲區(qū)域。對(duì)于左側(cè)和右側(cè),它計(jì)算出與paddle的x位置相交的位置,并將x和y位置固定到該點(diǎn)。這樣可以確保paddle指向正確的位置。如果沒(méi)有這一點(diǎn),它通常會(huì)走得太遠(yuǎn)。下面是定義光線的代碼,該光線可以預(yù)測(cè)乒乓球的未來(lái)位置:
- def pong_ray(pong_pos, dir_vec, l_paddle, r_paddle, boundaries, steps = 250):
- future_pts_list = [] for i in range(steps):
- x_tmp = int(i * dir_vect[0] + pong_pos[0])
- y_tmp = int(i * dir_vect[1] + pong_pos[1])
- if y_tmp > boundaries[3]: #bottom
- y_end = int(2*boundaries[3] - y_tmp)
- x_end = x_tmp elif y_tmp < boundaries[2]: #top
- y_end = int(-1*y_tmp)
- x_end = x_tmp else:
- y_end = y_tmp ##stop where paddle can reach if x_tmp > r_paddle[0]: #right
- x_end = int(boundaries[1])
- y_end = int(pong_pos[1] + ((boundaries[1] - pong_pos[0])/dir_vec[0])*dir_vec[1])
- elif x_tmp < boundaries[0]: #left
- x_end = int(boundaries[0])
- y_end = int(pong_pos[1] + ((boundaries[0] - pong_pos[0]) / dir_vec[0]) * dir_vec[1])
- else:
- x_end = x_tmp end_pos = (x_end, y_end) future_pts_list.append(end_pos)
- return future_pts_list
在上面,也許不太明顯的計(jì)算方法是確定paddle對(duì)目標(biāo)的左或右位置的截距。我們基本上是通過(guò)相似三角形來(lái)實(shí)現(xiàn)的,圖片和方程如下所示。我們知道在邊界中給定的paddle的x位置的截距。然后我們可以計(jì)算出乒乓球?qū)⒁苿?dòng)多遠(yuǎn),并將其添加到當(dāng)前的y位置。

paddle雖然看起來(lái)筆直,但實(shí)際上有一個(gè)彎曲的反彈面。也就是說(shuō),如果你用球拍向兩端擊球,球會(huì)反彈,就像球拍有角度一樣。因此,我允許球拍擊中邊緣,這增加了人工智能的攻擊性,使乒乓球四處飛舞。
結(jié)論
盡管是為這種特定的乒乓球?qū)崿F(xiàn)而設(shè)計(jì)的,但是相同的概念和代碼也可以用于任何版本——只需要改變一些預(yù)處理步驟。當(dāng)然,另一種方法是通過(guò)強(qiáng)化學(xué)習(xí)或簡(jiǎn)單的conv-net使用機(jī)器學(xué)習(xí),但我喜歡這種經(jīng)典方法;至少在這種情況下,我不需要健壯的通用性或困難的圖像處理步驟。正如我提到的,這個(gè)版本的乒乓球是2人,老實(shí)說(shuō)我無(wú)法打敗我自己的AI…