游戲玩得好的AI,已經(jīng)在看病救人了
一個游戲AI,怎么干起醫(yī)生的活了?
而且這本事還是從打游戲的經(jīng)驗里總結(jié)來的。
喏,拿一張病理全片掃描圖像,不用遍歷所有高倍鏡視野,也能找到病灶所在。
在它看來,這個過程和《我的世界》里伐木居然是類似的。
都是三步走:
- 先觀察大環(huán)境
- 鎖定小范圍
- 最終確定目標。
而且這種方法效率還賊高,是傳統(tǒng)方法的400%。
不愧是拿過NeurIPS MineRL競賽冠軍的游戲AI……
所以,它到底是怎么做到的?
游戲AI怎么懸壺濟世?
在介紹這只游戲AI前,讓我們先來了解一下處理病理切片的難點究竟在哪。
與想象中只需掃一眼不同,臨床科室首先會將組織切片進行全片掃描數(shù)字化處理。
在這之后,交到醫(yī)生手里的往往是一張幾萬乘幾萬像素、甚至更高的高分辨率圖像,能達到每個像素0.25微米。
醫(yī)生要做的就是在這幅布滿密集細胞和組織的超大尺寸圖像中,肉眼找到風險的病灶位置并進行判斷,可謂是“大海撈針”了。
近些年也不是沒有人嘗試過用深度學習方法來解決這一問題,但遇到的挑戰(zhàn)是:
第一個,盡管病理圖像(WSI)具有十億像素大小的高分辨率,卻往往只有一個圖像級標簽。
目前絕大部分的方法都依賴于在高倍鏡下對全切片進行密集采樣的方式進行特征提取,并對所有采集特征進行信息整合進而實現(xiàn)全片診斷,工作量可想而知。
第二呢,這些圖像的病變區(qū)域往往很稀疏。現(xiàn)有的方法大多依賴于多實例學習框架,需要在高倍率下密集采樣局部的圖像塊(patch)。
這不僅增加了計算成本,還導致了診斷相關(guān)性弱、數(shù)據(jù)效率低下,一張切片往往需要幾十分鐘才能完成計算。
不過,這次來自騰訊的“絕悟”團隊就發(fā)現(xiàn)了盲點——
傳統(tǒng)模式下盡管醫(yī)生需要肉眼去看,但他們往往會先用顯微鏡在低倍鏡下掃片,憑借經(jīng)驗發(fā)現(xiàn)疑點后再用高倍鏡復核。
而這種操作,如果放到AI的世界里,不就是最優(yōu)路徑?jīng)Q策問題嗎?這不正是強化學習能搞定的事?
再聯(lián)系到強化學習又常用在游戲AI里,游戲AI又是絕悟AI的長處所在,嗯優(yōu)勢閉環(huán)了。
此前,絕悟AI就憑借最優(yōu)路徑?jīng)Q策策略在MOBA、RTS、我的世界(Minecraft)等多類型游戲中戰(zhàn)績斐然,還拿過AI頂會NeurIPS MineRL競賽冠軍。
當時,CMU、微軟、DeepMind和OpenAI聯(lián)手在頂會NeurIPS上舉辦了一個名叫MineRL的競賽,要求參賽隊伍在4天時間內(nèi),訓練出一個能在15分鐘內(nèi)挖出鉆石的AI“礦工”。
來自騰訊的絕悟AI以76.97分的絕對優(yōu)勢一舉奪魁,成功成為挑戰(zhàn)賽歷史上“挖礦最迅速”的AI。
而在《我的世界》里找木頭的動作,和在病理切片里找病灶,其實思路差不多。
同樣是環(huán)顧四周搜集全局信息(病理醫(yī)生在低倍鏡下掃片),然后鎖定視角(高倍鏡確認),找到木頭后執(zhí)行采集動作(確認病灶),如此往復。
于是,就在這只游戲AI的基礎上,騰訊的研究人員推出了最新的研究成果“絕悟RLogist”,寓意正是RL(reinforcement learning)+ Pathologist(病理學家)。
那么絕悟RLogist具體是怎么實現(xiàn)的呢?
決策提效400%
就像上文提到的人類醫(yī)生的解決思路一樣,“絕悟RLogist”采用的正是基于深度強化學習的,找尋最優(yōu)看片路徑的方法。
這一新方法的好處很明顯:避免了用傳統(tǒng)的窮舉方式去分析局部圖像切塊,而是先決策找到有觀察價值的區(qū)域,并通過跨多個分辨率級別獲得代表性特征,以加速完成全片判讀。
通過模仿人類的思維方式,不僅提高了看片效率,還做到了節(jié)約成本。
具體而言,研究人員通過條件特征超分辨率實現(xiàn)了交叉分辨率信息融合。
受益于條件建模,未觀測區(qū)域的高分辨率特征,可以根據(jù)已經(jīng)被觀測過的低分辨率和高分辨率的特征配對,而被更新。
其中一個關(guān)鍵步驟,是為病理圖像分析領(lǐng)域定義一個強化學習訓練環(huán)境。該方法使用離散化的動作空間、設計合理的圖像分塊和完成狀態(tài)獎勵函數(shù),去提升模型的收斂表現(xiàn),以避免局部最優(yōu)。
相應的訓練pipeline如下述算法所示:
從結(jié)果上看,絕悟RLogist的優(yōu)勢非常明顯。研究人員選擇“淋巴結(jié)切片轉(zhuǎn)移檢測”及“肺癌分型”兩個全片掃描圖像的分類任務進行了基準測試。
結(jié)果表明,與典型的多實例學習算法相比,“絕悟RLogist”在觀察路徑顯著變短情況下,能夠?qū)崿F(xiàn)接近的分類表現(xiàn),平均用時縮短至四分之一,決策效率提升400%。
不僅如此,該方法同時還具有可解釋性。研究人員將決策過程可視化后,發(fā)現(xiàn)未來不管是醫(yī)療教育還是實際場景,絕悟RLogist都能很好地發(fā)揮作用。
目前,該論文已被AAAI 2023接收,代碼已開源。
值得一提的是,研究人員還強調(diào),未來將沿著絕悟RLogist的方向繼續(xù)優(yōu)化,包括通過引入更強的神經(jīng)網(wǎng)絡結(jié)構(gòu)增強RLogist的表征學習能力,以及使用更高階的RL訓練方法避免學習到錯誤的觀測路徑等。
“絕悟RLogist”從何而來?
提到AI“絕悟”,想必很多人都不會陌生。
畢竟《王者榮耀》里的AI玩法,就是“絕悟挑戰(zhàn)”。
△紅方 AI 鎧大局觀出色,繞后蹲草叢扭轉(zhuǎn)戰(zhàn)局
還有《我的世界》、3D-FPS品類游戲等,可以說“絕悟”游戲老玩家了。
其背后團隊騰訊AI Lab也是讓AI學會玩游戲的老玩家了,從2016至今已經(jīng)開發(fā)出了AI“絕藝”、AI“絕悟”,并形成了“開悟”平臺。
AI“絕藝”,是棋牌類游戲玩家。
它的開發(fā)始于2016年,最早從圍棋起步。
2017年,“絕藝”在UEC世界電腦圍棋大會上奪得冠軍,現(xiàn)在是國家隊的專業(yè)陪練。
除此以外,它還會下國際象棋、打麻將。在四人麻將上,“絕藝”是業(yè)界首個在國際標準時達到職業(yè)水準的麻將,拿下過IJCAI麻將AI比賽的冠軍。
緊隨“絕藝”身后,2017年“絕悟”研發(fā)啟動。
它強調(diào)的不再是簡單博弈,而是多智能體AI在面臨更復雜環(huán)境下的策略問題。
2018年“絕藝”達到《王者榮耀》業(yè)余玩家水平,2019年達到職業(yè)電競水平。
后面“王者絕悟”也為王者榮耀玩家?guī)砹恕疤魬?zhàn)絕悟”、“英雄練習場”等玩法,成為玩家訓練上分的好幫手。
此外,“絕悟”玩《我的世界》,拿下了NeurIPS MineRL競賽的冠軍,成功成為挑戰(zhàn)賽歷史上“挖礦最迅速”的AI。
AI
“足球版”絕悟也曾獲得過谷歌舉辦的線上世界足球賽冠軍。
而在做游戲AI的過程中,騰訊AI Lab還順道與王者榮耀一同沉淀出了一個平臺“開悟”。
也就是將騰訊的平臺、算法、場景給學生、學術(shù)界做一定的開放,讓他們進行相關(guān)的博弈研究。2020年8月,“開悟”平臺組織了第一場開悟的高校比賽,今年還發(fā)布了王者榮耀1v1開放研究環(huán)境。
實際上,游戲領(lǐng)域,一直被視為AI最好的試驗田。
從“絕悟”這幾年的戰(zhàn)績中,不難看出它在強化學習等方面已經(jīng)積累了一定能力。
那么將最擅長的能力向外遷移,落在實際應用層面,也是行業(yè)內(nèi)的大勢所趨。
這一回,可真就不能說游戲AI“不學無術(shù)”了。
論文地址:http://arxiv.org/abs/2212.01737
開源地址:https://github.com/tencent-ailab/RLogist