時空AI技術(shù):深度強化學(xué)習(xí)在智能城市領(lǐng)域應(yīng)用介紹
深度強化學(xué)習(xí)是近年來熱起來的一項技術(shù)。深度強化學(xué)習(xí)的控制與決策流程必須包含狀態(tài),動作,獎勵是三要素。在建模過程中,智能體根據(jù)環(huán)境的當(dāng)前狀態(tài)信息輸出動作作用于環(huán)境,然后接收到下一時刻狀態(tài)信息和獎勵。以眾所周知的AlphaGo為例,盤面就是當(dāng)前的狀態(tài),動作就是下一步往哪里落子,獎勵就是最終的輸贏。整個強化學(xué)習(xí)過程就是不斷與環(huán)境交互,在交互的過程中產(chǎn)生數(shù)據(jù),并利用這些交互產(chǎn)生的數(shù)據(jù)來學(xué)習(xí)的過程。正是在深度強化學(xué)習(xí)的幫助下,AlphaGo得以橫掃世界級頂尖棋手。所以相比于有監(jiān)督學(xué)習(xí)方法,深度強化學(xué)習(xí)在特定場景下可以達到超越人類的水準(zhǔn)。
在圍棋領(lǐng)域大放異彩之后,深度強化學(xué)習(xí)也在不斷地拓展著自己的疆域,游戲、金融等越來越多的領(lǐng)域也出現(xiàn)了深度強化學(xué)習(xí)的身影?,F(xiàn)代城市作為人類生產(chǎn)、生活的核心區(qū)域,是一個匯聚了交通、物流、能源等多個產(chǎn)業(yè)的復(fù)雜綜合體。如果能夠優(yōu)化這種復(fù)雜結(jié)構(gòu),那么將會帶來巨大的社會價值。而強化學(xué)習(xí)恰好可以做到這件事情。本文將為大家介紹幾個強化學(xué)習(xí)在智能城市領(lǐng)域的應(yīng)用案例。
一、智能交通
在城市各種各樣的交通場景中,會遇到各種各樣的資源配置和交通調(diào)度難題。如圖3(a)所示,在一個典型的救護車輛調(diào)度場景中,救護車需要不斷地往返于患者和救護車站點。救護車的接車時間在很大程度上取決于移動救護車的動態(tài)重新部署策略。也就是說,在救護車可用之后,應(yīng)該把它調(diào)到哪個車站。重新調(diào)配現(xiàn)有救護車會影響未來接載病人的時間。例如在圖3(b)中,未來將有3名患者來到1號站附近,因此將現(xiàn)有的救護車1號重新部署到1號站,通過從1號站派遣救護車,可以使這些患者迅速被接走。
圖1 救護車調(diào)度場景
這一問題依然可以利用強化學(xué)習(xí)的方法來求解。文章[1]將需要調(diào)度的救護車都被作為智能體,建模的核心就是確定相應(yīng)的狀態(tài)、動作以及獎勵。在這一場景中,影響救護車效率的因素主要包括未來車站附近的病人數(shù)量、車站救護車的數(shù)量以及救護車與車站的距離等。將這些指標(biāo)進行一定的轉(zhuǎn)化,就可以提煉出病患密度、旅程時間等多個相關(guān)因子。這些相關(guān)因子就可以被作為輸入狀態(tài)。在這一場景中,決策變量,也就是救護車在完成接送任務(wù)后,被部署到不同的站點,就是智能體的動作。而優(yōu)化目標(biāo),也就是將接載病人的時間,就是智能體的獎勵,時間越短,獎勵越大。理想情況下,每一輛救護車智能體都能夠找到一種優(yōu)勢策略,讓平均接送時間最短。接下來,文章引入深度強化學(xué)習(xí)算法,對這一場景進行很好地求解。
文章使用在真實世界中收集的數(shù)據(jù)集來評估動態(tài)救護車重新部署方法。實驗結(jié)果表明,基于深度強化學(xué)習(xí)的救護車的重新部署方法明顯優(yōu)于最先進的基準(zhǔn)方法。具體來說,與基準(zhǔn)方法相比,基于深度強化學(xué)習(xí)的方法可以將10分鐘內(nèi)接診的患者比例從0.786提高到0.838,節(jié)省平均接診時間約20%(約100秒)。為了能夠增加及時拯救病人的可能性,每一秒都是至關(guān)重要的。
在交通場景中,還有很多與之相似地調(diào)度問題,例如共享單車調(diào)度、公交車輛路線規(guī)劃、出租車/網(wǎng)約車調(diào)度等。在這些場景中,都可以使用與之相類似的方法。此外,隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,未來各行各業(yè)的管理將進一步扁平化。一大批新的場景也會涌現(xiàn)出來。例如,交通信號燈的控制優(yōu)化、自動駕駛的控制于決策,無人車輛的調(diào)度都屬于深度強化學(xué)習(xí)的應(yīng)用場景。所以,強化學(xué)習(xí)技術(shù)在未來將會在未來的智能交通中起到重要作用。
二、智能物流
物流的發(fā)展極大地方便了人們,促進了電子商務(wù)的發(fā)展。但龐大的運單量卻帶來了很多管理問題,行業(yè)派單效率和配送效率普遍低下,導(dǎo)致了大量勞動力浪費。在快遞領(lǐng)域,配送員的任務(wù)量不均衡現(xiàn)象是普遍存在的。這導(dǎo)致部分快遞員任務(wù)量過飽和或不足。如果能夠根據(jù)任務(wù)的不同,動態(tài)規(guī)劃出每一個快遞員的任務(wù)進行規(guī)劃,那么就可以減弱這種資源不均衡現(xiàn)象,來提高資源利用率和任務(wù)完成率。但在現(xiàn)實中,快遞員需要同時肩負(fù)配送和取件兩項職能,還要兼顧整體地配送效率更高,這無疑會增加問題的復(fù)雜度。文章[2]利用深度強化學(xué)習(xí)來解決這一問題。在文章中,作者將整個空間粗略地劃分成若干小區(qū)域,由圖4中的小方格來表示。其中A、B、C分別表示三個快遞員c1、c2、c3在每一個小區(qū)域的剩余配送量,其中陰影的小區(qū)域表示快遞員當(dāng)前的位置。D和G表示每一個小區(qū)域待取件的數(shù)量。F和H分別表示以快遞員c1、c2為視角,其他快遞員的位置。E表示快遞員c1由位置g3到達位置g2。在真實場景中,影響快遞員路線規(guī)劃的因素,包括剩余的配送位置、待取件的位置、隊友的位置、隊友的行進路線等,基本都可以被這一圖結(jié)構(gòu)表達出來。所以這一圖結(jié)構(gòu)就作為智能體的狀態(tài)。而智能體的動作則是快遞員的前進方向,如向左還是向右,獎勵就是為快遞員完成的任務(wù)量。完成的任務(wù)越多,獎勵越大。同樣,在確定了這三維核心指標(biāo)后,就可以引入深度強化學(xué)習(xí)算法來求解。
我們可以推斷出,除了快遞員的路徑選擇,車輛的運輸、調(diào)度,也屬于相似的場景,也可以使用相似的方法來解決。甚至大型物流倉儲管理,也可以利用強化學(xué)習(xí)來建模。
三、智能能源
鍋爐燃燒優(yōu)化是一個典型的智能控制場景。電站鍋爐系統(tǒng)高度復(fù)雜,包含磨煤、燃燒、水汽循環(huán)等多個環(huán)節(jié),一個普通600MW中型火電機組就擁有上萬個傳感器測點,內(nèi)部涉及燃燒、風(fēng)煙、水熱循環(huán)等眾多物理化學(xué)過程非常復(fù)雜。純粹使用機理建模的方法很難對如此復(fù)雜的系統(tǒng)做精準(zhǔn)化建模,導(dǎo)致系統(tǒng)描述失準(zhǔn),影響優(yōu)化效果。
從控制優(yōu)化角度來講,火電燃燒優(yōu)化涉及上百個主要控制量(例如機組內(nèi)部各種鍋爐給煤量、各種風(fēng)門、閥門開度等),而且這些變量均為連續(xù)變量(例如某個閥門開度20%和開度25%可能對機組運行帶來非常不同的影響)。與此同時,當(dāng)前動作所造成的影響往往不能夠?qū)崟r反饋,所以還需要考慮到長期的影響。對于如此復(fù)雜的場景,即便是有多年豐富經(jīng)驗的運行人員,也很少能夠總結(jié)出一套高效的調(diào)節(jié)策略。所以此類復(fù)雜系統(tǒng)高維連續(xù)變量控制優(yōu)化問題是世界性的難題。
圖3 火電鍋爐運行流程
而深度強化學(xué)習(xí)恰恰適合來做這件事情。圖2展示了我們基于強化學(xué)習(xí)的建模流程。對于一個典型的鍋爐環(huán)境,我們可以得到很多的傳感器提供系統(tǒng)的狀態(tài)描述,例如鍋爐中各種溫度、風(fēng)量、水量、壓力等監(jiān)測值。我們可以把這些實時反饋的監(jiān)測值作為狀態(tài),也就是智能體能夠“看到”的東西。然后我們將給煤量、各種風(fēng)門、閥門開度等控制變量作為動作。在確定了狀態(tài)和動作,我們利用一個業(yè)務(wù)指標(biāo)(燃燒效率)作為獎勵。智能體依據(jù)當(dāng)前的狀態(tài)輸出動作,對鍋爐控制參數(shù)進行調(diào)節(jié),鍋爐環(huán)境就會產(chǎn)生一個變化,到達一個新的狀態(tài),如果燃燒效率朝著好的方向變化,我們就給一個正向的獎勵,如果是不好的變化,我們可以給一個負(fù)向的獎勵。在完成了建模工作后,我們接下來通過合理的學(xué)習(xí)算法,就可以學(xué)習(xí)出更好的策略。學(xué)習(xí)算法通過觀察很多的從狀態(tài)和動作到下一個狀態(tài)的變化過程,從中抽象狀態(tài)——動作——獎勵的對應(yīng)模式,最終找到一個最佳的控制策略,可以從當(dāng)前的狀態(tài)映射到最佳的控制(動作)變量,實現(xiàn)長期平均獎勵的最大化。
在上機實測過程中,基于強化學(xué)習(xí)的控制策略相比于人類操作達到了0.5%的效率提升,對于一臺600MW機組,相當(dāng)于年經(jīng)濟效益240萬元。與此同時,我們已經(jīng)實現(xiàn)了對于AI模型的產(chǎn)品化,具備了批量復(fù)制的能力,并在多個電廠落地并完成了驗收。
圖4 基于強化學(xué)習(xí)的燃燒優(yōu)化智能體
除了燃燒優(yōu)化場景之外,在火電中,我們也已經(jīng)將強化學(xué)習(xí)方法用在了磨煤機控制優(yōu)化、冷端優(yōu)化等場景中,并取得了很好的效果。上文所述的控制場景,強化學(xué)習(xí)也可以在溫度控制、電網(wǎng)調(diào)度、能源管理等領(lǐng)域得到應(yīng)用。另外,火電鍋爐的控制屬于典型的過程控制。在工業(yè)生產(chǎn)中,水泥生產(chǎn)過程中的磨機控制,機場ACDM系統(tǒng)中的車輛與人員調(diào)度、停機位優(yōu)化,以及鋼鐵制造、化工等工業(yè)場景也均屬于相似的場景。在這些場景中,可以提煉出來大量的控制與優(yōu)化問題,深度強化學(xué)習(xí)技術(shù)也具有著廣闊的空間。
通過案例我們可以看到,對于一個現(xiàn)實中的場景,如果能夠確定影響的相關(guān)因素、優(yōu)化動作以及優(yōu)化目標(biāo),深度強化學(xué)習(xí)技術(shù)將可以隆重登場了。而這些場景在我們的生產(chǎn)生活中是大量存在的。所以在未來的智能城市與產(chǎn)業(yè)中,深度強化學(xué)習(xí)技術(shù)會起到重要的作用。但是就目前來說,深度強化學(xué)習(xí)的落地仍存在一些局限。這其中一部分原因是算法的學(xué)習(xí)效率仍不夠高效,適應(yīng)場景也較為狹窄,另外一部分原因是目前很多行業(yè)的數(shù)字化程度還比較低。但隨著物聯(lián)網(wǎng)時代的到來,這一問題將會被逐步解決。與此同時,隨著大批研究人員的前仆后繼,深度強化學(xué)習(xí)本身的技術(shù)也在不斷地迭代發(fā)展,算法適用的范圍也越來越廣泛。未來的發(fā)展一定越來越好。
參考文獻
[1] Shenggong Ji,et.al A Deep ReinforcementLearning-Enabled Dynamic Redeployment System for Mobile Ambulances. UbiComp2019
[2] Li Y, Zheng Y, Yang Q. Efficient and Effective Expressvia Contextual Cooperative Reinforcement Learning[C]//Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery & Data Mining.2019: 510-519.