決策智能:方興未艾的人工智能新方向
本報(bào)記者 趙廣立
近日,中國(guó)科學(xué)院自動(dòng)化研究所(以下簡(jiǎn)稱自動(dòng)化所)宣布開(kāi)放“廟算·智勝”戰(zhàn)術(shù)兵棋即時(shí)策略人機(jī)對(duì)抗平臺(tái),旨在進(jìn)一步推動(dòng)人機(jī)對(duì)抗智能技術(shù)研究。據(jù)了解,該平臺(tái)曾用于“先知·兵圣”智能博弈對(duì)抗系列賽事,具有平臺(tái)開(kāi)放、在線對(duì)抗、技術(shù)共享等特點(diǎn)。
人機(jī)對(duì)抗是國(guó)際公認(rèn)的探索決策智能重要途徑之一。作為國(guó)家新一代人工智能的重要發(fā)展方向,決策智能的研究和發(fā)展方興未艾。同時(shí),由于決策智能涉及多個(gè)學(xué)科的交叉,相關(guān)的探索尚須各方共同努力。
涉及多個(gè)學(xué)科
到底該如何定義決策智能?在近日舉辦的“首屆智能決策論壇”上,自動(dòng)化所所長(zhǎng)徐波認(rèn)為,由于我們對(duì)人類智能的機(jī)理仍缺乏系統(tǒng)了解,對(duì)人工智能做內(nèi)涵式、學(xué)科式的定義仍然困難重重。但他介紹說(shuō),決策智能強(qiáng)調(diào)智能“產(chǎn)生于與其所處環(huán)境的交互”,且智能應(yīng)具備“對(duì)不確定性環(huán)境的探索和發(fā)現(xiàn)”的能力。
他解釋,決策智能要求智能體能在不確定的環(huán)境中做出合適的行動(dòng)、選擇和決定。而這里的“環(huán)境”,指的是人們?cè)噲D用人工智能更好地了解、探索、建模和駕馭的物理世界、人類社會(huì)等系統(tǒng)。
有別于感知智能,決策智能主要基于對(duì)不確定環(huán)境的探索,因此需要獲取環(huán)境信息和自身的狀態(tài),從而進(jìn)行自主決策,使由環(huán)境反饋的收益最大化。這一反饋形成的系統(tǒng)閉環(huán),將使人工智能擁有更完整的表現(xiàn)形式。
自動(dòng)化所是國(guó)內(nèi)率先開(kāi)展人工智能與腦科學(xué)交叉研究、建立國(guó)內(nèi)第一個(gè)人工智能學(xué)院的科研單位。目前,該所正將自主進(jìn)化智能作為重點(diǎn)投入、發(fā)展和突破的方向,已組織20余個(gè)團(tuán)隊(duì)開(kāi)展決策智能基礎(chǔ)理論、算法、環(huán)境、評(píng)價(jià)、應(yīng)用等研究。
在上述論壇上,歐洲科學(xué)院外籍院士、北京大學(xué)前沿計(jì)算研究中心教授鄧小鐵,清華大學(xué)交叉信息科學(xué)院助理教授張崇潔,倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍等學(xué)者也對(duì)決策智能的內(nèi)涵進(jìn)行了探討。學(xué)者們指出,決策智能帶有強(qiáng)烈的“行為主義”流派的色彩,而同時(shí)又能吸收“符號(hào)主義”和“連接主義”的精華。這種特點(diǎn),使得決策智能涉及計(jì)算機(jī)、控制、數(shù)學(xué)、認(rèn)知心理學(xué)、神經(jīng)科學(xué)等諸多學(xué)科。
“目前基于強(qiáng)化學(xué)習(xí)等方法的決策智能,主要還是在學(xué)習(xí)‘狀態(tài)’到‘動(dòng)作’的映射,與可解釋的、因果關(guān)系的、可以互動(dòng)的決策還有很遠(yuǎn)距離。”鄧小鐵表示。
與博弈論相互影響
在探索決策智能的諸多路徑之中,多智能體系統(tǒng)(以下簡(jiǎn)稱多智能體)是國(guó)際上人工智能技術(shù)的前沿學(xué)科。人們寄希望于彼此通信和協(xié)調(diào)的多智能體采取協(xié)調(diào)行動(dòng),以解決大型、復(fù)雜的現(xiàn)實(shí)問(wèn)題。但目前,很多基于強(qiáng)化學(xué)習(xí)的多智能體研究方法并不夠成熟。
“博弈論是刻畫(huà)和分析多智能體相互之間競(jìng)爭(zhēng)最好的理論框架。”鄧小鐵認(rèn)為,博弈論在多智能體系統(tǒng)研究中將扮演理論基礎(chǔ)的角色,同時(shí)人工智能的發(fā)展也給博弈論學(xué)科帶來(lái)了深遠(yuǎn)的影響。
“從博弈論已有的理論中借鑒想法指導(dǎo)設(shè)計(jì)強(qiáng)化學(xué)習(xí)方法,常常能夠獲得較優(yōu)的結(jié)果;而反之,如果沒(méi)有相應(yīng)的理論作為指導(dǎo),研究者們?nèi)菀壮霈F(xiàn)‘腳踩西瓜皮,滑到哪兒算哪兒’的尷尬局面。”鄧小鐵說(shuō),多智能體系統(tǒng)若想有更好的發(fā)展,需要有相應(yīng)的理論基礎(chǔ),而博弈論正扮演這個(gè)角色。
此外,汪軍認(rèn)為,機(jī)器學(xué)習(xí)系統(tǒng)本質(zhì)上只是信息處理系統(tǒng)的一個(gè)子集,目前的機(jī)器學(xué)習(xí)與信息理論緊密結(jié)合,未來(lái)將有越來(lái)越多的信息學(xué)理論被應(yīng)用到機(jī)器學(xué)習(xí)以及多智能體系統(tǒng)之中。
應(yīng)重點(diǎn)投入
“強(qiáng)化學(xué)習(xí)”是當(dāng)前互聯(lián)網(wǎng)經(jīng)濟(jì)場(chǎng)景中,人們希望實(shí)現(xiàn)決策智能的核心方法之一。在工業(yè)場(chǎng)景下,目前的做法一般是先在平臺(tái)上模擬,再到現(xiàn)實(shí)中進(jìn)行適應(yīng)。這種場(chǎng)景下的強(qiáng)化學(xué)習(xí)一般可以相對(duì)準(zhǔn)確地進(jìn)行模擬和應(yīng)用。
然而,在樣本有效性問(wèn)題上,一旦模擬器模擬出的數(shù)據(jù)不精確,數(shù)據(jù)的意義將大打折扣。
上述論壇與會(huì)學(xué)者介紹說(shuō),這是因?yàn)?,?dāng)前的“模擬”多數(shù)僅是機(jī)械模擬環(huán)境,且常用高斯過(guò)程的混合模型模擬,仍然處于相對(duì)初級(jí)的階段??梢钥吹剑?dāng)前的強(qiáng)化學(xué)習(xí)技術(shù)在較復(fù)雜場(chǎng)景中往往不能很好地工作,只有序列性強(qiáng)、動(dòng)作空間簡(jiǎn)單的場(chǎng)景(如網(wǎng)易云、快手等的音視頻推薦)才比較容易刻畫(huà)。
這也導(dǎo)致,相比于計(jì)算機(jī)視覺(jué)等感知智能,決策智能目前的應(yīng)用落地仍不明顯。針對(duì)這一現(xiàn)象,與會(huì)學(xué)者們認(rèn)為,虛實(shí)混合、數(shù)字孿生、教育場(chǎng)景下的搜索推薦等場(chǎng)景都是強(qiáng)化學(xué)習(xí)有可能產(chǎn)生應(yīng)用的地方,學(xué)術(shù)界可以主動(dòng)進(jìn)入工業(yè)界,一邊創(chuàng)業(yè)一邊研究,進(jìn)而推動(dòng)工業(yè)界變革。
“人工智能還處在對(duì)環(huán)境沒(méi)有適應(yīng)、認(rèn)知和學(xué)習(xí)能力的發(fā)展初級(jí)階段。”與會(huì)學(xué)者認(rèn)為,決策智能作為人工智能三個(gè)流派的融合入口,將成為研究的主流。
“決策智能的基礎(chǔ)理論、算法、環(huán)境、評(píng)價(jià)、應(yīng)用等研究方興未艾。我國(guó)應(yīng)當(dāng)將面向重大需求的決策智能作為重點(diǎn)投入、發(fā)展和突破的方向。”徐波表示。