清華大學(xué)崔鵬:可信智能決策框架及實(shí)踐
一、一種可信智能決策框架
首先和大家分享一種可信智能決策框架。
1、比預(yù)測(cè)更重要的決策
在實(shí)際的很多場(chǎng)景中,決策比預(yù)測(cè)更加重要。因?yàn)轭A(yù)測(cè)本身的目的并不只是單純地預(yù)知未來長什么樣子,而是希望通過預(yù)測(cè)去影響當(dāng)下的一些關(guān)鍵行為和決策。
在很多領(lǐng)域,包括商業(yè)社會(huì)學(xué)領(lǐng)域,做決策非常重要,比如持續(xù)的業(yè)務(wù)增長(Continual business growth)、新商業(yè)機(jī)會(huì)發(fā)現(xiàn)(New business opportunity)等,如何通過數(shù)據(jù)驅(qū)動(dòng)來更好地支撐最終的決策,是人工智能領(lǐng)域不可忽視的一部分工作。
2、無處不在的決策
決策場(chǎng)景無處不在。眾所周知的推薦系統(tǒng),給一個(gè)用戶推薦什么樣的商品,實(shí)際上是在所有商品里做了一個(gè)選擇決策(selection decision)。在電子商務(wù)中的定價(jià)算法,比如物流服務(wù)定價(jià)等,如何為一個(gè)服務(wù)制定一個(gè)合理的價(jià)格;在醫(yī)療場(chǎng)景中,針對(duì)病人的癥狀,應(yīng)該推薦使用哪種藥物或者治療方式,這些都是干預(yù)性的決策場(chǎng)景。
3、決策的通常做法 1:用模擬器做決策
學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)決策都不陌生,有一些常用的方法去解決或是探討決策的問題,總結(jié)下來有兩種通常的做法。
第一種通常做法是用模擬器做決策,即強(qiáng)化學(xué)習(xí)(reinforcement learning)。強(qiáng)化學(xué)習(xí)是非常強(qiáng)大的一類做決策的方法體系,相當(dāng)于有一個(gè)真實(shí)場(chǎng)景(environment),或者有一個(gè)對(duì)真實(shí)場(chǎng)景的模擬,就可以通過智能代理(agent)不斷和真實(shí)場(chǎng)景進(jìn)行試錯(cuò)學(xué)習(xí),不斷探索關(guān)鍵行為(action),最終找到在此真實(shí)場(chǎng)景中收益(reward)最大的關(guān)鍵行為。
整套強(qiáng)化學(xué)習(xí)的決策體系在很多實(shí)際應(yīng)用問題上,會(huì)被大家首先想到。但是在真實(shí)的應(yīng)用場(chǎng)景下,使用強(qiáng)化學(xué)習(xí)最大的挑戰(zhàn)是有沒有一個(gè)很好的對(duì)真實(shí)場(chǎng)景的模擬器。模擬器的構(gòu)建本身就是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。當(dāng)然比如阿爾法狗(Alphago)象棋等游戲場(chǎng)景,總體上來講規(guī)則是相對(duì)封閉的,去構(gòu)造一個(gè)模擬器還是比較容易的。但是在商業(yè)上和真實(shí)生活中,大多是開放性的場(chǎng)景,比如無人駕駛,很難給出一個(gè)非常完備的模擬器。要構(gòu)造出模擬器,就需要對(duì)該場(chǎng)景有非常深入的理解。因此,構(gòu)造模擬器本身可能是比做決策、做預(yù)測(cè)更難的一個(gè)問題,這實(shí)際上是強(qiáng)化學(xué)習(xí)的局限性。
4、決策的通常做法 2:用預(yù)測(cè)做決策
另外一種通常做法就是用預(yù)測(cè)去做決策。指的是,雖然現(xiàn)在不知道什么樣的決策好,但假如有一個(gè)預(yù)測(cè)器,能夠在預(yù)測(cè)空間里邊“打哪指哪”,如下圖左邊所示,像人射箭一樣,可以先放幾箭去打靶子,發(fā)現(xiàn)哪一箭射得比較好,就取這一箭的關(guān)鍵行為做相關(guān)決策。如果有這樣的一個(gè)預(yù)測(cè)空間,就可以用預(yù)測(cè)做決策。
但是決策的效果取決于預(yù)測(cè)空間的準(zhǔn)確性,到底預(yù)測(cè)得準(zhǔn)不準(zhǔn)。雖然在預(yù)測(cè)空間,打中了 10 次靶子,但當(dāng)應(yīng)用到實(shí)際的生活或產(chǎn)品時(shí),中靶次數(shù)為 0,這就說明預(yù)測(cè)空間是不準(zhǔn)的。到目前為止在預(yù)測(cè)任務(wù)上,最有信心的一個(gè)場(chǎng)景是在獨(dú)立同分布假設(shè)下做預(yù)測(cè),即測(cè)試分布(test distribution)和訓(xùn)練分布(training distribution)是同一個(gè)分布,當(dāng)下有非常多強(qiáng)大的預(yù)測(cè)模型(prediction model),可以很好地解決實(shí)際問題。這就告訴我們:預(yù)測(cè)準(zhǔn)確性好不好,某種程度上取決于實(shí)際場(chǎng)景下的測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的分布是不是滿足獨(dú)立同分布。
繼續(xù)深入思考一下預(yù)測(cè)準(zhǔn)確性問題。假設(shè)基于歷史數(shù)據(jù) P(X,Y) 構(gòu)造了一個(gè)預(yù)測(cè)模型,然后去探索一些不同的關(guān)鍵行為所帶來收益,即如前面所述的多次射箭,看到底哪一次靶數(shù)最大。拆解一下,可以分為兩類不同的情況。
第一類是給定決策變量,優(yōu)化取值。事先知道了輸入變量 X 中哪一個(gè)是比較好的決策變量,比如價(jià)格是 X 里面的一個(gè)決策變量,則變化價(jià)格變量的取值,用已構(gòu)造出來的 P(X,Y) 預(yù)測(cè)模型去預(yù)測(cè)改變?nèi)≈岛蟮那闆r如何。
另外一類是尋求最優(yōu)決策變量,并優(yōu)化取值。事先并不知道 X 中哪一個(gè)是比較好的決策變量,場(chǎng)景上相對(duì)比較靈活,需要尋求最優(yōu)的決策變量并優(yōu)化其取值,也就是變化最優(yōu)的決策變量的取值,然后看哪個(gè)取值經(jīng)過預(yù)測(cè)模型預(yù)測(cè)的結(jié)果好。
基于這樣的前提假設(shè),在改變決策變量的取值時(shí),實(shí)際上是改變了 P(X),即 P(X) 發(fā)生了變化,P(X,Y) 肯定會(huì)發(fā)生變化,那么獨(dú)立同分布的假設(shè)本身就不成立了,意味著預(yù)測(cè)實(shí)際上很有可能失效。因此決策問題,如果用預(yù)測(cè)的方式來做,就會(huì)觸發(fā)分布外泛化的問題,因?yàn)楦淖兞藳Q策變量的取值,一定會(huì)發(fā)生分布偏移(distribution shift)。在分布偏移的情況下,怎么樣做預(yù)測(cè),是屬于分布外泛化的預(yù)測(cè)問題范疇,不是今天文章的主題。如果在預(yù)測(cè)領(lǐng)域能夠解決分布外泛化的預(yù)測(cè)問題,用預(yù)測(cè)做決策也是可行的路徑之一。但當(dāng)下用 ID(In-Distribution)或者直接預(yù)測(cè)(direct prediction)的方法做決策,從理論上來講是失效的,是有問題的。
5、決策問題是因果范疇
在談到?jīng)Q策問題時(shí),通常都會(huì)直接把決策問題和因果掛鉤,所謂決策,就是要做一個(gè)什么樣的決定,肯定要問為什么做這樣一個(gè)決定,很明顯存在因果鏈條,在學(xué)界很多學(xué)者的共識(shí)是:要解決決策問題,是繞不開因果的,也就是要從可觀測(cè)的數(shù)據(jù)(observational data)上來去獲取足夠的因果關(guān)系信息(causal information),并理解相關(guān)的因果機(jī)制(causal mechanism),然后基于因果機(jī)制再去設(shè)計(jì)最終做決策的一些策略。如果能夠把整個(gè)過程都理解得很透徹,就能完美地復(fù)原整個(gè)因果機(jī)制,這樣決策就不是問題,因?yàn)閷?shí)際上相當(dāng)于具有了上帝視角,就不存在做決策的挑戰(zhàn)。
6、一種對(duì)決策的框架性描述
早在 2015 年,Jon Kleinberg 就在一篇論文中發(fā)表過:決策問題不是只有因果機(jī)制能解決,即不是所有的決策問題都需要因果機(jī)制去解決。Jon Kleinberg 是康奈爾大學(xué)的知名教授,著名的 hits 算法、六度風(fēng)格理論等都是 Jon Kleinberg 的研究成果。Jon Kleinberg 在 2015 年發(fā)表了一篇關(guān)于決策問題的論文,“Prediction Policy Problems”[1]。他認(rèn)為有些決策問題就是預(yù)測(cè)策略問題,并且為了證明該論點(diǎn),給出了一種對(duì)決策的框架性描述,如下圖所示。
Π 是收益函數(shù)(Payoff function),x0 是決策變量(Decision Variable),Y 是因決策變量產(chǎn)生的結(jié)果(Outcome),Π 實(shí)際上是 x0 和 Y 的函數(shù)。那 x0 怎樣變化,Π 是最大的,就可以去求這樣的一個(gè)導(dǎo)數(shù) :
然后將它展開為:
展開后,根據(jù) Y 和 x0 是否不相關(guān),等式右邊分別刻畫了兩種決策(decision)場(chǎng)景。第一種決策場(chǎng)景,就是 Y 和 x0 不相干時(shí),即,但 和 Y 是有關(guān)系的,這種情況下,如果能夠很好地預(yù)測(cè) Y,就能用已預(yù)測(cè)的 Y,更有針對(duì)性地用 來做決策,這就是預(yù)測(cè)性決策問題。另外一種決策場(chǎng)景為,x0 做了這樣的一個(gè)決策,會(huì)影響 Y,Y 又會(huì)影響收益,這就是一個(gè)因果性決策問題。那什么情況下決策場(chǎng)景是因果性的,什么情況下是預(yù)測(cè)性的呢,后續(xù)會(huì)有案例解釋;當(dāng)然也有復(fù)合性決策場(chǎng)景,既有因果性的,又有預(yù)測(cè)性的。到此,就初步地框架性地描述了決策問題是怎樣的。
7、決策場(chǎng)景的兩個(gè)案例
如上圖所示的兩種決策場(chǎng)景,其中 x0 是決策變量(decision variable),在兩個(gè)場(chǎng)景下的定義是分別不同的。
先看左邊的場(chǎng)景案例。要不要帶傘,和是否下雨之間是沒有關(guān)系的,即 x0 和 Y 不相關(guān),帶入到
中,即:
為 0,則:
那么預(yù)測(cè)出來是否要下雨,最終的收益是不一樣的。所以這個(gè)例子很明顯是一個(gè)預(yù)測(cè)性決策(prediction decision)。
右邊的案例是如果你是一個(gè)酋長,要不要花錢請(qǐng)人跳大神求雨,實(shí)際上很大程度上取決于“跳大神”到底能不能求到雨,是否有因果效應(yīng)。等式右側(cè)的
,如果能預(yù)測(cè)出來是否下雨,那么:
為 0,即收益(是否下雨)和決策變量(跳不跳大神)其實(shí)是沒有任何關(guān)系的。那么這就不是一個(gè)預(yù)測(cè)性決策,是一個(gè)純粹的因果性決策。
通過上述兩個(gè)實(shí)際的決策案例場(chǎng)景,可以將決策問題劃分為兩類:預(yù)測(cè)性決策和因果性決策,并且 Jon Kleinberg 給出的決策問題的框架,也很好地說明了對(duì)決策的劃分。
8、決策的復(fù)雜性
Jon Kleinberg 的論文中給出的一個(gè)觀點(diǎn)是,對(duì)于預(yù)測(cè)性決策問題,就只管預(yù)測(cè)的好不好,因果機(jī)制不一定是必須的,預(yù)測(cè)模型在決策場(chǎng)景上很好用,對(duì)決策問題有很好的表達(dá)能力,可以把很多情況都融合在一起。但實(shí)際上決策的復(fù)雜性是超出之前對(duì)預(yù)測(cè)場(chǎng)景的理解的。大部分情況下,在解決預(yù)測(cè)問題時(shí),只是盡力而為(best effort),盡量用更復(fù)雜的模型,更多的數(shù)據(jù),希望提升最終的準(zhǔn)確率,即盡力而為的模型(best effort model)。
但決策場(chǎng)景下受制約的限制因素遠(yuǎn)比預(yù)測(cè)要多。決策實(shí)際上是最后一公里,最后做出的某個(gè)決策確實(shí)會(huì)影響方方面面,影響很多利益相關(guān)主體,涉及到非常復(fù)雜的社會(huì)性、經(jīng)濟(jì)性的因素。例如,同樣是貸款,對(duì)于不同性別、不同區(qū)域的人是否存在歧視,就是很典型的算法公平性問題。大數(shù)據(jù)殺熟,同樣的商品對(duì)不同人給出不同的價(jià)格,也是一個(gè)問題。近幾年來大家深有體會(huì)的信息繭房,就是不斷按照用戶興趣或者相對(duì)比較窄的頻譜上的興趣,集中地對(duì)某個(gè)用戶進(jìn)行推薦,就會(huì)造成信息繭房。長此以往,就會(huì)出現(xiàn)一些不好的文化和社會(huì)現(xiàn)象。所以做決策時(shí),要考慮更多的因素,才可以做出可信的決策。
9、一種可信智能決策的框架
從決策可信角度對(duì) Jon Kleinberg 給出的決策問題框架繼續(xù)進(jìn)行解讀。雖然 Jon Kleinberg 本身提出這個(gè)決策問題框架是主張預(yù)測(cè)模型(prediction model)對(duì)于決策問題的有效性,但實(shí)際上該決策問題框架的內(nèi)涵非常豐富,下面依次對(duì)該決策問題框架的各項(xiàng)進(jìn)行解讀。
首先是最右邊的一項(xiàng):
針對(duì)一些反事實(shí)的現(xiàn)象,就是某些 x0 沒有出現(xiàn),但假設(shè)它出現(xiàn),到底 Y 會(huì)發(fā)生一些什么樣的變化,是一個(gè)典型的反事實(shí)推理,是因果推斷中核心的部分,當(dāng)然在 Judea Pearl 給出的框架里,它是第三階梯了。關(guān)于反事實(shí)推理有很多不同的理解和解釋,這里所談到的反事實(shí)推理姑且認(rèn)為是合理的。
第二項(xiàng)是,實(shí)際相當(dāng)于收益函數(shù)和模型結(jié)果之間的關(guān)系。Y 和 Π 的關(guān)系有比較簡單的場(chǎng)景。比如進(jìn)行商品推薦時(shí),給用戶推薦什么樣的商品,用戶會(huì)點(diǎn)擊,優(yōu)化后的最后的收益函數(shù)(Payoff function),實(shí)際上就是總體點(diǎn)擊率。這種是兩者關(guān)系比較簡單的場(chǎng)景。但是實(shí)際業(yè)務(wù)中,不管是從平臺(tái)還是從監(jiān)管的角度,Y 和 Π 的關(guān)系大部分情況下是非常復(fù)雜的。比如后續(xù)會(huì)講到的一個(gè)案例,在做平臺(tái)的收益優(yōu)化時(shí),不能只看當(dāng)下的點(diǎn)擊率,要看長期收益;當(dāng)看長期的收益時(shí),Y 和 Π 的關(guān)系就會(huì)相對(duì)復(fù)雜,即復(fù)雜收益。
第三項(xiàng)是 Y,核心任務(wù)就是做預(yù)測(cè)(prediction),但如果預(yù)測(cè)(prediction)是用來做決策的,并且決策場(chǎng)景是社會(huì)屬性的,比如影響到個(gè)人征信,影響到高考是不是被錄取,影響到犯人是否會(huì)被釋放等,那么所有的這些所謂的預(yù)測(cè)性的任務(wù),都會(huì)要求預(yù)測(cè)必須是公平的,不能去用一些比較敏感(sensitive)的維度變量,比如性別、種族、身份等去做預(yù)測(cè)。
第四項(xiàng)是:
,指的是收益和決策之間的關(guān)系。常規(guī)來講,應(yīng)該是在收益最大化的前提下去做決策。但現(xiàn)實(shí)中,不管是國內(nèi)還是國際上,都逐漸地加大了對(duì)平臺(tái)性算法的監(jiān)管力度,即在收益函數(shù)(Payoff function)的設(shè)計(jì)上增加監(jiān)管因素,使得做決策時(shí)是有一定限制的。比如定價(jià),不能平臺(tái)隨意定,而是在收益函數(shù)(Payoff function)里加入一些監(jiān)管因素,這就是可監(jiān)管決策。
這個(gè)決策問題框架包含了不同層面的場(chǎng)景,也可以認(rèn)為它有以上四個(gè)不同的子方向。但是總體上以上四個(gè)子方向都和可信決策是非常相關(guān)的,也就是如果要保證角色可信,必須要考慮方方面面的因素。但總體上來講,都可以用 Jon Kleinberg 給出的框架進(jìn)行統(tǒng)一的表述。
接下來會(huì)依次介紹可信智能決策框架下的四個(gè)子方向:反事實(shí)推理、復(fù)雜收益、預(yù)測(cè)公平性和可監(jiān)管決策。
二、可信智能決策中的反事實(shí)推理
首先介紹關(guān)于可信智能決策框架下的反事實(shí)推理的一些思考和實(shí)踐。
1、反事實(shí)推理
反事實(shí)推理有三個(gè)場(chǎng)景。
第一是策略平均效果評(píng)估(Off-Policy Evaluation)。對(duì)于一個(gè)給定的策略(policy),不希望進(jìn)行 AB 測(cè)試,因?yàn)?AB 測(cè)試成本太高,因此在離線數(shù)據(jù)上評(píng)測(cè)該策略上線后,會(huì)有什么樣的效果,就相當(dāng)于對(duì)整個(gè)族群(population)或所有 sample 進(jìn)行評(píng)測(cè),比如對(duì)所有用戶群體的一個(gè)整體效果評(píng)估。
第二是策略個(gè)體效果評(píng)估(Counterfactual Prediction),是對(duì)策略在一個(gè)個(gè)體層面的效果進(jìn)行預(yù)測(cè),不是整體平臺(tái)性策略,而是針對(duì)某個(gè)個(gè)體進(jìn)行一定的干預(yù)后,會(huì)有什么樣的效果。
第三是策略優(yōu)化(Policy Optimization),即怎么樣去為一個(gè)個(gè)體選擇效果最好的干預(yù)。和個(gè)體效果預(yù)測(cè)不一樣,個(gè)體效果預(yù)測(cè)是先知道怎么干預(yù),然后預(yù)測(cè)干預(yù)后的效果;策略優(yōu)化是事先不知道怎么干預(yù),但尋求怎樣干預(yù)之后的效果最好。
2、策略平均效果評(píng)估
(1) 策略平均效果評(píng)估的問題框架概述
策略平均效果評(píng)估,就是基于從策略 Π0(Behavior policy)產(chǎn)生的離線數(shù)據(jù) D,評(píng)估策略 Π(Target policy)的效用值(Utility)。
Π0 是已有的一個(gè)策略,比如現(xiàn)有推薦系統(tǒng)中一直在用的推薦策略。
現(xiàn)有策略下產(chǎn)生的離線數(shù)據(jù) D 蘊(yùn)含至少三個(gè)維度,如上圖所示,xi 就是背景信息(Context),比如在推薦系統(tǒng)中的用戶和商品的屬性;ai 是行為, 比如推薦系統(tǒng)中某個(gè)商品有沒有對(duì)用戶曝光;ri 是最終結(jié)果(reward),比如推薦系統(tǒng)中用戶是否最終點(diǎn)擊或者購買商品。
基于歷史數(shù)據(jù)去評(píng)測(cè)一個(gè)新的策略 Π(Target policy)的效用值(Utility)。所以整體的框架就是在某個(gè)背景(context)下,某策略(policy)會(huì)有對(duì)應(yīng)的行為或者干預(yù)變量(treatment),這個(gè)干預(yù)變量(treatment)觸發(fā)后,就會(huì)產(chǎn)生對(duì)應(yīng)結(jié)果。其中,效用值(Utility)即前述的收益(Payoff),在簡化 前提下,效用值就是所有用戶產(chǎn)生的結(jié)果的總和,或者平均效果。
(2)策略平均效果評(píng)估的現(xiàn)有方法
傳統(tǒng)的策略平均效果評(píng)估方法是基于結(jié)果預(yù)測(cè)的方法(Direct Method),在新的策略(policy)下給定 xi,對(duì)于主體,建議曝光還是不曝光,即對(duì)應(yīng)的行為,就要預(yù)測(cè)如果進(jìn)行了曝光,最終用戶會(huì)不會(huì)購買,或會(huì)不會(huì)點(diǎn)擊,即最終獲得的結(jié)果(reward)。但請(qǐng)注意,reward 實(shí)際上是一個(gè)預(yù)測(cè)函數(shù)(prediction function),是通過歷史數(shù)據(jù)得到的。歷史數(shù)據(jù)中的 x、a 和 r 的聯(lián)合分布(joint distribution)實(shí)際是在 Π0 下產(chǎn)生的,現(xiàn)在換了一個(gè) Π 所產(chǎn)生的數(shù)據(jù)分布,再用原來 Π0 下產(chǎn)生的聯(lián)合分布預(yù)測(cè)模型(joint distribution prediction model)去做預(yù)測(cè),很顯然這是一個(gè) OOD(Out-of-Distribution)問題,如果后面用 OOD 預(yù)測(cè)模型,那么數(shù)據(jù)分布偏移問題有可能得到緩解,如果用一個(gè) ID(In-Distribution)預(yù)測(cè)模型,原則上肯定會(huì)出問題。這是傳統(tǒng)的策略平均效果評(píng)估方法。
另外一種方法是基于因果推斷的,引入了傾向指數(shù)(propensity score),其核心思想是,用原始策略下的三元組(xi,ai,ri ) 在新的策略下,到底應(yīng)該使用什么樣的權(quán)重去加權(quán)最終產(chǎn)生的結(jié)果。權(quán)重應(yīng)該是給定 xi,在新策略下 xi 曝光(ai)的概率和在原有策略下 xi 進(jìn)行曝光(ai)的概率之比,即在新的策略下,對(duì)一個(gè)三元組所對(duì)應(yīng)的結(jié)果進(jìn)行加權(quán)的一個(gè)系數(shù)。該種做法最難的地方是在原始策略下,給定 xi 后,對(duì)應(yīng) ai 的概率分布其實(shí)是不知道的,因?yàn)樵疾呗钥赡芎軓?fù)雜,也有可能是多個(gè)策略的疊加,并沒有辦法顯性地刻畫對(duì)應(yīng)的分布,因此需要進(jìn)行估算,那么就會(huì)存在估算是否準(zhǔn)確的問題,并且該估算值在分母上,會(huì)導(dǎo)致整個(gè)方法的分布方差(variance)非常大。另外使用傾向指數(shù)(propensity score)的估計(jì)本身就存在問題,假設(shè)傾向指數(shù)(propensity score)的函數(shù)是線性的,還是非線性的,是什么形式,估計(jì)是否準(zhǔn)確等等。
(3)策略平均效果評(píng)估的新方法:FCB estimator
借鑒因果關(guān)系(Causality)的直接混淆變量平衡(directly confounder balancing),提出了對(duì)樣本直接加權(quán)的方法,使得加權(quán)后,可以保證在各個(gè)對(duì)應(yīng)行為群(action group)的分布 P(X|ai)整體上和 P(X) 是一致的。
歷史數(shù)據(jù)是在給定 Π0 的情況下產(chǎn)生的,要去掉因 Π0 引起的分布偏差(bias),具體做法如上圖所示,原始的數(shù)據(jù)分布 P(X),在 Π0 的作用下,相當(dāng)于把 P(X) 劃分為若干個(gè)子分布 P(X|a=1)、P(X|a=2)、P(X|a=3)、...、P(X|a=K),即不同的行為下對(duì)應(yīng) P(X) 的一個(gè)子集,是無偏的分布,每個(gè)行為群下都有因 Π0 而引起的偏差,要去掉偏差,可以通過對(duì)經(jīng) Π0 而產(chǎn)生的歷史數(shù)據(jù)進(jìn)行重加權(quán),使得加權(quán)以后的所有子分布,都逼近原始分布 P(X),即樣本直接加權(quán)。
預(yù)測(cè)一個(gè)新的策略在歷史數(shù)據(jù)的前提下最終的效果會(huì)是什么樣的,需要分兩步進(jìn)行。第一步,就是如前所述,先通過樣本直接加權(quán)的方式去掉原始策略 Π0 所帶來的偏差。第二步,要預(yù)測(cè)新策略 Π 的效果,也就是在新策略 Π 引起的偏差下去預(yù)估最終的效果,所以需要加上新策略 Π 引起的偏差
因此:
其中 wi 就相當(dāng)于第一步去掉 Π0 帶來的偏差:
相當(dāng)于把新策略的偏差加上,這樣就可以預(yù)測(cè)一個(gè)新的策略最終的效果。具體方法不贅述,可以參考論文 [2]。
新方法 FCB Estimator 的最后提升效果如上圖所示,提升效果非常明顯,不管是從偏差(bias),還是 RMSE 的維度上來講,相對(duì)提升大概有 15%-20%。FCB Estimator 在變化 sample size 和 context 維度的不同場(chǎng)景下都顯著優(yōu)于 baseline。相關(guān)論文發(fā)表在 KDD 2019 [2]。
3、策略個(gè)體效果預(yù)測(cè)
(1)策略個(gè)體效果預(yù)測(cè)的整體描述
策略個(gè)體效果預(yù)測(cè)就是要充分考慮個(gè)體異質(zhì)性,直接對(duì)個(gè)體實(shí)施差別化干預(yù),即尊重個(gè)體意志,對(duì)不同的個(gè)體實(shí)施不同的干預(yù)。
(2)現(xiàn)有方法的局限
策略個(gè)體效果預(yù)測(cè)常用的方法是直接對(duì)個(gè)體進(jìn)行預(yù)測(cè)建模,也就是基于歷史觀測(cè)數(shù)據(jù):
然后訓(xùn)練得到反事實(shí)預(yù)測(cè)模型:
,即給定了 X 和 T,能比較合理和準(zhǔn)確地預(yù)測(cè)實(shí)際效果 y 是怎樣的。
如果直接在歷史數(shù)據(jù)分布下,做回歸分析或者類似的模型,是有問題的。因?yàn)闅v史觀測(cè)數(shù)據(jù)中的 ti 和 xi 并不獨(dú)立,直接學(xué)習(xí)(X,T)與 Y 直接的映射函數(shù)必然受到 X 與 T 之間的關(guān)系影響,也就相當(dāng)于給定了一個(gè) xi,在歷史數(shù)據(jù)里面必然對(duì)應(yīng)一個(gè) ti,比如 ti 就應(yīng)該等于 0,當(dāng)干預(yù) T 時(shí),比如硬要把 ti 改成 1,實(shí)際上就已經(jīng)不服從原來的歷史分布了,意味著在歷史數(shù)據(jù)分布下構(gòu)造出來的 ID(In-Distribution)預(yù)測(cè)模型就無效了,觸發(fā)了 OOD(Out-of-Distribution)。
因此在構(gòu)造所謂的預(yù)測(cè)模型時(shí),就需要消除 X 和 T 之間的關(guān)聯(lián),分別估計(jì) X 對(duì) Y 的影響和 T 對(duì) Y 的影響,這種情況,如果干預(yù)或改變了 T,和 X 就沒關(guān)系,到底對(duì) Y 會(huì)有什么影響和變化,完全由 T->Y 這條鏈路決定,就不存在 OOD(Out-of-Distribution)問題了。
傳統(tǒng)做法是采用樣本重加權(quán)(Sample Re-weighting)的方法來去除 X 和 T 之間的關(guān)聯(lián),有兩種方法:(1)逆傾向性得分加權(quán),(2)變量平衡。但這些方法都存在局限性:只適用于簡單類型的干預(yù)變量(treatment)場(chǎng)景,二值或離散值。在真實(shí)的應(yīng)用場(chǎng)景下,比如推薦系統(tǒng),干預(yù)變量(treatment)維度很高,給用戶推薦商品,推薦的是一個(gè)束(bundle),即從很多商品中進(jìn)行推薦。當(dāng)干預(yù)變量(treatment)維度很高時(shí),使用傳統(tǒng)的方法,把初始干預(yù)變量(raw treatment)和混淆變量(confounder) X 直接去關(guān)聯(lián),復(fù)雜度非常高,甚至樣本空間不足夠來去支撐高維度的干預(yù)變量(treatment)。
(3)策略個(gè)體效果預(yù)測(cè)新方法:VSR
如果假設(shè)高維度的干預(yù)變量(treatment)存在低維隱變量結(jié)構(gòu),也就是給出高維度的干預(yù)變量(treatment)原則上不是隨機(jī)出來的,比如推薦系統(tǒng)中,給定推薦策略推薦出來的商品束(bundle),里面的商品和商品之間都有各種各樣的關(guān)系,存在低維隱變量結(jié)構(gòu),也就是推薦商品列表由若干因素所決定。
如果高維度的干預(yù)變量(treatment)下有一個(gè)隱變量(latent variable) z,實(shí)際上可以把問題轉(zhuǎn)化為 x 與 z 之間的去關(guān)聯(lián),即和隱性因素(latent factor)之間去相關(guān)。通過這種方式,可以在有限的樣本空間下實(shí)現(xiàn)束處理(bundle treatment)。
因此提出了新方法 VSR。VSR 方法中,首先是高維度干預(yù)變量(treatment)的隱變量 z(latent variable z)的學(xué)習(xí),即使用變分自編碼器(VAE)進(jìn)行學(xué)習(xí);然后是權(quán)重函數(shù) w(x,z)的學(xué)習(xí),通過樣本重加權(quán)的方式對(duì) x 和 z 之間進(jìn)行去相關(guān)(decorrelation);最后在重加權(quán)的相關(guān)分布下直接使用回歸分析模型(regression model),就能得到一個(gè)比較理想的策略個(gè)體效果預(yù)測(cè)模型。
上圖是新方法 VSR 的實(shí)驗(yàn)驗(yàn)證,是在一些場(chǎng)景下,通過 Recsim 模擬器生成部分?jǐn)?shù)據(jù),以及部分人工模擬的數(shù)據(jù),進(jìn)行驗(yàn)證。可以看到,在不同的 p 的取值下,VSR 的性能都相對(duì)比較穩(wěn)定,相比其他方法有了很大的提升。相關(guān)論文發(fā)表在 NeurIPS 2020 [3]。
4、策略優(yōu)化
策略優(yōu)化和前面兩種的預(yù)測(cè)評(píng)估是有本質(zhì)性區(qū)別的。預(yù)測(cè)評(píng)估都是提前給定一個(gè)策略(policy)或者個(gè)性化的干預(yù)(individual treatment),去預(yù)估最終的結(jié)果。策略優(yōu)化,也叫策略學(xué)習(xí),目標(biāo)只有一個(gè)結(jié)果變大。比如收益要增長,應(yīng)該施加什么樣的干預(yù)。
如果現(xiàn)在有一個(gè)反事實(shí)的個(gè)體級(jí)別的預(yù)測(cè)模型 f,即策略個(gè)體效果預(yù)測(cè)模型 f,也就是給定 xi 和 ti,就可以估計(jì)出來對(duì)應(yīng)的結(jié)果,那么就可以對(duì) T 進(jìn)行遍歷,t 取什么值時(shí),f 的值最大。就相當(dāng)于構(gòu)造一個(gè)比較好的預(yù)測(cè)空間,在預(yù)測(cè)空間中“打哪指哪”。
但把策略優(yōu)化問題退化為策略個(gè)體效果預(yù)測(cè)模型的構(gòu)建,是有問題的。策略個(gè)體效果預(yù)測(cè)的目標(biāo),如前所述,實(shí)際上是相當(dāng)于給定了一個(gè)干預(yù),希望反事實(shí)預(yù)測(cè)出來的情況與真實(shí)情況的誤差盡量比較小,并且對(duì)于所有給定的干預(yù),都希望比較準(zhǔn)確。策略優(yōu)化的目標(biāo),是找到的 pf 點(diǎn)離真實(shí)情況上帝視角下的最優(yōu)決策的結(jié)果之間的距離越小越好,并不是一個(gè)全空間的策略個(gè)體效果預(yù)測(cè)的問題,而是能不能找到離最優(yōu)點(diǎn)比較近的區(qū)域,以及能不能準(zhǔn)確地預(yù)測(cè)最優(yōu)點(diǎn)。策略優(yōu)化和策略個(gè)體效果預(yù)測(cè)在目標(biāo)上是不一樣的,存在很明顯的差別。
如上圖中的案例圖所示,橫軸是不同的干預(yù)(treatment),綠線是上帝視角下的真實(shí)函數(shù),反映某個(gè)干預(yù)下真實(shí)的結(jié)果;紅線和藍(lán)線反映的兩個(gè)預(yù)測(cè)模型下的結(jié)果。從策略個(gè)體效果預(yù)測(cè)的評(píng)價(jià)角度來看,很顯然藍(lán)線是優(yōu)于紅線的,藍(lán)線離綠線的總體偏差,遠(yuǎn)小于紅線離綠線的總體偏差。但從最優(yōu)決策的角度來看,紅線的最優(yōu)結(jié)果和上帝視角的綠線的最優(yōu)結(jié)果更接近,相應(yīng)的干預(yù)也更接近,而藍(lán)線的明顯要更遠(yuǎn)。因此一個(gè)更好地策略個(gè)體效果預(yù)測(cè)模型,不一定能夠得到一個(gè)最優(yōu)的決策;并且在真實(shí)的場(chǎng)景下,數(shù)據(jù)量通常是不充分的,在全空間下去做優(yōu)化,還是從結(jié)果的角度僅在一個(gè)子區(qū)域里做優(yōu)化,優(yōu)化的效果和力度是不一樣的。
因此提出了策略優(yōu)化的新方法 OOSR,目的是加強(qiáng)結(jié)果比較好的干預(yù)區(qū)域的預(yù)測(cè)力度和優(yōu)化力度,而不是在全空間去做優(yōu)化。因此在做優(yōu)化時(shí),在做面向結(jié)果的加權(quán)(outcome-oriented weighting)時(shí),當(dāng)前的干預(yù)離給定的已經(jīng)訓(xùn)練下的最優(yōu)解的距離越近,則優(yōu)化力度更大。
上圖是 OOSR 的實(shí)驗(yàn)驗(yàn)證,可以看出,從各個(gè)角度上提升都非常明顯,有幾倍的提升,并且變化了 selection bias 的強(qiáng)度后,效果也依舊非常好。相關(guān)論文發(fā)表在 ICML 2022 [4]。
5、反事實(shí)推理總結(jié)
不管是做策略評(píng)估,還是策略優(yōu)化、策略個(gè)體效果預(yù)測(cè),實(shí)際上都是在利用因果關(guān)系(Causality),來對(duì)決策了解更多,讓決策表現(xiàn)更好,或者讓決策變得更加個(gè)性化。當(dāng)然針對(duì)不同的場(chǎng)景,還有很多開放性的問題。
三、可信智能決策中的復(fù)雜收益
在研究復(fù)雜收益,即:
時(shí),考慮這樣一個(gè)場(chǎng)景,比如推薦系統(tǒng),希望推薦的商品或信息等用戶都會(huì)購買或點(diǎn)擊,同時(shí)也會(huì)實(shí)施一些刺激,比如降價(jià),或進(jìn)行紅包回饋等等,有很多類似的商業(yè)運(yùn)營策略,雖然短期內(nèi)銷量提高了,提升效果很顯著,但從長期看并沒有非常顯著的變化,也就是商業(yè)上的很多刺激,并不是把不想買的變成想買的,而是本來一個(gè)月總需求量是 4 件,這次降價(jià)就一次性把 4 件都買完了。因此在做模型優(yōu)化時(shí),不能只考慮短期收益,要兼顧短期收益和長期收益,共同去優(yōu)化策略。
要想兼顧短期和長期收益,共同優(yōu)化策略,有兩個(gè)非常重要的方面。第一,要對(duì)消費(fèi)者的選擇模型有比較深入的理解。當(dāng)給定一個(gè)用戶時(shí),是沒有辦法得到真實(shí)的消費(fèi)者選擇模型的,需要通過研究和挖掘的方式不斷地探索,一個(gè)是探索消費(fèi)者選擇模型,另一個(gè)就是探索在消費(fèi)者選擇模型下怎么樣最大化長期收益和短期收益,以及兩者的平衡。在這個(gè)方面的工作如上兩張圖所示,就不展開講了。
從最后的效果上來看,如上圖所示,在很多真實(shí)場(chǎng)景都有顯著的收益提升。相關(guān)論文發(fā)表在 NeurIPS 2022 [5]。
四、可信智能決策中的預(yù)測(cè)公平性
如果預(yù)測(cè)要參與到?jīng)Q策中,特別是面向社會(huì)性的決策,一定要兼顧預(yù)測(cè)的公平性。
關(guān)于公平性,傳統(tǒng)的做法有 DP 和 EO,要求男女的接受概率是相等的,或者對(duì)于男女的預(yù)測(cè)能力是一樣的,都是比較經(jīng)典的指標(biāo)。但 DP 和 EO 并不能從本質(zhì)上解決公平性的問題。
比如在大學(xué)錄取的案例中,理論上各個(gè)系男生和女生的錄取率應(yīng)該都是一樣的,但實(shí)際總體上會(huì)發(fā)現(xiàn)女生的錄取率偏低,實(shí)際上這是一種辛普森悖論。大學(xué)錄取本質(zhì)上是一個(gè)公平的案例,但是 DP 的指標(biāo)檢測(cè)出來,會(huì)認(rèn)為不公平,實(shí)際上 DP 并不是一個(gè)非常完美的公平性指標(biāo)。
EO 模型本質(zhì)上確實(shí)是性別參與了決策,但在一個(gè)不公平的場(chǎng)景下,如果對(duì)于男性和女性都有一個(gè)完美預(yù)測(cè)因子,就認(rèn)為是公平的。這就說明 EO 的鑒別率是不夠的。
2020 年提出了有條件的公平性(conditional fairness)這一概念。有條件的公平性并不是要絕對(duì)地去保證最終結(jié)果和敏感因素(sensitive attributes)獨(dú)立,而是給定某些公平性變量(fair variable),最終結(jié)果和敏感因素獨(dú)立,就認(rèn)為是公平的。比如專業(yè)選擇,是公平的,是一個(gè) fair variable,因?yàn)槭菍W(xué)生主觀能動(dòng)性可以決定的,不存在公平性問題。
這樣做帶來了非常多的好處。從預(yù)測(cè)的角度來講,公平性和預(yù)測(cè)之間實(shí)際上就是一種權(quán)衡,也就是公平性要求越強(qiáng),可用的預(yù)測(cè)變量(predictive variable)就會(huì)越少。比如在 EO 的框架下,只要一個(gè)變量是在從性別到結(jié)果決策之間的鏈路上,是都不能用的,用了就會(huì)導(dǎo)致很多變量實(shí)際上預(yù)測(cè)效率非常高,但是不能做預(yù)測(cè)。但在有條件公平性下,給定了一個(gè)公平性變量,不管是不是在鏈路上,都可以保證預(yù)測(cè)效率可用。
在此框架下,設(shè)計(jì)和提出了 DCFR 算法模型,如下三圖所示。
下圖 DCFR 算法的實(shí)驗(yàn)驗(yàn)證。從整體上看,DCFR 算法能夠取得更好的預(yù)測(cè)和公平性的折中,從帕雷托最優(yōu)的角度上來講,左上的曲線實(shí)際上是更優(yōu)的。相關(guān)論文發(fā)表在 KDD 2020 [6]。
五、可信智能決策中的可監(jiān)管決策
最后是可信智能決策中的可監(jiān)管決策。
現(xiàn)在的平臺(tái)有很多個(gè)性化定價(jià)機(jī)制。本質(zhì)上來講,個(gè)性化定價(jià)是可以最大化社會(huì)的總效率和總剩余的。但是在某一些極端情況下,商家會(huì)把所有的剩余都拿走,而不給用戶留一分的剩余,這是我們不希望看到的。
從總體上看,就是要設(shè)計(jì)出一種策略,可以使得在社會(huì)總剩余不受太大影響的情況,商家讓渡一部分可視為財(cái)富的剩余給消費(fèi)者。
最終設(shè)計(jì)出了一種調(diào)控手段來解決這個(gè)問題,如下圖所示。也就是比如同一個(gè)商品,最高價(jià)和最低價(jià)之間不能超過一個(gè) ,或者不能超過一定的比例。理論上可以證明這樣設(shè)計(jì)的規(guī)則可以實(shí)現(xiàn)如前所述的優(yōu)化目標(biāo)。
在此種場(chǎng)景下,本質(zhì)上是通過對(duì)收益函數(shù)增加一些約束,使得在做決策的時(shí)候必須要有另一個(gè)層面的考慮。因此在這個(gè)體系下,可以把監(jiān)管相關(guān)的一些策略或者工具加入進(jìn)來。
六、可信智能決策的總結(jié)
以上就是在可信智能決策的這樣一個(gè)框架下,在反事實(shí)推理、復(fù)雜收益、預(yù)測(cè)公平性和可監(jiān)管決策各個(gè)單點(diǎn)上做的一些嘗試??傮w而言,決策的想象空間遠(yuǎn)比預(yù)測(cè)更大。在決策的領(lǐng)域里,還有很多和我們生活、商業(yè)息息相關(guān)的開放性問題值得探究。相關(guān)論文發(fā)表在WWW 2022 [7]。
PS: 本文涉及的很多技術(shù)細(xì)節(jié),可以參看崔鵬老師團(tuán)隊(duì)近期在可信智能決策方向上所發(fā)表的論文。
七、參考文獻(xiàn)
[1] Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan, Ziad Obermeyer. Prediction Policy Problems. AER, 2015。
[2] Hao Zou, Kun Kuang, Boqi Chen, Peng Cui, Peixuan Chen. Focused Context Balancing for Robust Offline Policy Evaluation. KDD, 2019。
[3] Hao Zou, Peng Cui, Bo Li, Zheyan Shen, Jianxin Ma, Hongxia Yang, Yue He. Counterfactual Prediction for Bundle Treatments. NeurIPS, 2020。
[4] Hao Zou, Bo Li, Jiangang Han, Shuiping Chen, Xuetao Ding, Peng Cui. Counterfactual Prediction for Outcome-oriented Treatments. ICML, 2022。
[5] Renzhe Xu, Xingxuan Zhang, Bo Li, Yafeng Zhang, Xiaolong Chen, Peng Cui. Product Ranking for Revenue Maximization with Multiple Purchases. NeurIPS, 2022。
[6] Renzhe Xu, Peng Cui, Kun Kuang, Bo Li, Linjun Zhou, Zheyan Shen and Wei Cui. Algorithmic Decision Making with Conditional Fairness. KDD, 2020。
[7] Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu. Regulatory Instruments for Fair Personalized Pricing. WWW, 2022。