決策智能技術(shù)浪潮襲來,數(shù)智商業(yè)領(lǐng)域如何變革?來聽聽三位專家怎么說
近年來,伴隨著廣告主的需求變化和相關(guān)技術(shù)發(fā)展,計(jì)算經(jīng)濟(jì)學(xué)理論、博弈論和人工智能技術(shù)被越來越多地應(yīng)用到廣告拍賣機(jī)制、投放策略中。
決策智能在商業(yè)場景中的意義逐漸凸顯。用戶看到的每一次商品展現(xiàn)、商家的每一次廣告出價、平臺的每一次流量分配,背后都有龐大且復(fù)雜的決策智能做支撐。
這些動作的目標(biāo)在于優(yōu)化用戶購物體驗(yàn),讓廣告投放的決策過程更加智能,同時讓廣告主、媒體在平臺實(shí)現(xiàn)長期繁榮。廣告主希望在有限的資源投入下最大化營銷效果,平臺希望能夠建立更好的生態(tài)。然而流量環(huán)境、其他參競廣告形成的競爭環(huán)境的復(fù)雜性、以及廣告投放策略中出價、目標(biāo)人群、資源位、投放時間等變量的巨大組合復(fù)雜度,使得最優(yōu)廣告投放策略的計(jì)算與執(zhí)行充滿了挑戰(zhàn)。
這些問題如何解決?效益最大化的目標(biāo)具體如何分解?這些有關(guān)于決策智能的重要議題,也是領(lǐng)域內(nèi)的研究者和從業(yè)者最關(guān)心的。
為了深入探討「數(shù)智商業(yè)場景中的決策智能」這一主題,近日,阿里媽媽博見社聯(lián)合機(jī)器之心,邀請到了北京大學(xué)鄧小鐵教授、中科院蔡少偉研究員和阿里媽媽 CTO 鄭波老師三位領(lǐng)域內(nèi)的資深學(xué)者和專家,展開了一系列主題分享。
以下為鄧小鐵教授、蔡少偉研究員、鄭波老師的主題分享內(nèi)容,機(jī)器之心在不改變原意的前提下進(jìn)行了整理。
鄧小鐵教授:計(jì)算經(jīng)濟(jì)學(xué)的幾個最新研究進(jìn)展
我今天粗糙地介紹一下計(jì)算經(jīng)濟(jì)學(xué),這是一個很有歷史的研究領(lǐng)域,最早可以追溯到 1930 年。后來的計(jì)算經(jīng)濟(jì)學(xué)從另外一個角度出發(fā),將經(jīng)濟(jì)學(xué)變成計(jì)算,之前的計(jì)算經(jīng)濟(jì)學(xué)就是通過計(jì)算做經(jīng)濟(jì)學(xué)研究,這次講一講其中的思路。
我們從計(jì)算的角度來考慮經(jīng)濟(jì)學(xué),有幾個主要關(guān)鍵問題:首先是優(yōu)化,機(jī)器學(xué)習(xí)都是優(yōu)化,從中可以看到很多優(yōu)化體系。優(yōu)化之后,還有一個問題叫做均衡,以前我們做計(jì)算經(jīng)濟(jì)學(xué)是從計(jì)劃經(jīng)濟(jì)的思路去做的,但當(dāng)時也有一派是從世界銀行做發(fā)展中國家的發(fā)展,他們給發(fā)展中國家定計(jì)劃,從優(yōu)化投入產(chǎn)出的思路展開。從計(jì)算角度算均衡會是很困難的問題,所以出現(xiàn)了一個概念,叫做可計(jì)算的一般均衡(Computable general equilibrium)。
最近,我們也越來越多可以看到動力學(xué)系統(tǒng),因?yàn)檫@個世界很多東西并不是均衡的狀態(tài),特別突出看到均衡的場景是在數(shù)字經(jīng)濟(jì)活動中,其中包括經(jīng)濟(jì)學(xué)層面的東西,比如定價。在數(shù)字經(jīng)濟(jì)中,每時每秒都可以看到交易數(shù)據(jù)和價格波動。我們可以清清楚楚看得數(shù)據(jù)的變化,而不是一年過去之后再把經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)出來。
計(jì)算經(jīng)濟(jì)學(xué)的整個框架下還有很多東西。每一個經(jīng)濟(jì)主體都要優(yōu)化,它們共同博弈的不動點(diǎn)即是均衡。平臺也會博弈均衡這件事情,特別是互聯(lián)網(wǎng)廣告平臺,做廣告的人到平臺上來,將廣告要通過平臺、媒體發(fā)放出去。對于媒體,要把廣告位置提供出來,利用自身對某一類人群的吸引力。對于平臺,要想的是如何將大家的興趣更好地匹配。阿里媽媽作為國內(nèi)最大的廣告平臺,同樣面臨著博弈均衡的問題,需要安排好各方面利益,以實(shí)現(xiàn)社會效益最大化,同時也實(shí)現(xiàn)機(jī)制設(shè)計(jì)最大收益。
我們可以從三個角度來談優(yōu)化。
首先是經(jīng)濟(jì)智能體刻畫的問題。很多機(jī)器學(xué)習(xí)的東西都寫成優(yōu)化的問題,比如怎樣用機(jī)器學(xué)習(xí)的方法算出來制約的約束條件,包括有些環(huán)境中的約束條件。
在非完全信息下,有很多條件是未知的,原來的經(jīng)濟(jì)學(xué)考慮不了如此復(fù)雜的東西,比如博弈對手的效益函數(shù)是什么、博弈對手的策略空間是什么、博弈對手都有哪些,非完全信息也是非常重要的對經(jīng)濟(jì)活動的刻畫。
很多假設(shè)可以刻畫非完全信息,比如經(jīng)濟(jì)人知道對手的效益函數(shù)、約束以及其他各種信息。關(guān)于彼此的效益函數(shù)有一個 common knowledge:我們知道 distribution。但這個 distribution 怎么來的呢?這就走進(jìn)入機(jī)器學(xué)習(xí)范疇:為什么 player 要告訴彼此、告訴我們它知道什么?針對這些,在計(jì)算角度上就有一些很合理的問題。
博弈動力學(xué),這是計(jì)算經(jīng)濟(jì)學(xué)的第三步。從實(shí)體經(jīng)濟(jì)的經(jīng)濟(jì)學(xué)來講,很多活動是經(jīng)過了 6000 年演化發(fā)展過來的,是大家慢慢地博弈,直到均衡。在數(shù)字經(jīng)濟(jì)中,想一下子到達(dá)均衡會是很大的挑戰(zhàn)。
廣告平臺優(yōu)化是阿里媽媽在做的事情。我們講了這么多難的計(jì)算任務(wù),什么時候能夠做好呢?在單參數(shù)的情況下,已有的理論能夠支撐,但是多參數(shù)怎么做到,理論上還沒有現(xiàn)成的定義。
很重要的一點(diǎn)是,整個經(jīng)濟(jì)學(xué)體系已經(jīng)建好了,但經(jīng)濟(jì)學(xué)用到互聯(lián)網(wǎng)中會產(chǎn)生一個很大的缺陷 —— 它是靜態(tài)的。大家肯定知道,業(yè)界的事情不是靜態(tài)的,比如說「雙十一」大促會產(chǎn)生很多挑戰(zhàn),如何設(shè)計(jì)紅包的價格,根據(jù)市場已知模型如何建立這些東西,這些成為了今天計(jì)算經(jīng)濟(jì)學(xué)重要的挑戰(zhàn):一是近似求解優(yōu)化,一是均衡計(jì)劃,一是平臺競爭動力學(xué)。
近似計(jì)算的難度很大,我們最多知道的均衡的解可以算到三分之一,最多是 33% 的錯誤率,跟最優(yōu)相差 33%,所以均衡計(jì)算確實(shí)挺難的。自動設(shè)計(jì)方法論、隱藏對手模型學(xué)習(xí),是這方面的框架,這里都是跟信息容量相關(guān)的東西。
另外就是與市場上的未知對手博弈。我們要考慮至少兩個 company,建立一個模型來設(shè)計(jì)它們之間的博弈,這里都是單調(diào)的,并不知道所有的信息。根據(jù)已知的信息看市場的波動、價格設(shè)計(jì)變化,我們基于此設(shè)計(jì)一個隱函數(shù)的優(yōu)化模型,用機(jī)器學(xué)習(xí)方法做分析。
多方認(rèn)知次序的先后給我們帶來博弈的認(rèn)知層次。近年來,一些研究討論了很多一價拍賣為什么比二價拍賣好。Myerson 假設(shè)所有人知道所有人的價值分布,發(fā)展了一套最優(yōu)拍賣理論,但我們實(shí)際上不知道公共知識。我們自己的研究是從另外一個角度來考慮的,出發(fā)點(diǎn)是沒有先驗(yàn)的共同知識,把原來用的概率方法建立 Myerson 最優(yōu)拍賣理論的假設(shè)放棄掉。
在沒有這套拍賣均衡的基礎(chǔ)假設(shè)的環(huán)境下,最優(yōu)解可以如何實(shí)現(xiàn)均衡?可以發(fā)現(xiàn),泛化一價拍賣收益是跟 Myerson 相等的。這里應(yīng)對買家以最優(yōu)效益為目標(biāo)公布的價值分布,賣家設(shè)計(jì)的 Myerson 最優(yōu)收益,等價于它已泛化一價拍賣的期望拍賣收益。
最終的結(jié)論是,Myerson 和 GFP 是等價的,它們要比 VCG 要好,但是在 IID 情況下是相等的,Symmetric BNE 和 GSP 也是等價的。
計(jì)算經(jīng)濟(jì)學(xué)用到的另外一個概念是馬爾可夫博弈,一種在動態(tài)環(huán)境下的博弈,特別是無窮輪博弈求解的問題。我們對問題從三個方向進(jìn)行了處理:一是為計(jì)算做了有理化的簡化,把目標(biāo)限制在近似解;二是用時間折現(xiàn)率保證無窮輪收益的收斂性;三是數(shù)學(xué)上的分階段求以及將策略不同輪的變化局限在一輪的變化。如此,無窮求和的難點(diǎn)得以克服。
我們進(jìn)一步在馬爾可夫博弈的應(yīng)用方面簡化了計(jì)算的難度。對于共識機(jī)制的設(shè)計(jì),有清晰的馬爾可夫獎勵分析,而且講了一個很好的故事。按照機(jī)制設(shè)計(jì)規(guī)定,大多數(shù)人支持它就是對。但后面發(fā)現(xiàn),大多數(shù)支持并不保證經(jīng)濟(jì)學(xué)上的安全。
對于數(shù)字經(jīng)濟(jì)設(shè)計(jì)環(huán)節(jié)的問題,我們最新的工作是可以用 Insightful mining Equilibrium 克服,用遠(yuǎn)見的策略實(shí)現(xiàn)最優(yōu),最后是馬爾科夫博弈的構(gòu)架,形成了馬爾科夫獎勵過程,增加一個認(rèn)知層級,從誠實(shí)礦池、自私礦池,再越過一個層級,達(dá)到遠(yuǎn)見礦池的結(jié)果。
同樣地,許多互聯(lián)網(wǎng)公司要處理動態(tài)的東西而非靜態(tài)的東西,如今世界經(jīng)濟(jì)學(xué)不再是以前的經(jīng)濟(jì)學(xué),此外還通過數(shù)學(xué)使得機(jī)器學(xué)習(xí)方法論和博弈論緊密結(jié)合在了一起。我們因此克服了只能處理靜態(tài)經(jīng)濟(jì)學(xué)的情形,演進(jìn)到了能夠處理動態(tài)的情形。
蔡少偉研究員:一種求解大規(guī)模稀疏組合優(yōu)化問題的高效方法
大家好,今天我分享的題目是大規(guī)模稀疏組合優(yōu)化的高效方法。很多決策問題的核心都涉及組合優(yōu)化問題,人們很關(guān)注如何選擇合適的組合方案來達(dá)到目標(biāo)最優(yōu)化。
求解組合優(yōu)化主要有兩類方法:一類是啟發(fā)式方法,包括啟發(fā)式搜索和啟發(fā)式構(gòu)造,比如大家經(jīng)常用的貪心算法就可以看作啟發(fā)式構(gòu)造的一種,貪心準(zhǔn)則就是啟發(fā)式(heuristics);另外一種是分支限界(brand-and-bound)為代表的精確算法。
啟發(fā)式方法的好處是對規(guī)模不敏感,所以可以用近似求解大規(guī)模的問題,缺點(diǎn)是往往不知道求出的解離最優(yōu)解有多大的差距,也可能已經(jīng)找到最優(yōu)解了,但是你不知道。Branch And Bound 是完備性的,如果你給它充足時間算到停下來,可以求出最優(yōu)解并且證明這是最優(yōu)解。但這個方法是有代價的,會對規(guī)模比較敏感,因?yàn)檫@類算法是指數(shù)爆炸的,往往不適用于大規(guī)模問題。
不管是做搜索還是做構(gòu)造,啟發(fā)式算法框架大多很簡單,主要是依賴于啟發(fā)式怎么設(shè)計(jì),要根據(jù)哪個準(zhǔn)則去做。分支限界方法主要在于怎么做「界」,大家看論文也會發(fā)現(xiàn),很多 Branch And Bound 的論文在做 bounding 技術(shù),怎么把這個界做得更緊,可以更好對解空間進(jìn)行剪枝。
后來我想,可不可以把這兩個結(jié)合一下?也就是說,既能夠保持對規(guī)模不敏感,又能把 bounding 技術(shù)加進(jìn)去。大家很容易想到,可以用預(yù)處理的方法,或者先做 Heuristics 再做 Branch And Bound,把 Heuristics 結(jié)果作為初始解等等。我們在這方面提出了一個新的方法 —— 嵌套地在 Heuristics 和 Branch And Bound 中去迭代。
簡單來說,這個方法先粗糙地做一個 Heuristic solving,求一個初步結(jié)果。一般來說,做 bounding 需要上下界,Heuristics 會粗糙得到一個下界,接下來通過設(shè)計(jì)上界的函數(shù)。假設(shè)這個問題規(guī)模比較大,包括很多元素,我們可以淘汰一些,使得問題縮小一圈。之后再精致一點(diǎn),繼續(xù)做 Heuristic solving,這樣可能改進(jìn)下界。在這個基礎(chǔ)上,算法可以再做一些 bounding,一直嵌套地做下去。于是這個算法就變成半精確算法,有可能可以證明這是最優(yōu)解的,因?yàn)樵谀骋徊桨l(fā)現(xiàn)問題空間足夠小,不需要 Heuristic solving 而是可以直接精確求解。另外,如果沒有求出最優(yōu)解,也可以知道最優(yōu)解的區(qū)間在哪里。
接下來舉兩個例子解釋這個方法。
第一個是「最大團(tuán)問題」。團(tuán)是圖論里很經(jīng)典的概念,在一個圖里,點(diǎn)和點(diǎn)之間都有邊相連的子圖,就稱為團(tuán),最大團(tuán)問題是找到最大規(guī)模的團(tuán)。如果給它一個加權(quán),對每個頂點(diǎn)賦予一個權(quán)重,這樣的最大加權(quán)團(tuán)問題是要找到總權(quán)重最大的團(tuán)。下圖這個例子中,分別是四團(tuán)、三團(tuán),三團(tuán)的權(quán)重更大一些,也就是這個圖的最大加權(quán)團(tuán)。
按照該框架來做這個事情,我們需要兩個子算法,一個做啟發(fā)式求解,在團(tuán)里稱為 FindClique,另外一個是化簡算法,稱為 ReduceGraph。我們可以用 FindClique 找到一個團(tuán),這個團(tuán)會比之前找到的要好。當(dāng)這個更好的團(tuán)走到 Reduce Graph,我們知道的是:最大團(tuán)至少有這么大。也是在這一步做化簡,如果圖經(jīng)過化簡變?yōu)榭?,那么說明找到的團(tuán)就是最優(yōu)解;如果沒有變?yōu)榭眨敲纯梢詼p少一些點(diǎn),再回去調(diào)整找團(tuán)的算法。這里的算法不一定是固定的算法,可以動態(tài)地變化。
我們的一項(xiàng)工作選了「construct and cut」的方法,可以理解為多次貪心的算法。
多次貪心的作用在于,每一次貪心構(gòu)造可以很快,可以從不同的起點(diǎn)出發(fā),而且如果在某次構(gòu)造過程中算出來,當(dāng)前的團(tuán)再怎么擴(kuò)展都不可能超過之前找到的團(tuán),我們就可以停止。最終目的是希望找到比以前大一些的團(tuán),啟發(fā)式要不要做得更精致以及順序如何調(diào)整,依賴于圖的規(guī)模,就像剝洋蔥一樣,剝到某一層再精化,以便有更大精力把更好的團(tuán)找出來。當(dāng)圖不能再化簡的時候,我們可以采取精確的算法,比如 Branch And Bound。找到一個團(tuán)之后,根據(jù)我們的方法,我們要做 bounding 把一些點(diǎn)扔掉,方法在于估計(jì)點(diǎn)所能發(fā)展出來的團(tuán)有多大,可以有不同方案去解決。
這兩個估界技術(shù)是作為例子,大家可以利用不同的技術(shù)去做。在實(shí)驗(yàn)方面,可以參考下表,對比 FastWClq、LSCC+BMS、MaxWClq 這些方法,求解到相同精度的時間相差十幾倍甚至上百倍。
接下來看第二個問題:「圖著色問題」。所謂著色是給圖的每個點(diǎn)涂一個顏色,相鄰兩個點(diǎn)不能為同一個顏色,圖著色問題討論的是一個圖最少可以用多少種顏色來著色,最少顏色數(shù)叫做圖的色數(shù)。圖著色問題有很多應(yīng)用,特別是在沒有沖突情況下分配資源。
這個問題大思路是一樣的 —— 啟發(fā)式求解加一些 bounding 的技術(shù)。不同的是,圖著色問題并不要求子集合,由于要對整張圖進(jìn)行著色,所以沒有「永遠(yuǎn)扔掉」這個概念,每個點(diǎn)最后都要返回去,這個點(diǎn)一定要有一個顏色。這里的 reduce 是把圖分解為 Kernel 和 Margin:
有一個很簡單的規(guī)則,還是與獨(dú)立集有關(guān),我如果知道這個圖至少需要用多少種顏色,就是顏色下界(記為?),則可以找到?-degree bound 的獨(dú)立集。這個獨(dú)立集的點(diǎn)的度數(shù)都比?小,所以叫做?-degree bound。如果找到這樣的獨(dú)立集,可以放心移到 Margin 里面。如果把 kernel 的 solution 找出來之后,我們可以很方便把 Margin 合并進(jìn)來,如果 kernel 是最優(yōu)解,合起來一定也是最優(yōu)解,這個規(guī)則可以迭代地去使用。
我們看一個例子,這個例子里面灰色的四個點(diǎn)是 kernel,可以看到至少需要 4 種顏色。旁邊的三個點(diǎn)放到邊緣上,因?yàn)槿齻€點(diǎn)的度數(shù)都比 4 小,我們放心把這三個點(diǎn)挪到旁邊先不管。然后發(fā)現(xiàn)剩下這個子圖分解不動,已經(jīng)很硬核了,可以直接求解出來。稀疏圖的硬核一般都不大,所以可以考慮精確算法求解。如果把核心找出來,因?yàn)橐阎诵闹辽儆盟膫€顏色,對于邊緣中的點(diǎn),每個點(diǎn)的度數(shù)小于 4,怎么樣都留有一個顏色給它,走一遍就可以了,線性的時間就可以了。
直到最后,每一次剝離的 Margin 都要保留下來,而且要標(biāo)記清楚是第幾層,這是與第一個問題稍微不同的地方。我們要用額外數(shù)據(jù)結(jié)構(gòu)把這些邊緣圖保留下來,最后一個剝不動的 Kernel 精確化解決之后,就可以用倒序的方法,先把最后一個 Margin 給合并進(jìn)來,根據(jù)剛才的規(guī)則保留最優(yōu)性,Kernel 是最優(yōu)的話,合并一個邊緣還會是最優(yōu),一路回溯上去,那原圖的解也一定是最優(yōu)的。
當(dāng)這個問題變成有框架的之后,就只剩下考慮如何找 lower bound 和 upper bound。算法的大致思路是:一開始 kernel 是原圖,需要用到最大團(tuán)算法找一個 lower bound;剝掉邊緣之后,可以采取貪心圖著色算法,找一個 upper bound。
這里其實(shí)用到了三種算法。實(shí)踐中比較常見組合拳打法,具體到做 kernel 著色,當(dāng)這個圖比較大的時候,我們可能通過某種貪心或者比較快的方法去做,最后有可能變成精確算法去做。整個流程中,lower bound 和 upper bound 都是全局的,如果這兩個相等,就可以停下了。
上圖是實(shí)驗(yàn)結(jié)果,可以看出在稀疏大圖上面的效果更好,144 個中里有 97 個可以在一分鐘內(nèi)證明最優(yōu)解。跟同類算法相比,我們的算法對比時間也比較快,在比較稀疏大圖上面有特殊方法可以很快求解。大家以前認(rèn)為,幾百萬頂點(diǎn)的 NP 難問題肯定要算很久,其實(shí),如果這些圖很大但有一定特點(diǎn)的話,我們還是可以在秒級和分鐘級的時間內(nèi)解決的。
阿里媽媽 CTO 鄭波:阿里媽媽持續(xù)升級的決策智能技術(shù)體系
大家好,作為阿里媽媽技術(shù)負(fù)責(zé)人,我將從業(yè)界視角分享一下過去幾年阿里媽媽在決策智能技術(shù)上的進(jìn)展。
阿里媽媽創(chuàng)立于 2007 年,是阿里巴巴集團(tuán)的核心商業(yè)化部門,也就是在線廣告部門。經(jīng)過了十幾年的發(fā)展,阿里媽媽打造過「搜索廣告淘寶直通車」這樣有影響力的產(chǎn)品,2009 年有了展示廣告、Ad Exchange 廣告交易平臺,2014 年又出現(xiàn)了數(shù)據(jù)管理平臺達(dá)摩盤,2016 年開始做全域營銷。
從技術(shù)上看的話,在 2015 年、2016 年前后,阿里媽媽全面擁抱深度學(xué)習(xí),從智能營銷引擎 OCPX 到自研 CTR 預(yù)估核心算法 MLR 模型,都是隨著深度學(xué)習(xí)的方法不斷演進(jìn)的。2018 年,深度學(xué)習(xí)框架 X-Deep Learning 開源。2019 年,Euler 圖學(xué)習(xí)框架開源,信息流產(chǎn)品超級推薦也上線了,「人找貨」進(jìn)化到了「貨找人」。2020 年開始,阿里媽媽針對直播類型的廣告上線,同時開始推出互動激勵廣告,比如大家玩得比較多的互動游戲「雙十一」疊貓貓。曲率空間學(xué)習(xí)框架也在這一年開源。
2022 年,阿里媽媽將整個廣告引擎做了重大升級。廣告引擎平臺 EADS 和多媒體生產(chǎn)與理解平臺 MDL 都上線了;在消費(fèi)者隱私保護(hù)上,阿里媽媽的隱私計(jì)算技術(shù)能力獲得了中國信通院認(rèn)證。回顧阿里媽媽過去十五年的發(fā)展,可以看出,我們是一家「根正苗紅」做計(jì)算廣告的公司。
阿里媽媽有什么優(yōu)勢呢?在非常專業(yè)的電商場域,我們對用戶和電商理解是非常強(qiáng)的,業(yè)務(wù)場景也非常豐富,除了傳統(tǒng)的搜索推薦是傳統(tǒng),在直播推廣、互動、新形態(tài)等數(shù)智業(yè)務(wù)場景上都有涉獵。此外我們的客戶規(guī)模屬于全球領(lǐng)先,幾百萬的商家都是阿里媽媽平臺的廣告客戶。這些客戶有非常多的需求,除了商家對經(jīng)營的需求,還有各種各樣的生態(tài)角色涉及其中,比如主播、達(dá)人或者代理商、服務(wù)商,他們以不同角色在這個平臺里活躍。
我們在 AI 方面也有比較多的研究。這里介紹一下廣告場景算法技術(shù)的特色。如上圖,左邊的倒漏斗型結(jié)構(gòu),很多做搜索或者推薦同學(xué)非常熟悉,這一部分廣告和搜索推薦非常相似,包括廣告召回、粗排序、精排序到機(jī)制策略的打分,涉及到信息檢索等大量 AI 技術(shù),特別是匹配上的 TDM 等召回模型都用了深度學(xué)習(xí)的技術(shù)。
其中包括決策智能,鑒于平臺包含非常多的角色,各有各的博弈的關(guān)系,在多方關(guān)系和優(yōu)化平衡之間,決策智能就派上了用場。用戶體驗(yàn)、流量成本、預(yù)期收益、預(yù)算控制、跨域的融合,這些都是需要去博弈平衡的。
在這里我講講典型三個博弈 player。平臺上博弈方有非常多,主要有三類:媒體、廣告主、廣告平臺。
這三部分的核心技術(shù)可以總結(jié)為:從媒體角度,關(guān)注釋放哪些媒體資源能夠最好地平衡用戶體驗(yàn)和商業(yè)化收入;從廣告主角度,要優(yōu)化什么,如何用最小的代價實(shí)現(xiàn)營銷目標(biāo)。那么,廣告平臺的最大目標(biāo)是什么?長遠(yuǎn)來說,廣告平臺更底層的追求目標(biāo)是讓整個平臺更加地繁榮,賺錢只是短期的事情,讓這個平臺長期繁榮才是最終目標(biāo),所以平臺要平衡各方的關(guān)系,讓各方的 player 在平臺上很好地玩下去。
廣告平臺所要優(yōu)化的目標(biāo)涉及到很多機(jī)制設(shè)計(jì)。我今天會簡單講一下智能拍賣機(jī)制設(shè)計(jì)、智能出價策略、智能商業(yè)化策略三個方向,主要以科普的方式講一講阿里媽媽在這幾年這上面的工作,供大家探討。
智能拍賣機(jī)制設(shè)計(jì)。
先講講智能拍賣機(jī)制設(shè)計(jì),這是很有趣的課題, 已經(jīng)好多位前輩、大牛得了諾貝爾經(jīng)濟(jì)學(xué)獎。我們所談的經(jīng)典拍賣機(jī)制,從時間來看都是上世紀(jì) 70 年代之前出現(xiàn)的,那時候在線廣告還沒有出現(xiàn),大家研究了很多關(guān)于單次拍賣或者靜態(tài)拍賣的優(yōu)化。這些機(jī)制通常都是單目標(biāo)的,而且是針對單次拍賣。
無論是廣告平臺還是媒體,需要平衡用戶體驗(yàn)和廣告收入,典型的業(yè)界問題都是多目標(biāo)優(yōu)化,如果平臺上涉及業(yè)務(wù)比較多,不同業(yè)務(wù)之間可能有平臺策略和意志在里面,這也是多目標(biāo)的優(yōu)化。
從最開始用經(jīng)典拍賣理論,比如用 GSP 或者 UGSP 方式去做流量分發(fā)和定價,業(yè)界逐漸演進(jìn)到深度學(xué)習(xí)去解決這個問題。這些經(jīng)典算法通過公式去計(jì)算平臺對某個目標(biāo)最優(yōu)化的一些參數(shù),有了深度學(xué)習(xí)的工具之后,拍賣機(jī)制設(shè)計(jì)本身也是一個可決策問題,其本身是解決決策問題的算法,但生產(chǎn)決策算法也是決策問題。
三年前,我們基于深度學(xué)習(xí)設(shè)計(jì)了一個 Deep GSP 拍賣機(jī)制,在滿足機(jī)制良好性質(zhì)的前提下提升;餓平臺的效果,所謂機(jī)制性質(zhì)良好是指激勵兼容,廣告主不用通過鉆牛角尖或者是黑灰產(chǎn)方式獲利,真實(shí)表達(dá)自己的意愿就能夠拿到符合出價的流量。保持了激勵兼容性質(zhì)做的 Deep GSP,把原來靜態(tài)公式換成了可學(xué)習(xí)的深度網(wǎng)絡(luò),這是第一階段的工作。
到了第二階段,拍賣機(jī)制網(wǎng)絡(luò)里很多參數(shù),我們通過訓(xùn)練優(yōu)化的方式算出來。但實(shí)際上在整個過程中,除了參數(shù)計(jì)算還有排序,以及廣告分配的過程,是整個系統(tǒng)完整的組成部分。部分模塊其實(shí)是不可微的,比如排序模塊,因此深度學(xué)習(xí)網(wǎng)絡(luò)很難模擬它,為了端到端進(jìn)行拍賣機(jī)制設(shè)計(jì),我們把拍賣流程可微部分建模到神經(jīng)網(wǎng)絡(luò),這樣可以有梯度的反向傳導(dǎo),使得模型訓(xùn)練更加方便。
智能出價策略。
接下來講一下智能出價策略,這是廣告主用來調(diào)節(jié)效果或者博弈最主要的工具。中心化的分發(fā)無法表達(dá)訴求,但是在廣告場景中這是有辦法表達(dá)的。出價產(chǎn)品分為三個發(fā)展階段:
最初的經(jīng)典解法也是最古老的出價,希望預(yù)算花得比較平滑,讓效果比較有保障,最初的時候業(yè)界是通過類似 PID 的控制算法,這是非常簡單的算法,效果也比較有限。
等到了 2014、2015 年,再到 AlphaGo 打敗人類之后,我們看到了強(qiáng)化學(xué)習(xí)的強(qiáng)大力量。智能出價是一個非常典型的序列決策問題,在預(yù)算周期內(nèi),前面花的好不好會影響到后面的出價決策,而這正是強(qiáng)化學(xué)習(xí)的強(qiáng)項(xiàng),因此第二階段我們用了基于強(qiáng)化學(xué)習(xí)的 bidding,通過 MDP 建模,直接用強(qiáng)化學(xué)習(xí)做這個事情。
第三個階段就演進(jìn)到了 SORL 這個平臺,它的特點(diǎn)是針對強(qiáng)化學(xué)習(xí)中離線仿真環(huán)境與在線環(huán)境不一致。我們直接在在線環(huán)境中進(jìn)行可交互的學(xué)習(xí),這是工程設(shè)計(jì)和算法設(shè)計(jì)聯(lián)合的例子。SORL 上線之后,很大程度上解決了強(qiáng)化學(xué)習(xí)強(qiáng)依賴于仿真平臺的問題。
其他的技術(shù)特色還有工程基建部分,包括智能出價模型的訓(xùn)練框架、流批一體調(diào)控系統(tǒng)以及多渠道的投放圖化在線引擎。工程體系和算法同樣重要,離交易中心越近、越實(shí)時,越能夠得到好的反饋,對于智能出價來說,工程基建部分越先進(jìn),越能幫助廣告主獲得更好的效果。
智能商業(yè)化策略。
最后講講與媒體相關(guān)的智能商業(yè)化策略部分。在商業(yè)化策略優(yōu)化上,最初的嘗試是把廣告結(jié)果和自然結(jié)果進(jìn)行加權(quán)融合,然后混合起來,根據(jù)不同的情況挑選去放。不合理的商業(yè)化機(jī)制對用戶體驗(yàn)傷害很大,大家開始意識到這個問題。最近一兩年,動態(tài)展現(xiàn)的策略逐漸流行起來了,隨著深度學(xué)習(xí)等技術(shù)發(fā)展,我們可以通過優(yōu)化決策算法做到平衡用戶體驗(yàn)和商業(yè)化收入,在全域流量下去平衡用戶的體驗(yàn)。
總體而言,在這三大方面,阿里媽媽形成了一張決策智能體系圖,分為三個層面,智能拍賣機(jī)制是中間的橋梁,智能商業(yè)化策略解決的問題是拿出什么樣的資源拍賣最高效,最能平衡好用戶體驗(yàn)和商業(yè)化收入,智能出價策略是面向流量精細(xì)化出價的決策過程,通過出價參數(shù)的優(yōu)化、基于真實(shí)環(huán)境的強(qiáng)化學(xué)習(xí)參數(shù)尋優(yōu),或 Target CPX、Max Return 等建模的范式進(jìn)行優(yōu)化。
面對現(xiàn)在的多輪拍賣和高頻拍賣,很多基礎(chǔ)理論有待進(jìn)一步突破。說到基礎(chǔ)機(jī)制理論突破,鄧?yán)蠋熓沁@方面的專家,我們期待與鄧?yán)蠋熞黄鹪谶@方面做出前沿性的研究。從工程實(shí)際問題的挑戰(zhàn)角度來看,實(shí)際環(huán)境要求在 200 毫秒返回結(jié)果,因此效率和效果上需要通過一些平衡,在工業(yè)界做得比較久對這個都有感觸。
廣告生態(tài)的優(yōu)化是相對獨(dú)立的,平臺的最終目標(biāo)是希望生態(tài)欣欣向榮、和平發(fā)展,做好了這幾個,生態(tài)是否能達(dá)到預(yù)期呢?我想二者之間未必直接劃等號。對于生態(tài)優(yōu)化,仍然有很多理論和實(shí)際問題需要解決,這也是希望業(yè)界朋友們未來能夠一起去探討和解決的。
過去三年,阿里媽媽決策智能方向在頂級國際會議(NeurIPS、ICML、KDD、WWW 等)共發(fā)表近 20 篇論文,并與北京大學(xué)、上海交大、中科院、浙江大學(xué)等多所高校及研究機(jī)構(gòu)展開合作,相關(guān)成果得到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和跟進(jìn),在這個領(lǐng)域?qū)崿F(xiàn)從跟隨到逐步引領(lǐng)行業(yè)的技術(shù)發(fā)展。
相對于深度學(xué)習(xí),決策智能在業(yè)界和學(xué)術(shù)界受到關(guān)注并沒有那么多,所以借這個機(jī)會讓大家更多了解這個領(lǐng)域,這個領(lǐng)域是非常有趣且有前景的。以上是阿里媽媽在決策智能方面的思考和工作,希望跟業(yè)界和學(xué)術(shù)界朋友一起分享,未來能更多地討論,爭取在決策智能的理論研究和業(yè)界實(shí)際應(yīng)用上能夠形成一些突破性的發(fā)展。