淘寶:三萬字深度剖析強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究
原創(chuàng)
背景
隨著搜索技術(shù)的持續(xù)發(fā)展,我們已經(jīng)逐漸意識(shí)到監(jiān)督學(xué)習(xí)算法在搜索場(chǎng)景的局限性:
- 搜索場(chǎng)景中,只有被當(dāng)前投放策略排到前面的商品,才會(huì)獲得曝光機(jī)會(huì),從而形成監(jiān)督學(xué)習(xí)的正負(fù)樣本,而曝光出來的商品,只占總的召回商品中的很小一部分,訓(xùn)練樣本是高度受當(dāng)前模型的bias影響的。
- 監(jiān)督學(xué)習(xí)的損失函數(shù),和業(yè)務(wù)關(guān)注的指標(biāo)之間,存在著不一致性
- 用戶的搜索、點(diǎn)擊、購買行為,是一個(gè)連續(xù)的序列決策過程,監(jiān)督模型無法對(duì)這個(gè)過程進(jìn)行建模,無法優(yōu)化長期累積獎(jiǎng)賞。
與此同時(shí),強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)化,以及以Atari游戲和圍棋游戲?yàn)榇淼膽?yīng)用在近幾年得到了空前的發(fā)展,使得我們開始著眼于這項(xiàng)古老而又時(shí)尚的技術(shù),并以此為一條重要的技術(shù)發(fā)展路線,陸陸續(xù)續(xù)地在多個(gè)業(yè)務(wù)和場(chǎng)景,進(jìn)行了強(qiáng)化學(xué)習(xí)建模,取得了一些初步成果,相關(guān)的工作已經(jīng)在整理發(fā)表中。同時(shí)我們也深知,目前強(qiáng)化學(xué)習(xí)的算法理論上限和工業(yè)界中大規(guī)模噪聲數(shù)據(jù)之間,還存在著很大的gap,需要有更多的智慧去填補(bǔ)。
基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)搜索排序調(diào)控
淘寶的搜索引擎涉及對(duì)上億商品的毫秒級(jí)處理響應(yīng),而淘寶的用戶不僅數(shù)量巨大,其行為特點(diǎn)以及對(duì)商品的偏好也具有豐富性和多樣性。
因此,要讓搜索引擎對(duì)不同特點(diǎn)的用戶作出針對(duì)性的排序,并以此帶動(dòng)搜索引導(dǎo)的成交提升,是一個(gè)極具挑戰(zhàn)性的問題。傳統(tǒng)的Learning to Rank(LTR)方法主要是在商品維度進(jìn)行學(xué)習(xí),根據(jù)商品的點(diǎn)擊、成交數(shù)據(jù)構(gòu)造學(xué)習(xí)樣本,回歸出排序權(quán)重。
盡管Contextual LTR方法可以根據(jù)用戶的上下文信息對(duì)不同的用戶給出不同的排序結(jié)果,但它沒有考慮到用戶搜索商品是一個(gè)連續(xù)的過程。這一連續(xù)過程的不同階段之間不是孤立的,而是有著緊密的聯(lián)系。換句話說,用戶最終選擇購買或不夠買商品,不是由某一次排序所決定,而是一連串搜索排序的結(jié)果。
本文接下來的內(nèi)容將對(duì)淘寶具體的方案進(jìn)行詳細(xì)介紹。
強(qiáng)化學(xué)習(xí)為何有用?——延遲獎(jiǎng)賞在搜索排序場(chǎng)景中的作用分析
我們用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)在搜索場(chǎng)景中進(jìn)行了許多的嘗試,例如:對(duì)商品排序策略進(jìn)行動(dòng)態(tài)調(diào)節(jié)、控制個(gè)性化展示比例、控制價(jià)格T變換等。
雖然從順序決策的角度來講,強(qiáng)化學(xué)習(xí)在這些場(chǎng)景中的應(yīng)用是合理的,但我們并沒有回答一些根本性的問題,比如:
在搜索場(chǎng)景中采用強(qiáng)化學(xué)習(xí)和采用多臂老虎機(jī)有什么本質(zhì)區(qū)別?
從整體上優(yōu)化累積收益和分別獨(dú)立優(yōu)化每個(gè)決策步驟的即時(shí)收益有什么差別?
每當(dāng)有同行問到這些問題時(shí),我們總是無法給出讓人信服的回答。因?yàn)槲覀冞€沒思考清楚一個(gè)重要的問題,即:在搜索場(chǎng)景的順序決策過程中,任意決策點(diǎn)的決策與后續(xù)所能得到的結(jié)果之間的關(guān)聯(lián)性有多大?
從強(qiáng)化學(xué)習(xí)的角度講,也就是后續(xù)結(jié)果要以多大的比例進(jìn)行回傳,以視為對(duì)先前決策的延遲激勵(lì)。也就是說我們要搞清楚延遲反饋在搜索場(chǎng)景中的作用。
本文將以繼續(xù)以搜索場(chǎng)景下調(diào)節(jié)商品排序策略為例,對(duì)這個(gè)問題展開探討。
本文余下部分的將組織如下:
- 第二節(jié)對(duì)搜索排序問題的建模進(jìn)行回顧。
- 第三節(jié)將介紹最近的線上數(shù)據(jù)分析結(jié)果。
- 第四節(jié)將對(duì)搜索排序問題進(jìn)行形式化定義。
- 第五節(jié)和第六節(jié)分別進(jìn)行理論分析和實(shí)驗(yàn)分析并得出結(jié)論。
基于強(qiáng)化學(xué)習(xí)分層流量調(diào)控
今天的淘寶儼然已經(jīng)成為了一個(gè)規(guī)模不小的經(jīng)濟(jì)體,因此,社會(huì)經(jīng)濟(jì)學(xué)里面討論的問題,在我們這幾乎無不例外的出現(xiàn)了。早期的淘寶多數(shù)是通過效率優(yōu)先的方式去優(yōu)化商品展示的模式,從而產(chǎn)生了給消費(fèi)者最初的刻板印象:低價(jià)爆款,這在當(dāng)時(shí)是有一定的歷史局限性而產(chǎn)生的結(jié)果,但肯定不是我們長期希望看到的情形。
因?yàn)樯鐣?huì)大環(huán)境在變化,人們的消費(fèi)意識(shí)也在變化,如果我們不能同步跟上,甚至是超前布局的話,就有可能被競(jìng)爭(zhēng)對(duì)手趕上,錯(cuò)失良機(jī)。因此有了我們近幾年對(duì)品牌的經(jīng)營,以至于現(xiàn)在再搜索“連衣裙”這樣的詞,也很難看到9塊9包郵的商品,而這個(gè)在3年之前仍然很常見。
而這里的品牌和客單等因素,是通過一系列的計(jì)劃經(jīng)濟(jì)手段來進(jìn)行干預(yù)的,類似于上文福利經(jīng)濟(jì)學(xué)第二定理中的稟賦分配,依據(jù)的是全局的的觀察和思考,很難而且也不可能通過一個(gè)局部的封閉系統(tǒng)(例如搜索的排序優(yōu)化器)來實(shí)現(xiàn)。
因此,越來越多的運(yùn)營和產(chǎn)品同學(xué),鑒于以上的思考,提出了很多干預(yù)的分層,這里的分層指的是商品/商家類型的劃分,可以從不同的維度來劃分,比如,按照對(duì)平臺(tái)重要性將天貓商家劃分成A、B、C和D類商家;按照品牌影響力將商品劃分為高調(diào)性和普通商品;按照價(jià)格將商品劃分為高端、中等、低端商品等。
而早期的算法同學(xué)對(duì)這些可能也不夠重視,一個(gè)經(jīng)典的做法即簡單加權(quán),這通常往往會(huì)帶來效率上的損失,因此結(jié)果大多也是不了了之。但當(dāng)我們認(rèn)真審視這個(gè)問題的時(shí)候,我們其實(shí)可以預(yù)料,損失是必然的,因?yàn)橐粋€(gè)純粹的市場(chǎng)競(jìng)爭(zhēng)會(huì)在當(dāng)前的供需關(guān)系下逐步優(yōu)化,達(dá)到一個(gè)局部最優(yōu),所以一旦這個(gè)局部最優(yōu)點(diǎn)被一個(gè)大的擾動(dòng)打破,其打破的瞬間必然是有效率損失的,但是其之后是有機(jī)會(huì)達(dá)到比之前的穩(wěn)定點(diǎn)更優(yōu)的地方。
虛擬淘寶(聯(lián)合研究項(xiàng)目)
在某些場(chǎng)景下中應(yīng)用強(qiáng)化學(xué)習(xí)(例如圍棋游戲中的 AlphaGo),進(jìn)行策略探索的成本是非常低的。而在電商場(chǎng)景下,策略探索的成本會(huì)比較昂貴,一次策略評(píng)估可能需要一天并且差的策略往往對(duì)應(yīng)著經(jīng)濟(jì)損失,這是在線應(yīng)用強(qiáng)化學(xué)習(xí)遇到的一個(gè)普遍問題,限制了強(qiáng)化學(xué)習(xí)在真實(shí)場(chǎng)景下的應(yīng)用。
針對(duì)這個(gè)問題,我們和強(qiáng)化學(xué)習(xí)方面的知名專家,南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所的俞揚(yáng)副教授進(jìn)行了深度合作,通過逆向建模環(huán)境,嘗試構(gòu)建了一個(gè)“淘寶模擬器”,在該模擬器上,策略探索的幾乎沒有成本,并且可以快速進(jìn)行策略評(píng)估。而且在這樣一個(gè)模擬器上,不僅可以對(duì)各種 RL 算法進(jìn)行離線嘗試,而且還可以進(jìn)行各種生態(tài)模擬實(shí)驗(yàn),輔助戰(zhàn)略性決策。
參與人員:阿里巴巴 搜索事業(yè)部-AI技術(shù)及應(yīng)用:胡裕靖、詹宇森、潘春香、笪慶、曾安祥
虛擬淘寶合作方 南京大學(xué):侍競(jìng)成、陳士勇、俞揚(yáng)(副教授)
這四篇文章,結(jié)合淘寶的實(shí)踐經(jīng)驗(yàn),用了近三萬字深度剖析了強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究!點(diǎn)擊了解更多細(xì)節(jié)!