自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="5ordk"><button id="5ordk"></button></cite>

<blockquote id="5ordk"><p id="5ordk"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

淘寶：三萬字深度剖析強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究

原創(chuàng)

作者：阿里巴巴授權(quán)發(fā)布 2018-01-04 23:33:14

隨著搜索技術(shù)的持續(xù)發(fā)展，我們已經(jīng)逐漸意識(shí)到監(jiān)督學(xué)習(xí)算法在搜索場(chǎng)景的局限性。與此同時(shí)，強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)化得到了空前的發(fā)展。結(jié)合淘寶的實(shí)踐經(jīng)驗(yàn)，用了近三萬字深度剖析了強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究！

背景

隨著搜索技術(shù)的持續(xù)發(fā)展，我們已經(jīng)逐漸意識(shí)到監(jiān)督學(xué)習(xí)算法在搜索場(chǎng)景的局限性：

搜索場(chǎng)景中，只有被當(dāng)前投放策略排到前面的商品，才會(huì)獲得曝光機(jī)會(huì)，從而形成監(jiān)督學(xué)習(xí)的正負(fù)樣本，而曝光出來的商品，只占總的召回商品中的很小一部分，訓(xùn)練樣本是高度受當(dāng)前模型的bias影響的。
監(jiān)督學(xué)習(xí)的損失函數(shù)，和業(yè)務(wù)關(guān)注的指標(biāo)之間，存在著不一致性
用戶的搜索、點(diǎn)擊、購買行為，是一個(gè)連續(xù)的序列決策過程，監(jiān)督模型無法對(duì)這個(gè)過程進(jìn)行建模，無法優(yōu)化長期累積獎(jiǎng)賞。

與此同時(shí)，強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)化，以及以Atari游戲和圍棋游戲?yàn)榇淼膽?yīng)用在近幾年得到了空前的發(fā)展，使得我們開始著眼于這項(xiàng)古老而又時(shí)尚的技術(shù)，并以此為一條重要的技術(shù)發(fā)展路線，陸陸續(xù)續(xù)地在多個(gè)業(yè)務(wù)和場(chǎng)景，進(jìn)行了強(qiáng)化學(xué)習(xí)建模，取得了一些初步成果，相關(guān)的工作已經(jīng)在整理發(fā)表中。同時(shí)我們也深知，目前強(qiáng)化學(xué)習(xí)的算法理論上限和工業(yè)界中大規(guī)模噪聲數(shù)據(jù)之間，還存在著很大的gap，需要有更多的智慧去填補(bǔ)。

基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)搜索排序調(diào)控

淘寶的搜索引擎涉及對(duì)上億商品的毫秒級(jí)處理響應(yīng)，而淘寶的用戶不僅數(shù)量巨大，其行為特點(diǎn)以及對(duì)商品的偏好也具有豐富性和多樣性。

因此，要讓搜索引擎對(duì)不同特點(diǎn)的用戶作出針對(duì)性的排序，并以此帶動(dòng)搜索引導(dǎo)的成交提升，是一個(gè)極具挑戰(zhàn)性的問題。傳統(tǒng)的Learning to Rank（LTR）方法主要是在商品維度進(jìn)行學(xué)習(xí)，根據(jù)商品的點(diǎn)擊、成交數(shù)據(jù)構(gòu)造學(xué)習(xí)樣本，回歸出排序權(quán)重。

盡管Contextual LTR方法可以根據(jù)用戶的上下文信息對(duì)不同的用戶給出不同的排序結(jié)果，但它沒有考慮到用戶搜索商品是一個(gè)連續(xù)的過程。這一連續(xù)過程的不同階段之間不是孤立的，而是有著緊密的聯(lián)系。換句話說，用戶最終選擇購買或不夠買商品，不是由某一次排序所決定，而是一連串搜索排序的結(jié)果。

本文接下來的內(nèi)容將對(duì)淘寶具體的方案進(jìn)行詳細(xì)介紹。

點(diǎn)擊了解更多細(xì)節(jié)！

強(qiáng)化學(xué)習(xí)為何有用？——延遲獎(jiǎng)賞在搜索排序場(chǎng)景中的作用分析

我們用強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）在搜索場(chǎng)景中進(jìn)行了許多的嘗試，例如：對(duì)商品排序策略進(jìn)行動(dòng)態(tài)調(diào)節(jié)、控制個(gè)性化展示比例、控制價(jià)格T變換等。

雖然從順序決策的角度來講，強(qiáng)化學(xué)習(xí)在這些場(chǎng)景中的應(yīng)用是合理的，但我們并沒有回答一些根本性的問題，比如：

在搜索場(chǎng)景中采用強(qiáng)化學(xué)習(xí)和采用多臂老虎機(jī)有什么本質(zhì)區(qū)別？

從整體上優(yōu)化累積收益和分別獨(dú)立優(yōu)化每個(gè)決策步驟的即時(shí)收益有什么差別？

每當(dāng)有同行問到這些問題時(shí)，我們總是無法給出讓人信服的回答。因?yàn)槲覀冞€沒思考清楚一個(gè)重要的問題，即：在搜索場(chǎng)景的順序決策過程中，任意決策點(diǎn)的決策與后續(xù)所能得到的結(jié)果之間的關(guān)聯(lián)性有多大？

從強(qiáng)化學(xué)習(xí)的角度講，也就是后續(xù)結(jié)果要以多大的比例進(jìn)行回傳，以視為對(duì)先前決策的延遲激勵(lì)。也就是說我們要搞清楚延遲反饋在搜索場(chǎng)景中的作用。

本文將以繼續(xù)以搜索場(chǎng)景下調(diào)節(jié)商品排序策略為例，對(duì)這個(gè)問題展開探討。

本文余下部分的將組織如下：

第二節(jié)對(duì)搜索排序問題的建模進(jìn)行回顧。
第三節(jié)將介紹最近的線上數(shù)據(jù)分析結(jié)果。
第四節(jié)將對(duì)搜索排序問題進(jìn)行形式化定義。
第五節(jié)和第六節(jié)分別進(jìn)行理論分析和實(shí)驗(yàn)分析并得出結(jié)論。

點(diǎn)擊了解更多細(xì)節(jié)！

基于強(qiáng)化學(xué)習(xí)分層流量調(diào)控

今天的淘寶儼然已經(jīng)成為了一個(gè)規(guī)模不小的經(jīng)濟(jì)體，因此，社會(huì)經(jīng)濟(jì)學(xué)里面討論的問題，在我們這幾乎無不例外的出現(xiàn)了。早期的淘寶多數(shù)是通過效率優(yōu)先的方式去優(yōu)化商品展示的模式，從而產(chǎn)生了給消費(fèi)者最初的刻板印象：低價(jià)爆款，這在當(dāng)時(shí)是有一定的歷史局限性而產(chǎn)生的結(jié)果，但肯定不是我們長期希望看到的情形。

因?yàn)樯鐣?huì)大環(huán)境在變化，人們的消費(fèi)意識(shí)也在變化，如果我們不能同步跟上，甚至是超前布局的話，就有可能被競(jìng)爭(zhēng)對(duì)手趕上，錯(cuò)失良機(jī)。因此有了我們近幾年對(duì)品牌的經(jīng)營，以至于現(xiàn)在再搜索“連衣裙”這樣的詞，也很難看到9塊9包郵的商品，而這個(gè)在3年之前仍然很常見。

而這里的品牌和客單等因素，是通過一系列的計(jì)劃經(jīng)濟(jì)手段來進(jìn)行干預(yù)的，類似于上文福利經(jīng)濟(jì)學(xué)第二定理中的稟賦分配，依據(jù)的是全局的的觀察和思考，很難而且也不可能通過一個(gè)局部的封閉系統(tǒng)（例如搜索的排序優(yōu)化器）來實(shí)現(xiàn)。

因此，越來越多的運(yùn)營和產(chǎn)品同學(xué)，鑒于以上的思考，提出了很多干預(yù)的分層，這里的分層指的是商品/商家類型的劃分，可以從不同的維度來劃分，比如，按照對(duì)平臺(tái)重要性將天貓商家劃分成A、B、C和D類商家；按照品牌影響力將商品劃分為高調(diào)性和普通商品；按照價(jià)格將商品劃分為高端、中等、低端商品等。

而早期的算法同學(xué)對(duì)這些可能也不夠重視，一個(gè)經(jīng)典的做法即簡單加權(quán)，這通常往往會(huì)帶來效率上的損失，因此結(jié)果大多也是不了了之。但當(dāng)我們認(rèn)真審視這個(gè)問題的時(shí)候，我們其實(shí)可以預(yù)料，損失是必然的，因?yàn)橐粋€(gè)純粹的市場(chǎng)競(jìng)爭(zhēng)會(huì)在當(dāng)前的供需關(guān)系下逐步優(yōu)化，達(dá)到一個(gè)局部最優(yōu)，所以一旦這個(gè)局部最優(yōu)點(diǎn)被一個(gè)大的擾動(dòng)打破，其打破的瞬間必然是有效率損失的，但是其之后是有機(jī)會(huì)達(dá)到比之前的穩(wěn)定點(diǎn)更優(yōu)的地方。

點(diǎn)擊了解更多細(xì)節(jié)！

虛擬淘寶（聯(lián)合研究項(xiàng)目）

在某些場(chǎng)景下中應(yīng)用強(qiáng)化學(xué)習(xí)(例如圍棋游戲中的 AlphaGo),進(jìn)行策略探索的成本是非常低的。而在電商場(chǎng)景下,策略探索的成本會(huì)比較昂貴,一次策略評(píng)估可能需要一天并且差的策略往往對(duì)應(yīng)著經(jīng)濟(jì)損失,這是在線應(yīng)用強(qiáng)化學(xué)習(xí)遇到的一個(gè)普遍問題,限制了強(qiáng)化學(xué)習(xí)在真實(shí)場(chǎng)景下的應(yīng)用。

針對(duì)這個(gè)問題,我們和強(qiáng)化學(xué)習(xí)方面的知名專家,南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所的俞揚(yáng)副教授進(jìn)行了深度合作,通過逆向建模環(huán)境,嘗試構(gòu)建了一個(gè)“淘寶模擬器”,在該模擬器上,策略探索的幾乎沒有成本,并且可以快速進(jìn)行策略評(píng)估。而且在這樣一個(gè)模擬器上,不僅可以對(duì)各種 RL 算法進(jìn)行離線嘗試,而且還可以進(jìn)行各種生態(tài)模擬實(shí)驗(yàn),輔助戰(zhàn)略性決策。

參與人員：阿里巴巴搜索事業(yè)部-AI技術(shù)及應(yīng)用：胡裕靖、詹宇森、潘春香、笪慶、曾安祥

虛擬淘寶合作方南京大學(xué)：侍競(jìng)成、陳士勇、俞揚(yáng)（副教授）

這四篇文章，結(jié)合淘寶的實(shí)踐經(jīng)驗(yàn)，用了近三萬字深度剖析了強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究！點(diǎn)擊了解更多細(xì)節(jié)！

責(zé)任編輯：王雪燕來源： 51CTO

淘寶強(qiáng)化學(xué)習(xí)電商環(huán)境應(yīng)用與研究

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="udkoy"></style>