自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淘寶:三萬字深度剖析強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究

原創(chuàng)
人工智能
隨著搜索技術(shù)的持續(xù)發(fā)展,我們已經(jīng)逐漸意識(shí)到監(jiān)督學(xué)習(xí)算法在搜索場(chǎng)景的局限性。與此同時(shí),強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)化得到了空前的發(fā)展。結(jié)合淘寶的實(shí)踐經(jīng)驗(yàn),用了近三萬字深度剖析了強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究!

背景

隨著搜索技術(shù)的持續(xù)發(fā)展,我們已經(jīng)逐漸意識(shí)到監(jiān)督學(xué)習(xí)算法在搜索場(chǎng)景的局限性:

  • 搜索場(chǎng)景中,只有被當(dāng)前投放策略排到前面的商品,才會(huì)獲得曝光機(jī)會(huì),從而形成監(jiān)督學(xué)習(xí)的正負(fù)樣本,而曝光出來的商品,只占總的召回商品中的很小一部分,訓(xùn)練樣本是高度受當(dāng)前模型的bias影響的。
  •  監(jiān)督學(xué)習(xí)的損失函數(shù),和業(yè)務(wù)關(guān)注的指標(biāo)之間,存在著不一致性
  •  用戶的搜索、點(diǎn)擊、購買行為,是一個(gè)連續(xù)的序列決策過程,監(jiān)督模型無法對(duì)這個(gè)過程進(jìn)行建模,無法優(yōu)化長期累積獎(jiǎng)賞。

與此同時(shí),強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)化,以及以Atari游戲和圍棋游戲?yàn)榇淼膽?yīng)用在近幾年得到了空前的發(fā)展,使得我們開始著眼于這項(xiàng)古老而又時(shí)尚的技術(shù),并以此為一條重要的技術(shù)發(fā)展路線,陸陸續(xù)續(xù)地在多個(gè)業(yè)務(wù)和場(chǎng)景,進(jìn)行了強(qiáng)化學(xué)習(xí)建模,取得了一些初步成果,相關(guān)的工作已經(jīng)在整理發(fā)表中。同時(shí)我們也深知,目前強(qiáng)化學(xué)習(xí)的算法理論上限和工業(yè)界中大規(guī)模噪聲數(shù)據(jù)之間,還存在著很大的gap,需要有更多的智慧去填補(bǔ)。

[[216098]]

基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)搜索排序調(diào)控

淘寶的搜索引擎涉及對(duì)上億商品的毫秒級(jí)處理響應(yīng),而淘寶的用戶不僅數(shù)量巨大,其行為特點(diǎn)以及對(duì)商品的偏好也具有豐富性和多樣性。

因此,要讓搜索引擎對(duì)不同特點(diǎn)的用戶作出針對(duì)性的排序,并以此帶動(dòng)搜索引導(dǎo)的成交提升,是一個(gè)極具挑戰(zhàn)性的問題。傳統(tǒng)的Learning to Rank(LTR)方法主要是在商品維度進(jìn)行學(xué)習(xí),根據(jù)商品的點(diǎn)擊、成交數(shù)據(jù)構(gòu)造學(xué)習(xí)樣本,回歸出排序權(quán)重。

盡管Contextual LTR方法可以根據(jù)用戶的上下文信息對(duì)不同的用戶給出不同的排序結(jié)果,但它沒有考慮到用戶搜索商品是一個(gè)連續(xù)的過程。這一連續(xù)過程的不同階段之間不是孤立的,而是有著緊密的聯(lián)系。換句話說,用戶最終選擇購買或不夠買商品,不是由某一次排序所決定,而是一連串搜索排序的結(jié)果。

本文接下來的內(nèi)容將對(duì)淘寶具體的方案進(jìn)行詳細(xì)介紹。

點(diǎn)擊了解更多細(xì)節(jié)!

強(qiáng)化學(xué)習(xí)為何有用?——延遲獎(jiǎng)賞在搜索排序場(chǎng)景中的作用分析

我們用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)在搜索場(chǎng)景中進(jìn)行了許多的嘗試,例如:對(duì)商品排序策略進(jìn)行動(dòng)態(tài)調(diào)節(jié)、控制個(gè)性化展示比例、控制價(jià)格T變換等。

雖然從順序決策的角度來講,強(qiáng)化學(xué)習(xí)在這些場(chǎng)景中的應(yīng)用是合理的,但我們并沒有回答一些根本性的問題,比如:

    在搜索場(chǎng)景中采用強(qiáng)化學(xué)習(xí)和采用多臂老虎機(jī)有什么本質(zhì)區(qū)別?

    從整體上優(yōu)化累積收益和分別獨(dú)立優(yōu)化每個(gè)決策步驟的即時(shí)收益有什么差別?

每當(dāng)有同行問到這些問題時(shí),我們總是無法給出讓人信服的回答。因?yàn)槲覀冞€沒思考清楚一個(gè)重要的問題,即:在搜索場(chǎng)景的順序決策過程中,任意決策點(diǎn)的決策與后續(xù)所能得到的結(jié)果之間的關(guān)聯(lián)性有多大?

從強(qiáng)化學(xué)習(xí)的角度講,也就是后續(xù)結(jié)果要以多大的比例進(jìn)行回傳,以視為對(duì)先前決策的延遲激勵(lì)。也就是說我們要搞清楚延遲反饋在搜索場(chǎng)景中的作用。

本文將以繼續(xù)以搜索場(chǎng)景下調(diào)節(jié)商品排序策略為例,對(duì)這個(gè)問題展開探討。

本文余下部分的將組織如下:

  • 第二節(jié)對(duì)搜索排序問題的建模進(jìn)行回顧。
  • 第三節(jié)將介紹最近的線上數(shù)據(jù)分析結(jié)果。
  • 第四節(jié)將對(duì)搜索排序問題進(jìn)行形式化定義。
  • 第五節(jié)和第六節(jié)分別進(jìn)行理論分析和實(shí)驗(yàn)分析并得出結(jié)論。

點(diǎn)擊了解更多細(xì)節(jié)!

基于強(qiáng)化學(xué)習(xí)分層流量調(diào)控

今天的淘寶儼然已經(jīng)成為了一個(gè)規(guī)模不小的經(jīng)濟(jì)體,因此,社會(huì)經(jīng)濟(jì)學(xué)里面討論的問題,在我們這幾乎無不例外的出現(xiàn)了。早期的淘寶多數(shù)是通過效率優(yōu)先的方式去優(yōu)化商品展示的模式,從而產(chǎn)生了給消費(fèi)者最初的刻板印象:低價(jià)爆款,這在當(dāng)時(shí)是有一定的歷史局限性而產(chǎn)生的結(jié)果,但肯定不是我們長期希望看到的情形。

因?yàn)樯鐣?huì)大環(huán)境在變化,人們的消費(fèi)意識(shí)也在變化,如果我們不能同步跟上,甚至是超前布局的話,就有可能被競(jìng)爭(zhēng)對(duì)手趕上,錯(cuò)失良機(jī)。因此有了我們近幾年對(duì)品牌的經(jīng)營,以至于現(xiàn)在再搜索“連衣裙”這樣的詞,也很難看到9塊9包郵的商品,而這個(gè)在3年之前仍然很常見。

而這里的品牌和客單等因素,是通過一系列的計(jì)劃經(jīng)濟(jì)手段來進(jìn)行干預(yù)的,類似于上文福利經(jīng)濟(jì)學(xué)第二定理中的稟賦分配,依據(jù)的是全局的的觀察和思考,很難而且也不可能通過一個(gè)局部的封閉系統(tǒng)(例如搜索的排序優(yōu)化器)來實(shí)現(xiàn)。

因此,越來越多的運(yùn)營和產(chǎn)品同學(xué),鑒于以上的思考,提出了很多干預(yù)的分層,這里的分層指的是商品/商家類型的劃分,可以從不同的維度來劃分,比如,按照對(duì)平臺(tái)重要性將天貓商家劃分成A、B、C和D類商家;按照品牌影響力將商品劃分為高調(diào)性和普通商品;按照價(jià)格將商品劃分為高端、中等、低端商品等。

而早期的算法同學(xué)對(duì)這些可能也不夠重視,一個(gè)經(jīng)典的做法即簡單加權(quán),這通常往往會(huì)帶來效率上的損失,因此結(jié)果大多也是不了了之。但當(dāng)我們認(rèn)真審視這個(gè)問題的時(shí)候,我們其實(shí)可以預(yù)料,損失是必然的,因?yàn)橐粋€(gè)純粹的市場(chǎng)競(jìng)爭(zhēng)會(huì)在當(dāng)前的供需關(guān)系下逐步優(yōu)化,達(dá)到一個(gè)局部最優(yōu),所以一旦這個(gè)局部最優(yōu)點(diǎn)被一個(gè)大的擾動(dòng)打破,其打破的瞬間必然是有效率損失的,但是其之后是有機(jī)會(huì)達(dá)到比之前的穩(wěn)定點(diǎn)更優(yōu)的地方。

點(diǎn)擊了解更多細(xì)節(jié)!

虛擬淘寶(聯(lián)合研究項(xiàng)目)

在某些場(chǎng)景下中應(yīng)用強(qiáng)化學(xué)習(xí)(例如圍棋游戲中的 AlphaGo),進(jìn)行策略探索的成本是非常低的。而在電商場(chǎng)景下,策略探索的成本會(huì)比較昂貴,一次策略評(píng)估可能需要一天并且差的策略往往對(duì)應(yīng)著經(jīng)濟(jì)損失,這是在線應(yīng)用強(qiáng)化學(xué)習(xí)遇到的一個(gè)普遍問題,限制了強(qiáng)化學(xué)習(xí)在真實(shí)場(chǎng)景下的應(yīng)用。

針對(duì)這個(gè)問題,我們和強(qiáng)化學(xué)習(xí)方面的知名專家,南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所的俞揚(yáng)副教授進(jìn)行了深度合作,通過逆向建模環(huán)境,嘗試構(gòu)建了一個(gè)“淘寶模擬器”,在該模擬器上,策略探索的幾乎沒有成本,并且可以快速進(jìn)行策略評(píng)估。而且在這樣一個(gè)模擬器上,不僅可以對(duì)各種 RL 算法進(jìn)行離線嘗試,而且還可以進(jìn)行各種生態(tài)模擬實(shí)驗(yàn),輔助戰(zhàn)略性決策。

參與人員:阿里巴巴 搜索事業(yè)部-AI技術(shù)及應(yīng)用:胡裕靖、詹宇森、潘春香、笪慶、曾安祥

虛擬淘寶合作方 南京大學(xué):侍競(jìng)成、陳士勇、俞揚(yáng)(副教授)

這四篇文章,結(jié)合淘寶的實(shí)踐經(jīng)驗(yàn),用了近三萬字深度剖析了強(qiáng)化學(xué)習(xí)在電商環(huán)境下的若干應(yīng)用與研究!點(diǎn)擊了解更多細(xì)節(jié)!

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2017-09-01 15:20:33

深度學(xué)習(xí)電商商品應(yīng)用

2023-02-27 08:10:00

代理對(duì)象Spring

2021-02-02 10:08:17

AI深度強(qiáng)化學(xué)習(xí)智能城市

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2021-04-13 16:18:30

人工智能強(qiáng)化學(xué)習(xí)人臉識(shí)別

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2020-05-12 07:00:00

深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦

2025-04-18 12:25:34

2022-12-01 08:00:00

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)DQN

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2024-06-21 14:13:44

2017-09-08 09:47:06

深度學(xué)習(xí)應(yīng)用實(shí)踐

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)