自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

主搜索與店鋪內(nèi)搜索聯(lián)合優(yōu)化的初步探索與嘗試

原創(chuàng)
人工智能 深度學(xué)習(xí)
基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)和優(yōu)化技術(shù)目前大量的應(yīng)用于這些場景中,并已經(jīng)取得了不錯的效果——在單場景內(nèi)的A/B測試上,點擊率、轉(zhuǎn)化率、成交額、單價都能看到顯著提升。

背景與簡介

在淘寶平臺上有非常多的子場景,例如搜索、推薦、廣告。每個子場景又有非常多細(xì)分,例如搜索包括默認(rèn)排序、店鋪內(nèi)搜索、店鋪搜索等;推薦內(nèi)有猜你喜歡、今日推薦、每日好店等。基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)和優(yōu)化技術(shù)目前大量的應(yīng)用于這些場景中,并已經(jīng)取得了不錯的效果——在單場景內(nèi)的A/B測試上,點擊率、轉(zhuǎn)化率、成交額、單價都能看到顯著提升。 然而,目前各個場景之間是完全獨立優(yōu)化的,這樣會帶來幾點比較嚴(yán)重的問題:

  a. 用戶在淘寶上購物會經(jīng)常在多個場景之間切換,例如:從主搜索到猜你喜歡,從猜你喜歡到店鋪內(nèi)。不同場景的商品排序僅考慮自身,會導(dǎo)致用戶的購物體驗是不連貫或者雷同的。例如:從冰箱的詳情頁進入店鋪,卻展示手機;各個場景都展現(xiàn)趨同,都包含太多的U2I(點擊或成交過的商品)。

  b. 多場景之間是博弈(競爭)關(guān)系,期望每個場景的提升帶來整體提升這一點是無法保證的。很有可能一個場景的提升會導(dǎo)致其他場景的下降,更可怕的是某個場景帶來的提升甚至小于其他場景更大的下降。這并非是不可能的,那么這種情況下,單場景的A/B測試就顯得沒那么有意義,單場景的優(yōu)化也會存在明顯的問題。因為這一點尤為重要,因此我們舉一個更簡單易懂的例子,如下圖。

一個1000米長的沙灘上有2個飲料攤A和B,沙灘上均分分布者很多游客,他們一般會找更近的飲料攤?cè)ベI飲料。最開始A和B分別在沙灘250米和750米的位置,此時沙灘左邊的人會去A買,右邊的人去B買。然后A發(fā)現(xiàn),自己往右邊移動的時候,會有更多的用戶(A/B測試的結(jié)論),因此A會右移,同樣B會左移。A和B各自‘優(yōu)化’下去,***會都在沙灘中間的位置,從博弈論的角度,到了一個均衡點。然而,***‘優(yōu)化’得到的位置是不如初始位置的,因為會有很多游客會因為太遠而放棄買飲料。這種情況下,2個飲料攤各自優(yōu)化的結(jié)果反而是不如不優(yōu)化的。

多場景問題實際并不止存在于淘寶上,目前比較大型的平臺或者無線APP都不止一個場景。即使不談Yahoo,Sina等綜合性網(wǎng)站,像Baidu、Google等功能比較單一、集中的應(yīng)用,也會有若干場景(如網(wǎng)頁、咨詢、地圖等)。那么這些平臺或應(yīng)用都會面臨類似的問題。 綜上,研究大型在線平臺上的多子場景聯(lián)合優(yōu)化,無論從淘寶平臺的應(yīng)用上,還是從科研的角度,都具有重要意義。

為了解決上述的問題,本文提出一個多場景聯(lián)合排序算法,旨在提升整體指標(biāo)。我們將多場景的排序問題看成一個完全合作的、部分可觀測的多智能體序列決策問題,利用Multi-Agent Reinforcement Learning的方法來嘗試著對問題進行建模。

該模型以各個場景為Agent,讓各個場景不同的排序策略共享同一個目標(biāo),同時在一個場景的排序結(jié)果會考慮該用戶在其他場景的行為和反饋。這樣使得各個場景的排序策略由獨立轉(zhuǎn)變?yōu)楹献髋c共贏。由于我們想要使用用戶在所有場景的行為,而DRQN中的RNN網(wǎng)絡(luò)可以記住歷史信息,同時利用DPG對連續(xù)狀態(tài)與連續(xù)動作空間進行探索,因此我們算法取名MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)。

系統(tǒng)總覽

傳統(tǒng)的單場景優(yōu)化

目前,單場景排序策略的大體結(jié)構(gòu)如下,每個商品用一組特征來表示<人氣分,ctr分……>,排序策略通過給出一組特征權(quán)重來決定排序的結(jié)果,商品的分?jǐn)?shù)即為各個特征的加權(quán)相加。主搜索和店鋪內(nèi)搜索都有自己的排序策略,獨立優(yōu)化,互不影響。

多場景聯(lián)合優(yōu)化

目前,單場景排序策略的大體結(jié)構(gòu)如下,每個商品用一組特征來表示<人氣分,ctr分……>,排序策略通過給出一組特征權(quán)重來決定排序的結(jié)果,商品的分?jǐn)?shù)即為各個特征的加權(quán)相加。主搜索和店鋪內(nèi)搜索都有自己的排序策略,獨立優(yōu)化,互不影響。

 

具體的方法與應(yīng)用請點擊查看

 

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2022-08-12 12:23:28

神經(jīng)網(wǎng)絡(luò)優(yōu)化

2022-06-30 07:45:29

搜索聯(lián)合搜索索引

2024-10-10 08:19:50

2013-10-25 14:02:05

SAP

2023-06-28 08:33:10

業(yè)務(wù)系統(tǒng)SM-X

2022-07-07 11:27:14

技術(shù)搜索模型

2025-03-21 13:25:14

2012-07-06 16:01:26

華為服務(wù)器

2017-05-24 11:29:10

蘑菇街搜索推薦

2013-12-08 21:33:31

谷歌移動搜索應(yīng)用內(nèi)搜索

2011-06-19 11:03:30

搜索引擎SERP

2011-12-26 09:48:11

HTML 5

2011-06-08 15:08:38

MySQLWhere優(yōu)化

2023-10-16 08:32:29

開源工具

2023-10-10 08:52:36

射與分析相開源

2024-12-26 15:35:33

2009-06-12 08:35:43

微軟Windows 7操作系統(tǒng)

2022-06-07 15:33:51

Android優(yōu)化實踐

2022-04-28 09:36:47

Redis內(nèi)存結(jié)構(gòu)內(nèi)存管理

2023-03-27 08:00:00

機器學(xué)習(xí)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號