自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Graphical model在收藏夾作弊行為識(shí)別上的應(yīng)用

原創(chuàng)
人工智能
本文將從作弊行為分析,構(gòu)建模型,求解模型三個(gè)部分對(duì)這個(gè)工作進(jìn)行詳細(xì)介紹。目前文章已被WWW 2018接收(接收率14.8%)。

 總述

Graphical Model通常應(yīng)用在問(wèn)題本身帶有多個(gè)相互聯(lián)系的變量的場(chǎng)景,并提供了一種基于圖的表達(dá)方式讓你去建模這些聯(lián)系從而挖掘潛在的因果關(guān)系。在本文中,我們創(chuàng)新性地將概率圖模型應(yīng)用到了淘寶平臺(tái)收藏作弊行為檢測(cè)的任務(wù)中,取得了遠(yuǎn)超傳統(tǒng)分類模型的結(jié)果(Top1%記錄中召回60%的作弊行為)。

本文我們將從作弊行為分析,構(gòu)建模型,求解模型三個(gè)部分對(duì)這個(gè)工作進(jìn)行詳細(xì)介紹。目前文章已被WWW 2018接收(接收率14.8%)。

背景介紹

隨著在線購(gòu)物網(wǎng)站的發(fā)展,在線購(gòu)物正在逐步取代傳統(tǒng)的購(gòu)物方式。2016年普華永道的調(diào)查顯示54%的購(gòu)物者每周或每月都會(huì)在網(wǎng)上購(gòu)買商品,其中34%的購(gòu)物者認(rèn)為手機(jī)是他們主要的購(gòu)物工具。在購(gòu)物網(wǎng)站中,搜索引擎是用戶找到具體商品,款式或者品牌的主要入口。

在搜索引擎的幫助下,用戶能夠方便地在購(gòu)物網(wǎng)站上完成一系列加購(gòu),收藏,購(gòu)買行為,而這些用戶行為數(shù)據(jù)本身也蘊(yùn)含著極大的價(jià)值,在優(yōu)化購(gòu)物網(wǎng)站的推薦和搜索中扮演了非常重要的角色。“加入收藏夾”作為淘寶一個(gè)重要的功能,可以方便用戶收藏一些暫時(shí)不買的商品。與此同時(shí),商品被“加入收藏夾”的數(shù)量,也稱作人氣,也是淘寶的搜索引擎提供的一種可選的排序策略;且對(duì)于默認(rèn)的綜合排序,人氣值也常常作為一個(gè)參數(shù)被引入進(jìn)去。

為了提升產(chǎn)品或店鋪的排名及可見度,部分惡意商家采取虛假的作弊行為以提高銷量,主要包括虛假推廣行為(收藏、加購(gòu)和轉(zhuǎn)發(fā))及虛假的評(píng)論行為。目前,針對(duì)于淘寶作弊活動(dòng)的地下產(chǎn)業(yè)已趨近成熟,尤其是隨著眾包平臺(tái)的發(fā)展,這些商家可以根據(jù)自己的需求,便捷地發(fā)布作弊任務(wù),吸引眾多的參與者來(lái)完成作弊活動(dòng),從而快速高效的實(shí)現(xiàn)產(chǎn)品或店鋪的宣傳推廣。

以虛假收藏為例,惡意商家通過(guò)發(fā)布任務(wù),快速提高其商品的人氣值,從而影響淘寶的推薦和搜索排序策略,進(jìn)一步提高商品銷量。這類借助眾包平臺(tái)的作弊行為能夠在短時(shí)間內(nèi)產(chǎn)生大量異常數(shù)據(jù),且難以檢測(cè),會(huì)對(duì)用戶以及購(gòu)物網(wǎng)站本身造成惡劣的影響。因此,如何快速有效地找到這些作弊活動(dòng),對(duì)于淘寶來(lái)說(shuō)非常重要。

作弊活動(dòng)運(yùn)作模式

通過(guò)調(diào)研灰產(chǎn)平臺(tái)提供的收藏作弊服務(wù),我們總結(jié)了如下圖所示的作弊模式:

 

首先商家通過(guò)平臺(tái)發(fā)布作弊任務(wù),指定商品,搜索關(guān)鍵詞,任務(wù)時(shí)間以及傭金。除了這些基本的信息之外,商家還會(huì)提出一些特殊的要求,例如在搜索結(jié)果頁(yè)中瀏覽超過(guò)x分鐘,在搜索結(jié)果中隨機(jī)點(diǎn)擊y個(gè)商品,再點(diǎn)擊指定商品進(jìn)行收藏,有一些任務(wù)還需參與者滿足一定的等級(jí)要求。平臺(tái)的用戶看到任務(wù)之后會(huì)去申領(lǐng),根據(jù)任務(wù)中提出的要求進(jìn)行搜索,瀏覽,點(diǎn)擊,收藏等一系列動(dòng)作,***還需要截圖,以便去平臺(tái)申領(lǐng)傭金。

此類平臺(tái)的用戶,多為兼職刷手,作弊行為只是其在淘寶平臺(tái)留下的行為的一部分。此外,收藏作為一個(gè)隱私行為,無(wú)法被大眾察覺,缺少類似于“對(duì)我有用”、“***答案”等顯性的指標(biāo)。因此,這類新興的作弊任務(wù),很難用已有的方法進(jìn)行檢測(cè)。

為了針對(duì)此類作弊行為進(jìn)行識(shí)別,我們收集了作弊平臺(tái)上一個(gè)月時(shí)間的任務(wù),用于對(duì)用戶行為進(jìn)行標(biāo)注。同時(shí),我們分別從用戶屬性,商品屬性以及行為屬性三個(gè)角度,對(duì)收藏作弊進(jìn)行了深入分析。我們將這些屬性和用戶,商品之間的關(guān)聯(lián)關(guān)系用Factor Graph模型進(jìn)行了整合,并基于此設(shè)計(jì)了一個(gè)分類模型來(lái)檢測(cè)可能的收藏作弊行為。

用戶、商品以及行為屬性對(duì)比分析

行為屬性分析

首先,我們對(duì)作弊收藏行為和正常收藏行為之間的屬性差異做了詳盡的對(duì)比。

從加購(gòu)角度看,作弊收藏行為中帶有加購(gòu)動(dòng)作的只有6%,而在正常收藏行為中則有8%。這個(gè)差異主要是因?yàn)闃O少數(shù)的收藏作弊任務(wù)中會(huì)有加購(gòu)物車的要求,另外作弊收藏的商品本身也不是用戶想要的,自然加購(gòu)的意愿也就差一些。在搜索過(guò)程中,用戶可以通過(guò)一些篩選條件(發(fā)貨地,價(jià)格區(qū)間等)來(lái)更有效的找到商品,這里作弊收藏對(duì)比正常收藏,使用篩選的比例反而更低一些。

對(duì)于收藏前是否有其余的商品點(diǎn)擊(在當(dāng)前這次搜索過(guò)程中),作弊收藏行為明顯高出正常收藏行為很多。這個(gè)主要還是因?yàn)樽鞅兹蝿?wù)中很多都要求多點(diǎn)幾個(gè)商品。從時(shí)間上看,作弊行為更傾向于發(fā)生在周末,這可能是與作弊用戶是兼職的有關(guān)系。

在下圖中,我們對(duì)更多的行為屬性進(jìn)行了對(duì)比,這其中包括了搜索關(guān)鍵詞的長(zhǎng)度,搜索結(jié)果頁(yè)瀏覽深度,搜索結(jié)果頁(yè)停留時(shí)間以及點(diǎn)擊商品詳情頁(yè)的停留時(shí)間。

通過(guò)上面的分析,我們可以看到除了前序商品點(diǎn)擊之外,其余的多種屬性上,作弊收藏行為和正常收藏行為之間的差異性并不大,這也進(jìn)一步印證了但從行為本身來(lái)區(qū)分作弊與非作弊是非常困難的。

用戶屬性分析

在接下去的分析中,我們將收集到的作弊樣本涉及的用戶定義為作弊用戶,其余的用戶稱為正常用戶,類似作弊樣本中的商品成為作弊商品,其余的商品成為正常商品。

從上表中可以看到,作弊用戶的行為(收藏,加購(gòu),購(gòu)買,評(píng)論)明顯要少于正常用戶。這些行為能反映出一個(gè)用戶在平臺(tái)上投入的時(shí)間,很顯然,作弊用戶的活躍度遠(yuǎn)低于正常用戶。

我們?nèi)×似渲幸粋€(gè)作弊用戶,來(lái)觀察其收藏行為的持續(xù)性。結(jié)果如上圖中展現(xiàn),作弊用戶會(huì)在一段持續(xù)的時(shí)間里(前半個(gè)月)收藏一定數(shù)量的作弊商品。這個(gè)數(shù)據(jù)說(shuō)明,作弊用戶收藏作弊商品會(huì)在某個(gè)持續(xù)的時(shí)間窗口內(nèi)。

商品屬性分析

與用戶屬性分析類似,我們也對(duì)比了作弊商品和正常商品之間的差異性。數(shù)據(jù)見下表。很明顯,作弊商品上的行為數(shù)據(jù)遠(yuǎn)低于正常商品,這也反映出,通常只有表現(xiàn)不是很好的商品會(huì)尋求作弊,同時(shí)這些作弊商品也很難吸引到正常的用戶。

我們選取了一個(gè)作弊商品和一個(gè)正常商品,觀察它們被收藏的持續(xù)性,結(jié)果見下圖??梢钥吹剑鞅咨唐飞系淖鞅仔袨榧性谝粋€(gè)很短的時(shí)間窗口內(nèi),這或許是對(duì)應(yīng)的任務(wù)指定的時(shí)間。

作弊收藏檢測(cè)

模型定義

根據(jù)對(duì)作弊活動(dòng)的分析,我們提取了有區(qū)分能力的特征,并將提取的特征因素和關(guān)聯(lián)因素統(tǒng)一整合到概率圖模型框架中(Activity Factor Graph Model, AFGM),進(jìn)行虛假收藏活動(dòng)的識(shí)別。

在AFGM模型中,我們一共引入了三方面的特征因素,包括行為特征,用戶特征和商品特征,同時(shí)引入了基于用戶和商品的關(guān)聯(lián)因素,即對(duì)于一個(gè)固定的時(shí)間窗口內(nèi),相同用戶或者相同商品產(chǎn)生的兩條收藏記錄建立邊的關(guān)系,具體模型如下圖所示。

 

 

模型求解

 

實(shí)驗(yàn)結(jié)果

可以看到,傳統(tǒng)方法在作弊檢測(cè)這個(gè)問(wèn)題上基本上沒有效果,而利用概率圖模型則均可得到一個(gè)較好的結(jié)果。相比之下,我們發(fā)現(xiàn)即便不考慮商品屬性因子和用戶屬性因子,模型已經(jīng)能到得到一個(gè)很好的結(jié)果了,加入這些因子之后只是對(duì)最終結(jié)果小幅提升。

上圖顯示了不同的概率圖模型在topk%下的檢測(cè)效率,可以看到在top10%中,我們就可以檢測(cè)出近80%的作弊行為,而AFGM與AFGM-UP兩種模型的表現(xiàn)非常接近。這個(gè)可能是由于相關(guān)性因子已經(jīng)包含了足夠的信息用于檢測(cè)作弊行為。AFGM-CP的表現(xiàn)是四種模型中最差的,這說(shuō)明商品相關(guān)性因子在檢測(cè)作弊的時(shí)候更加重要。

小結(jié)

在本文中,我們對(duì)淘寶評(píng)上的收藏作弊行為從多個(gè)角度做了深入的分析,揭示了作弊行為與正常行為之間的差異性。通過(guò)這些分析,我們提取了多種特征,并提出了AFGM來(lái)推斷一次收藏行為是否為作弊。實(shí)驗(yàn)結(jié)果顯示,AFGM在top1%的記錄中能召回超過(guò)60%的作弊行為。

通過(guò)不同模型之間的對(duì)比,我們也發(fā)現(xiàn)商品相關(guān)性因子在檢測(cè)作弊行為時(shí)更為重要。盡管我們提出的檢測(cè)模型具有相當(dāng)高的效率,但是也得指出目前的算法只能對(duì)一個(gè)時(shí)間周期內(nèi)的作弊進(jìn)行整體識(shí)別,尚不能對(duì)行為進(jìn)行實(shí)時(shí)判別,這將是未來(lái)的一個(gè)研究方向。

作者:蘇寧、劉奕群、李朝、劉玉利

因涉及公式過(guò)多,免紕漏,附PDF,請(qǐng)點(diǎn)擊查看

責(zé)任編輯:王雪燕 來(lái)源: 51CTO
相關(guān)推薦

2009-11-12 09:30:40

Google DocsChrome藏夾

2015-12-11 10:58:03

bing搜索移動(dòng)

2009-05-21 14:22:24

瀏覽器共享收藏夾

2011-08-04 10:44:54

注冊(cè)表編輯器IE收藏夾

2009-08-24 08:59:10

IT白領(lǐng)網(wǎng)絡(luò)應(yīng)用

2012-10-16 20:21:30

搜狗地圖

2023-02-16 08:05:17

蘋果macOS

2011-08-17 10:52:01

windows7資源管理器收藏夾

2010-06-03 15:16:14

2011-12-23 11:25:50

win7

2021-01-31 12:11:21

微軟Edge瀏覽器

2021-02-19 07:57:00

JS 技巧路線

2023-06-21 15:37:07

微軟Edge瀏覽器

2021-01-26 05:04:47

屬性FlexBox用法

2023-09-18 06:55:13

Edge瀏覽器

2024-12-23 08:53:20

微軟Edge瀏覽器

2011-12-08 14:40:19

QQ通訊錄云備份

2023-05-15 17:04:33

Edge瀏覽器

2023-02-16 08:35:54

蘋果macOS

2011-09-01 10:10:56

OceanBase海量淘寶
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)