自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

技術(shù)揭秘 | 互聯(lián)網(wǎng)廣告黑產(chǎn)盛行,如何反作弊?

安全 應(yīng)用安全
世界廣告主聯(lián)盟WFA表示[1]“若不采取措施,2025 年虛假廣告花費(fèi)將高達(dá) 500 億美元,僅次于毒品交易金額,成為世界第二大非法營收”。

有人的地方就有江湖。廣告作為互聯(lián)網(wǎng)公司商業(yè)變現(xiàn)最為直接快捷的途徑,廣告作弊已經(jīng)形成了一個有完整鏈條的黑產(chǎn)行業(yè)。如何通過技術(shù)手段識別并防范廣告作弊?本文通過介紹常見的廣告計費(fèi)模式和虛假流量的獲益形式和發(fā)生機(jī)制,分析廣告點(diǎn)擊反作弊的核心問題,分享相關(guān)的反作弊實(shí)踐經(jīng)驗(yàn),詳解反作弊技術(shù)體系及核心算法。

背景

世界廣告主聯(lián)盟WFA表示[1]“若不采取措施,2025 年虛假廣告花費(fèi)將高達(dá) 500 億美元,僅次于毒品交易金額,成為世界第二大非法營收”。

互聯(lián)網(wǎng)行業(yè)發(fā)展的幾十年來,已經(jīng)滲透到生活的方方面面,各種互聯(lián)網(wǎng)公司層出不窮?;ヂ?lián)網(wǎng)公司的商業(yè)變現(xiàn)途徑已經(jīng)發(fā)展出引流、電商、游戲等多種流派,但是廣告變現(xiàn)作為一種最快捷和直接的變現(xiàn)途徑,依然占據(jù)著整個行業(yè)的大半壁江山。國際國內(nèi)的各大互聯(lián)網(wǎng)公司如:Google、Facebook、百度、阿里、騰訊、字節(jié)跳動、各大門戶或視頻網(wǎng)站,廣告收入占其總收入的比例都非常高。有人的地方就有江湖,有江湖的地方就有紛爭?;ヂ?lián)網(wǎng)廣告也引申出了作弊與反作弊的紛爭?;ヂ?lián)網(wǎng)廣告作弊已經(jīng)成為了一個有完整鏈條的行業(yè),而反作弊部門也成為了各大依靠廣告變現(xiàn)公司的標(biāo)配。

一 常見廣告計費(fèi)模式

一個網(wǎng)絡(luò)媒體(網(wǎng)站)會包含數(shù)十個甚至成千上萬個頁面,網(wǎng)絡(luò)廣告所投放的位置和價格就牽涉到特定的頁面以及瀏覽人數(shù)的多寡。這好比平面媒體(如報紙)的“版位”、“發(fā)行量”,或者電波媒體(如電視)的“時段”、“收視率”的概念。網(wǎng)絡(luò)媒體常見的廣告收費(fèi)模式[2]有CPM、CPC、CPA、CPT、CPS、CPI, 下圖是各種廣告計費(fèi)模式的邏輯和作用:

??

??

 

1 CPM

英文全稱Cost Per Thousand Impression,也稱每千次展示的成本。CPM是一種展示付費(fèi)廣告,只要展示了廣告主的廣告內(nèi)容,廣告主就為此付費(fèi)。由于展示了廣告就可以收費(fèi),不關(guān)心用戶是否有后續(xù)互動轉(zhuǎn)化,因此這種廣告的費(fèi)用也是比較便宜的。按此計費(fèi)的廣告一般是以展示為目的,如開屏廣告。

2 CPC

英文全稱Cost Per Click。CPC是一種點(diǎn)擊付費(fèi)廣告,根據(jù)廣告被點(diǎn)擊的次數(shù)收費(fèi)。每一次點(diǎn)擊計一次費(fèi), 因此即使向1000個訪問者展示了你的lander頁面,但是只有1個人點(diǎn)擊了你的lander,也只按照1次點(diǎn)擊進(jìn)行計費(fèi),因此可以說CPC這種模式在廣告測試的初級階段使用較為合適,為確定對你的產(chǎn)品感興趣的目標(biāo)人群的流量而付費(fèi),可以在測試的早期快速收集廣告數(shù)據(jù),盡快定位出目標(biāo)人群畫像,為下一步擴(kuò)量的投放做準(zhǔn)備。最常見的如搜索引擎關(guān)鍵詞廣告采用這種定價模式,比較典型的有Google的AdSense、百度鳳巢競價廣告以及淘寶的直通車廣告。

就是每一次點(diǎn)擊計一次費(fèi),但有些聯(lián)盟是有明確規(guī)定的,每個ip在一段規(guī)定的時間內(nèi)只扣費(fèi)一次,這樣的方法可以增加作弊的難度。但是此類方法就有不少人覺得不公平,比如雖然瀏覽者沒有點(diǎn)擊,但是他已經(jīng)看到了廣告,對于這些看到廣告卻沒有點(diǎn)擊的流量來說,廣告成了白忙活。

3 CPA

英文全稱Cost Per Action。CPA是一種按廣告投放實(shí)際效果計價方式的廣告,而不限廣告投放量。CPA的計價方式對于網(wǎng)站而言有一定的風(fēng)險,但若廣告投放成功,其收益也比CPM的計價方式要大得多。因?yàn)镃PC有可能存在欺騙性(比如典型的機(jī)器人刷點(diǎn)擊),所以就產(chǎn)生了CPA。比較常見的CPA計費(fèi)方式的廣告有注冊賬號、電商場景的加購物車或者收藏、微信的關(guān)注公眾號等。

4 CPT

英文全稱Cost Per Time。CPT是一種以時間來計費(fèi)的廣告,國內(nèi)很多的網(wǎng)站都是按照“一個月多少錢”這種固定收費(fèi)模式來收費(fèi)的,這種廣告形式很粗糙,無法保障客戶的利益。但是對網(wǎng)站來說CPT的確是一種很省心的廣告,能給網(wǎng)站帶來穩(wěn)定的收入。

CPT是品牌廣告的報價方式,這種收費(fèi)模式簡單易用,廣告主自主選擇的空間大。但是CPT沿用幾年,廣告主漸漸發(fā)現(xiàn)這種收費(fèi)形式缺乏說服力。對客戶和網(wǎng)站都不公平,無法保障廣告客戶的利益。由于各大媒體尚未能實(shí)時地公布其每天的不同頁面的日訪問量和日不重復(fù)訪客數(shù),因此,廣告主在衡量廣告投放效果時只能根據(jù)媒體公布的數(shù)據(jù)進(jìn)行估算,這種評估方法難以體現(xiàn)互聯(lián)網(wǎng)廣告所應(yīng)有的精確性和實(shí)時性,而只是根據(jù)經(jīng)驗(yàn)估算出廣告所能傳達(dá)到的用戶數(shù)量及相應(yīng)所需付出的費(fèi)用。同時一個越來越明顯的趨勢是隨著媒體頁面訪問量的不斷變化提高,媒體缺乏有力的第三方數(shù)據(jù)向廣告主證明這種頁面訪問量增長的準(zhǔn)確可靠性,只能被動地每半年或每一年調(diào)整一次價格,以提高自己的收人。

電商網(wǎng)站主頁中間位置的鉆展和門戶網(wǎng)站的包月廣告都屬于這種CPT廣告。適合垂直行業(yè)平臺展示廣告位,類似地鐵廣告、電梯廣告等戶外廣告也是這種類型,通常按周、月進(jìn)行銷售。

5 CPS

英文全稱Cost Per Sales。CPS是一種以實(shí)際銷售產(chǎn)品數(shù)量來計算廣告費(fèi)用的廣告,這種廣告更多的適合購物類、導(dǎo)購類、網(wǎng)址導(dǎo)航類的網(wǎng)站,需要精準(zhǔn)的流量才能帶來轉(zhuǎn)化。

這種模式的好處是相對容易得到廣告主的認(rèn)同,只需要在完成一單訂單后才會支付相應(yīng)的廣告費(fèi)用,不好的地方是在現(xiàn)有條件下,會導(dǎo)致廣告資源的浪費(fèi),例如一個網(wǎng)站投放了CPS廣告,10000個訪客中可能會有100個人對產(chǎn)品感興趣,而100個人中間只有10個人最后完成了購買的轉(zhuǎn)化,但另外9900個流浪其實(shí)就浪費(fèi)了。所以大型媒體一般不會采用這種結(jié)算方式,采用此類方式的媒體一般處于長尾端利基產(chǎn)品進(jìn)行廣告投放。因?yàn)橥茝V效果能夠比較準(zhǔn)確的計量與評估,對于廣告主而言,CPC、CPA、CPS方式比CPM、CPT模式更加有利。

6 CPI

英文全稱Cost per install。按每次裝機(jī)付費(fèi),是移動端APP推廣常用的計費(fèi)模式。

二 虛假流量的獲益形式和發(fā)生機(jī)制

1 廣告投放流程

下圖是廣告投放流程[1]:

??

??

 

2 獲益方式

廣告作為互聯(lián)網(wǎng)最主要的盈利模式,利益誘惑下部分流量提供方會有作弊動機(jī)。下圖[1]是幾種常用廣告計費(fèi)模式對應(yīng)的獲益方式。

??

??

 

3 發(fā)生機(jī)制

機(jī)器作弊[1]成本低,特征集中,容易識別;人工作弊成本高,作弊者要想獲利也會表現(xiàn)會一定的集中性,需要深入分析數(shù)據(jù)挖掘異常特征,從而識別作弊。

??

??

 

三 廣告點(diǎn)擊反作弊核心問題

世界廣告主聯(lián)盟WFA表示[1]“若不采取措施,2025 年虛假廣告花費(fèi)將高達(dá) 500 億美元,僅次于毒品交易金額,成為世界第二大非法營收”。

互聯(lián)網(wǎng)行業(yè)發(fā)展的幾十年來,已經(jīng)滲透到生活的方方面面,各種互聯(lián)網(wǎng)公司層出不窮?;ヂ?lián)網(wǎng)公司的商業(yè)變現(xiàn)途徑已經(jīng)發(fā)展出引流、電商、游戲等多種流派,但是廣告變現(xiàn)作為一種最快捷和直接的變現(xiàn)途徑,依然占據(jù)著整個行業(yè)的大半壁江山。國際國內(nèi)的各大互聯(lián)網(wǎng)公司如:Google、Facebook、百度、阿里、字節(jié)跳動、各大門戶或視頻網(wǎng)站,廣告收入占其總收入的比例都非常高。有人的地方就有江湖,有江湖的地方就有紛爭。互聯(lián)網(wǎng)廣告也引申出了作弊與反作弊的紛爭。互聯(lián)網(wǎng)廣告作弊已經(jīng)成為了一個有完整鏈條的行業(yè),而反作弊部門也成為了各大依靠廣告變現(xiàn)公司的標(biāo)配。

虛假流量的存在,讓數(shù)字廣告行業(yè)遭受前所未有的信任危機(jī)。具體危害主要表現(xiàn)在:

  • 虛假流量的存在,讓廣告效果、品牌安全等方面都難以實(shí)現(xiàn)廣告主的投放初衷,會導(dǎo)致獲客成本的增加,直接造成了廣告主的經(jīng)濟(jì)損失。
  • 無效流量掩蓋了真實(shí)用戶。從結(jié)果上看,虛假流量提升了流量數(shù)據(jù),虛增的曝光次數(shù)實(shí)際對廣告主并無價值,無法提升客戶與商機(jī)的數(shù)量、無法提升真實(shí)的用戶留存和真實(shí)的用戶活躍。
  • 數(shù)字廣告行業(yè)遭受前所未有的信任危機(jī)。因?yàn)椴涣嫉母偁幖岸唐诘睦骝?qū)使,加上廣告主對數(shù)字廣告營銷效果的困惑、混亂,造成廣告主對數(shù)據(jù)廣告的信譽(yù)危機(jī)。

下述探討按CPC計費(fèi)的廣告點(diǎn)擊反作弊。

1 無效點(diǎn)擊定義

點(diǎn)擊反作弊的工作目標(biāo)是把流量中存在的“無效點(diǎn)擊”過濾掉。對于“無效點(diǎn)擊”的定義,維基百科上的定義如下:

Click fraud occurs in pay per click online advertising when a person, automated script or computer program imitates a legitimate user of a web browser clicking on an ad, for the purpose of generating an improper charge per click.

簡單來說無效點(diǎn)擊是指在CPC計費(fèi)的廣告系統(tǒng)中,以人工或者機(jī)器手段蓄意造成的非以轉(zhuǎn)化為目的的廣告點(diǎn)擊行為。

2 廣告點(diǎn)擊業(yè)務(wù)的運(yùn)轉(zhuǎn)邏輯

下圖[3]是廣告投放過程涉及的4個角色,他們的基本功能和訴求如下:

  • 廣告主:將自己產(chǎn)品的廣告觸達(dá)到用戶,通過廣告在受眾群體或目標(biāo)用戶中產(chǎn)生一定的品牌影響力,進(jìn)一步使得用戶成為其服務(wù)或產(chǎn)品的消費(fèi)者。
  • 廣告代理/銷售:比較專業(yè)的廣告推廣操盤手,幫廣告主管理賬號,提供專業(yè)的營銷服務(wù)。
  • 廣告交易平臺:是一個連接互聯(lián)網(wǎng)媒體和廣告主的廣告系統(tǒng)平臺,不僅會給廣告主提供廣告營銷工具和廣告投放服務(wù),而且會借助互聯(lián)網(wǎng)媒體的流量實(shí)現(xiàn)廣告的商業(yè)價值。比如有大量用戶和流量的搜索引擎公司、電商公司、社交公司。
  • 媒體:媒體一般為互聯(lián)網(wǎng)網(wǎng)站或互聯(lián)網(wǎng)信息與服務(wù)的提供商?;ヂ?lián)網(wǎng)廣告投放的媒體通過用戶在其網(wǎng)站瀏覽信息或者使用服務(wù)的過程中完成廣告信息的傳播,媒體一般也叫聯(lián)盟。比如一些小網(wǎng)站,如博客。
  • 用戶:在互聯(lián)網(wǎng)上瀏覽信息或使用服務(wù)的人,也是廣告主的潛在的廣告客戶。

??

??

 

下表介紹了上面5個角色的在廣告產(chǎn)業(yè)鏈中“提供的服務(wù)、利益訴求、作弊動機(jī)”。這些作弊者是黑產(chǎn)中的一部分,另外一些專業(yè)黑產(chǎn)為上述作弊者提供專業(yè)的作弊服務(wù)(比如養(yǎng)的批量賬號,比如提供可以修改點(diǎn)擊者環(huán)境信息的作弊器),以收取服務(wù)費(fèi)。

??

??

 

3 反作弊的意義

  • 定性方面:業(yè)務(wù)發(fā)展和風(fēng)險如同汽車的引擎和剎車,是有機(jī)的組成。引擎負(fù)責(zé)向前,剎車負(fù)責(zé)避免風(fēng)險。
  • 定量方面:業(yè)務(wù)如同放貸,而技術(shù)風(fēng)險就是放貸的利率。利率高了,業(yè)務(wù)就跑不動了;利率低了,是要有泡沫破滅的大風(fēng)險的。利率的高低是需要數(shù)據(jù)和藝術(shù)來平衡的?!?/li>

廣告點(diǎn)擊反作弊表面上是過濾了點(diǎn)擊,減少了營收。實(shí)際上是過濾廣告主認(rèn)為不該扣費(fèi)的點(diǎn)擊,保障廣告主的正常投放廣告,提升廣告主對平臺的信任度,為廣告業(yè)務(wù)的發(fā)展保駕護(hù)航。

正如CRO的使命中所說“反作弊的使命是讓消費(fèi)者安心,讓業(yè)務(wù)方/商家與合作伙伴省心,讓監(jiān)管單位放心,讓作惡者灰心”。

4 反作弊的難點(diǎn)

業(yè)務(wù)視角的難點(diǎn)

很贊同大家提的反作弊要盡量做到“上醫(yī)治未病”、“遏制劣幣驅(qū)逐良幣”以及反作弊要做到“水不驚魚不跳”、“沒有人知道我的存在就是我做得好的一個表現(xiàn)”。這是對平臺發(fā)展、買家和賣家體驗(yàn)的義無反顧的責(zé)任,做得不好的時候別人很快就知道我的存在了,但是做到“風(fēng)平浪靜”的時候怎么證明是反作弊的貢獻(xiàn)呢?準(zhǔn)確過濾的作弊量一定程度上反映問題??蛻舻捏w驗(yàn)和信任度也反應(yīng)反作弊的價值。

技術(shù)視角的難點(diǎn)

  • 道高一尺魔高一丈,作弊和反作弊都在不斷迭代升級,如果沒能過濾新型大規(guī)模攻擊將非常影響客戶體驗(yàn)和對平臺的信任,怎么持續(xù)做到“上醫(yī)治未病”、“防范于未然”,保障客戶體驗(yàn)和避免平臺資損。后續(xù)我們會介紹事前我們的“主動發(fā)現(xiàn)作弊機(jī)制”,以及事后升級規(guī)則和模型。
  • 缺少置信樣本,怎么在保證召回作弊的情況下控制平臺的資損。后續(xù)“樣本工程”部分介紹我們的有監(jiān)督模型是怎么選樣本的。
  • 用什么指標(biāo)衡量業(yè)務(wù)做得好?我們用準(zhǔn)召率和召回率兩個指標(biāo),準(zhǔn)確率分兩種,一種是新策略的準(zhǔn)確率,計算邏輯為“大盤點(diǎn)擊的轉(zhuǎn)化率/新策略單獨(dú)識別點(diǎn)擊的轉(zhuǎn)化率”;另一種是線上所有策略的準(zhǔn)確率,計算邏輯為“大盤點(diǎn)擊的轉(zhuǎn)化率/所有策略識別點(diǎn)擊的轉(zhuǎn)化率”。召回率指客戶賠付總次數(shù)和金額。

5 作弊動機(jī)

在整個行業(yè)中每個角色在整個鏈條中利益訴求不盡相同,其作弊動機(jī)也不一樣,接下來我們單獨(dú)分析每個角色的作弊動機(jī)及利益所在:

  • 廣告主:雖然廣告主是最初的金主,但也存在作弊的強(qiáng)烈動機(jī)。比如在競價環(huán)境下希望盡快消耗競爭對手的廣告從而使自己容易拿到量,或者對自己作弊從而提升自己的點(diǎn)擊率。
  • 廣告交易平臺:廣告交易平臺還有被動的作弊,因?yàn)檫€有很多流量來自于其它媒體的引流,這些媒體參差不齊,廣告交易平臺和媒體之間的結(jié)算以點(diǎn)擊來結(jié)算,所以媒體也有足夠的動力作弊。而這些點(diǎn)擊完全不會有任何轉(zhuǎn)化。

6 作弊類型

??

??

 

  • 機(jī)器作弊:使用機(jī)器或程序來模擬廣告行為,或者通過木馬和肉雞模擬用戶的廣告行為。為了使點(diǎn)擊行為不被規(guī)則類發(fā)現(xiàn)還會控制ip分布和時間。機(jī)器作弊有如下的方法:模擬器、Proxy(網(wǎng)關(guān),修改ISP,IP,UA,設(shè)備類型等)、爬蟲(各家搜索引擎大量爬取著整個網(wǎng)絡(luò),依然會消耗巨大的廣告預(yù)算)。
  • 人工作弊:雇人用真實(shí)的設(shè)備進(jìn)行廣告的各種行為操作,主要方式為眾包。

7 評價反作弊效果的方法

以下對比我們與阿里媽媽、百度鳳巢的主要評價指標(biāo),主要評價指標(biāo)均是準(zhǔn)確和召回兩個視角。召回視角比較相似:都是客戶感知,客戶賠付次數(shù)和賠付金額。以下對比準(zhǔn)確視角的指標(biāo)。

我們評價過濾準(zhǔn)確的方法

準(zhǔn)確視角:新策略上線前,計算其近似準(zhǔn)確率的邏輯為“大盤點(diǎn)擊的轉(zhuǎn)化率/新策略單獨(dú)識別點(diǎn)擊的轉(zhuǎn)化率”大于 X,值越大越準(zhǔn)確,具體閾值根據(jù)業(yè)務(wù)統(tǒng)計數(shù)據(jù)和人工評測確定

阿里媽媽評價過濾準(zhǔn)確的方法

準(zhǔn)確視角:借助淘系閉環(huán)轉(zhuǎn)化效果,估算準(zhǔn)確率置信區(qū)間。

百度鳳巢評價過濾準(zhǔn)確的方法

準(zhǔn)確視角:人工抽樣,可視化的評測各個維度的統(tǒng)計分布特征,然后計算準(zhǔn)確率。

我們與阿里媽媽均是電商業(yè)務(wù),有轉(zhuǎn)化數(shù)據(jù),比較適合用轉(zhuǎn)化率指標(biāo)。百度鳳巢代表的其他無轉(zhuǎn)化指標(biāo)的廣告系統(tǒng),適合人工評測。

另外關(guān)于轉(zhuǎn)化率可以根據(jù)業(yè)務(wù)定義,比如騰訊APP推廣反作弊系統(tǒng)會讓各個APP設(shè)定轉(zhuǎn)化指標(biāo),如留存、激以及電商場景的收藏、加購物車等。

四 反作弊技術(shù)體系

反作弊非常重要的一點(diǎn)是數(shù)據(jù)分析,本文暫不展開。下述技術(shù)已經(jīng)應(yīng)用到多個業(yè)務(wù)的廣告點(diǎn)擊反作弊中,下述技術(shù)不僅適用于按CPC計費(fèi)的廣告點(diǎn)擊反作弊,多數(shù)技術(shù)也適用于其他計費(fèi)模式(CPM/CPA/CPS/CPI)的反作弊。

1 技術(shù)體系大圖

??

??

 

數(shù)據(jù)層

線上系統(tǒng)使用了用戶歷史多天的站內(nèi)全鏈路行為數(shù)據(jù),和最近的曝光、點(diǎn)擊數(shù)據(jù)。行為反映用戶的意圖,在行為序列模型TextCNN、BiLSTM、Bert和GraphSage里都用到了用戶的歷史行為序列。

算法層&應(yīng)用層

如前面所述,作弊和反作弊都在不斷迭代升級。目前的算法主要集中在人工經(jīng)驗(yàn)規(guī)則、統(tǒng)計策略、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型、圖模型。

下述簡單介紹算法迭代的過程,詳細(xì)介紹請參考后面核心算法部分。

  • 業(yè)務(wù)剛開始的作弊主要是機(jī)器作弊,一些人機(jī)識別、爬蟲識別、黑名單即可識別大部分作弊。我們稱之為單點(diǎn)反作弊。
  • 隨后作弊者升級到人工作弊,比如大規(guī)模人工點(diǎn)擊(期間還不斷清除介質(zhì)),或者只點(diǎn)沒有轉(zhuǎn)化的行為序列異常,我們會升級到計數(shù)、比例、分布等統(tǒng)計策略和行為序列模型TextCNN、BiLSTM,已經(jīng)能攔截大部分的個人作弊。我們稱之為線上反作弊。
  • 接著作弊者又會升級高級的人工作弊,模擬人的點(diǎn)擊,盡可能的各種特征上不集中,但是畢竟作弊者要達(dá)到收益的話,需要有一定的作弊量,而他們不知道正常點(diǎn)擊的真實(shí)分布,自然的會在一些維度上出現(xiàn)異常。我們反作弊算法升級到無監(jiān)督相對熵模型,再后面有樣本了升級到有監(jiān)督的GBDT和Wide&Deep,均是從多個維度和特征上識別作弊。我們稱之為面上反作弊。
  • 再后面作弊難度更大了,他們會有眾包團(tuán)伙作弊,我們也升級聯(lián)通圖、圖神經(jīng)網(wǎng)絡(luò)GraphSage等模型,識別作弊團(tuán)伙。我們稱之為體反作弊。

架構(gòu)層

廣告點(diǎn)擊涉及到錢,時效性要求高,所以必須有實(shí)時反作弊;但是實(shí)時策略只能看到當(dāng)前點(diǎn)擊之前的數(shù)據(jù),不能看到點(diǎn)擊之后的數(shù)據(jù),可能存在少量判斷不準(zhǔn)的情況。故我們增加了小時級別的離線模型,使用更多數(shù)據(jù)提升準(zhǔn)確率和召回率。

??

??

 

運(yùn)營平臺

  • 投訴反饋是與廣告主反饋無效點(diǎn)擊的通道。
  • 主動發(fā)現(xiàn)作弊是我們離線運(yùn)行一些達(dá)不到上線準(zhǔn)確率的策略,以在廣告主感知到之前主動發(fā)現(xiàn)作弊,提升客戶體驗(yàn)。由于準(zhǔn)確率達(dá)不到上線標(biāo)準(zhǔn),故需要較多的人力分析挖掘的疑似作弊。在后面的主動發(fā)現(xiàn)作弊環(huán)境會詳細(xì)介紹思路。
  • 數(shù)據(jù)沉淀包括兩方面,一是識別的無效點(diǎn)擊用于后續(xù)訓(xùn)練有監(jiān)督模型識別作弊,二是識別無效點(diǎn)擊,以便下游廣告算法等清洗數(shù)據(jù)。

2 規(guī)則與模型對比

新型作弊大規(guī)模出現(xiàn)時,非常影響客戶體驗(yàn),進(jìn)而影響業(yè)務(wù)發(fā)展,規(guī)則適合解決這種緊急出現(xiàn)的大規(guī)模作弊;且規(guī)則容易實(shí)時部署;且規(guī)則可解釋性強(qiáng),早期的反作弊中使用較多,正因?yàn)檫@個原因,微軟的廣告反作弊系統(tǒng)2016年主要還是規(guī)則;再者反作弊場景天然缺少作弊樣本,也是規(guī)則受歡迎的一個原因。但由于規(guī)則過于依賴人的經(jīng)驗(yàn),且維度單一,容易被作弊者繞過,在作弊退去時可能因?yàn)闇?zhǔn)確率變低而誤過;另外一個規(guī)則解決一類作弊的話,后期會出現(xiàn)規(guī)則過多,維護(hù)成本高。另外統(tǒng)計規(guī)則為了保證準(zhǔn)確率段首較大。

當(dāng)規(guī)則和人工經(jīng)驗(yàn)多了會積累作弊樣本,這時候?qū)⒁?guī)則作為模型的特征訓(xùn)練模型,讓模型自己學(xué)作弊的特點(diǎn)以召回作弊。由于模型使用特征較多,準(zhǔn)確率更高,且一定程度上解決規(guī)則的段首問題。

??

??

 

3 樣本工程

  • 前面提到我們是電商場景,所以有轉(zhuǎn)化數(shù)據(jù),而且前期有統(tǒng)計規(guī)則的過濾點(diǎn)擊,故可以用規(guī)則圈一些較準(zhǔn)確的樣本(即轉(zhuǎn)化率較低的樣本)。
  • 基于經(jīng)驗(yàn)構(gòu)造樣本,也就是在其他場景的反作弊經(jīng)驗(yàn)的遷移應(yīng)用。
  • 使用SMOTE[4]生成樣本,我嘗試過SMOTE生成樣本的實(shí)驗(yàn),召回上略有提升。當(dāng)作弊樣本較少,SMOTE相當(dāng)于差值法,生成作弊樣本使得取值分布更全面。
  • 使用GAN[5]生成樣本,[6]用GAN生成欺詐樣本用于訓(xùn)練有監(jiān)督模型。下圖是GAN生成作弊樣本的思路。

??

??

??

??

 

4 特征工程

一般來說,真實(shí)流量一般自然 (真實(shí)的流量在各個維度中表現(xiàn)一定是自然的)與多樣(網(wǎng)民的喜好各不相同,行為一定也是多樣的)。而對于虛假流量,常表現(xiàn)出一定的目的性(虛假流量的產(chǎn)生一定和某個特定的目的有關(guān))和規(guī)律性(特定的目的導(dǎo)致虛假流量一定有特殊的規(guī)律)。

由于虛假流量與真實(shí)流量在具體訪問行為有較大差異,圍繞用戶行為可從以下幾方面識別出虛假流量。

模型的特征值或者規(guī)則是由下述的“維度*特征*類型”組合而成的,其中類型是通用的,支持配置。

維度

常用維度:時間&地域維度、終端類型、操作系統(tǒng)、聯(lián)網(wǎng)方式、瀏覽器、設(shè)備介質(zhì)、IP、廣告主賬號、refer、query集中等。

下面以時間維度&地域維度舉例:正常的流量訪問分布在一天中的各個時段、地理分布較為均勻(區(qū)域性投放或者活動除外)、訪問趨勢較為平緩。而虛假流量出現(xiàn)時間段特殊、來源區(qū)域集中、趨勢突增的情況。因此,通過流量產(chǎn)生的時間、地理位置、訪問趨勢變化都可以成為判斷虛假流量的參考方式。

同理用戶的終端類型、操作系統(tǒng)、聯(lián)網(wǎng)方式、瀏覽器、設(shè)備介質(zhì)、IP、廣告主賬號、refer、query集中等屬性,同樣可以成為判斷虛假流量的參考標(biāo)準(zhǔn)。

特征

1)產(chǎn)品參與度

具體包括平均訪問深度、平均訪問時長、用戶行為路徑、鼠標(biāo)點(diǎn)擊位置等。

  • 平均訪問深度:訪問深度是用戶一次瀏覽網(wǎng)站、APP的深度,它是衡量網(wǎng)站服務(wù)效率的重要指標(biāo)之一。以刷量為目的的虛假流量,用戶訪問深度通常非常低,因?yàn)樗哪康氖亲鞅祝c(diǎn)完即走。當(dāng)然造成用戶訪問深度不夠的原因有多種,如新投放的落地頁的失敗引導(dǎo)。因此我們在觀察此指標(biāo)時,應(yīng)率先排除產(chǎn)品較大改動造成的訪問深度不足等特殊情況,或者與其他渠道的流量數(shù)據(jù)綜合比較,進(jìn)行科學(xué)評估。
  • 平均訪問時長:平均訪問時長指標(biāo),主要用來衡量用戶與網(wǎng)站、APP 交互的深度。交互越深,相應(yīng)停留的時長也越長。顯然虛假流量追求的是“量”,而非“時長”,因此平均訪問時長也可以配合幾個網(wǎng)站參與度指標(biāo)一起分析。比如機(jī)器點(diǎn)擊的訪問時間會比較集中。
  • 用戶行為路徑:用戶在網(wǎng)站中的訪問行為路徑,用戶路徑的分析模型可以將用戶行為進(jìn)行可視化展示。因此通常用戶通過渠道來到。網(wǎng)站后會有不同的行為,他們一般會從落地頁開始進(jìn)行分流,會訪問不同的頁面,并在不同的頁面結(jié)束對網(wǎng)站的訪問。顯然, 用戶行為序列分布是沒規(guī)律的,而對于虛假流量,雖然通過某些方式完成點(diǎn)擊,但也是預(yù)先設(shè)定,有跡可循的。后面的TextCNN和BiLSTM模型解決的就是行為序列異常的作弊,有相應(yīng)的作弊case,用戶基本只訪問homepage和detail,沒有訪問其他頁面。
  • 鼠標(biāo)點(diǎn)擊位置:虛假流量用戶的鼠標(biāo)點(diǎn)擊位置通常是集中的,借助熱力圖工具可以較為容易地發(fā)現(xiàn)問題。

2)轉(zhuǎn)化情況

很多作弊流量可以模仿人類行為,成功繞過平均訪問深度和停留時長這些宏觀指標(biāo),但是要模仿一個業(yè)務(wù)轉(zhuǎn)化就比較難了,如果宏觀指標(biāo)表現(xiàn)很好,業(yè)務(wù)轉(zhuǎn)化很少的話,就需要提高警覺。當(dāng)廣告主被惡意攻擊時,其點(diǎn)擊擊率會突然變高或者推廣時長突然變低。

類型

以下的策略類型均可配置“特征”和“維度”。

  • 計數(shù):如策略“IP近1天點(diǎn)擊次數(shù)”,超過一定閾值是則是作弊。適用于過濾大規(guī)模攻擊。
  • 比例:如策略“IP下平均訪問時長小于等于0秒的點(diǎn)擊數(shù)占比為Y”,Y過大也是作弊。適用于“可列特征取值的某一個值占比異常的情況”。
  • 分布:如下圖所示是作弊點(diǎn)擊和正常點(diǎn)擊在訪問時長的分布。我們可以用相對熵或者卡方分布計算其異常度。適用于“可列特征取值是多個值”。

??

??

 

  • Distinct:如策略“ip維度設(shè)備介質(zhì)的數(shù)目”,該例子解決換設(shè)備作弊。適用于維度對象去重后值較多,如cookie的個數(shù),行業(yè)的個數(shù),國家的個數(shù)等值較分散的場景。
  • 集中度:比如策略“廣告主維度top K的ip的點(diǎn)擊占比”,該例子解決特定ip攻擊廣告主的情況,適用于不可列特征值的top K值較集中的場景。
  • 子維度Distinct數(shù)目分布:比如策略“廣告主主維度下的IP子維度下不同cookie數(shù)目的分布”——該例子解決換cookie攻擊Memberid的。這里廣告主是主維度,IP是子維度。適用于子維度換ip,換useragent,換設(shè)備介質(zhì)等,子維度下某個特征取值分布于基準(zhǔn)有差異。
  • 計數(shù)分布:比如策略“IP維度設(shè)備介質(zhì)子維度點(diǎn)擊次數(shù)的分布”,該例子解決機(jī)器均勻點(diǎn)擊作弊。適用于子維度點(diǎn)擊次數(shù)與基準(zhǔn)差異,主要是多次點(diǎn)擊。

5 主動發(fā)現(xiàn)作弊

主動發(fā)現(xiàn)作弊是為了在客戶申訴前發(fā)現(xiàn)并召回作弊,以提升客戶體驗(yàn),但其實(shí)也已經(jīng)出現(xiàn)作弊了。

  • 異常檢測。[7]和[8]分別是之前我整理的中文和英文版“從時間序列、統(tǒng)計、距離、線性方法、分布、樹、圖、行為序列、有監(jiān)督機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型等多個角度的異常檢測方法”。我們用這些方法結(jié)合上述特征工程環(huán)節(jié)的維度、特征、類型,提前發(fā)現(xiàn)異常。比如“memberid的點(diǎn)擊率和推廣時長的變化,或者某些維度下的其他的廣告指標(biāo)”。如果策略準(zhǔn)確率達(dá)到上線要求則部署到線上,否則需要對挖掘的數(shù)據(jù)做進(jìn)一步分析,針對發(fā)現(xiàn)的作弊調(diào)研策略。
  • 運(yùn)營人員去市場上調(diào)研作弊器。
  • 自己構(gòu)建各種作弊數(shù)據(jù)模擬攻擊反作弊系統(tǒng),觀察其魯棒性。
  • 蜜罐。收集作弊者的更多信息。

6 核心算法

識別機(jī)器作弊(點(diǎn))

早期的作弊是機(jī)器點(diǎn)擊、業(yè)務(wù)上的無效點(diǎn)擊上線規(guī)則,規(guī)則只關(guān)注較少維度的信息。比如識別爬蟲、內(nèi)網(wǎng)點(diǎn)擊。我們稱之為單點(diǎn)反作弊。

識別個人簡單作弊(線)

在作弊者升級到人工作弊后,我們會升級到計數(shù)、比例、分布等統(tǒng)計策略和行為序列模型。我們稱之為線上反作弊。

下圖是我們發(fā)現(xiàn)的網(wǎng)站某行業(yè)出現(xiàn)的一類攻擊,作弊者只訪問A、B、C、G共4類頁面,因?yàn)樗哪康木褪屈c(diǎn)廣告。正常用戶訪問頁面很豐富。還會訪問D、E、F、H等頁面,想咨詢買東西。

我們將用戶近7天在網(wǎng)站的訪問頁面序列作為特征,識別本次點(diǎn)擊是否是作弊點(diǎn)擊。先通過Word2Vec對每個頁面進(jìn)行文本向量化編碼。然后模型預(yù)測向量序列是否是作弊點(diǎn)擊。

??

??

 

1)TextCNN

TextCNN[9]是利用卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行分類的算法,輸入是詞向量,最后一層full connected網(wǎng)絡(luò)輸出預(yù)測結(jié)果。

卷積神經(jīng)網(wǎng)絡(luò)的核心思想是捕捉局部特征,對于文本來說,局部特征就是由若干單詞組成的滑動窗口。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠自動地對特征進(jìn)行組合和篩選,獲得不同抽象層次的語義信息。如圖所示:

??

??

 

下圖的輸入是一個用預(yù)訓(xùn)練好的詞向量(Word2Vec)方法得到的一個Embedding layer。詞向量的維度是固定的,相對于原來的One-Hot編碼要小,同時在新的詞向量空間語義上相近或者語法相近的單詞會更加接近。兩個維度,橫軸是單詞、縱軸是詞向量的維度(固定的)。我們的場景的模型結(jié)構(gòu)圖如下:

??

??

 

2)BiLSTM+Attention

我們也嘗試了BiLSTM+Attention[10],即雙向LSTM挖掘行為序列上下文關(guān)聯(lián)信息。LSTM依據(jù)之前時刻的時序信息來預(yù)測下一時刻的輸出,但在有些問題中,當(dāng)前時刻的輸出不僅和之前的狀態(tài)有關(guān),還可能和未來的狀態(tài)有關(guān)系。Bi-LSTM可以看成是兩層神經(jīng)網(wǎng)絡(luò),第一層從左邊作為系列的起始輸入,在文本處理上可以理解成從句子的開頭開始輸入,而第二層則是從右邊作為系列的起始輸入,在文本處理上可以理解成從句子的最后一個詞語作為輸入,反向做與第一層一樣的處理處理。最后對得到的兩個結(jié)果進(jìn)行處理。在我們的場景中即理解為正常點(diǎn)擊的用戶行為序列和作弊點(diǎn)擊的用戶行為序列從左往右和從右往左都有較大的區(qū)分性。LSTM雖然能獲取歷史信息,但是不能突然重要信息,為了更好的篩選歷史信息中的重要信息,增加了Attention。

??

??

 

3)Bert

BERT (Bidirectional Encoder Representations from Transformers)模型是谷歌提出的基于雙向Transformer[11]構(gòu)建的語言模型。通過海量語料預(yù)訓(xùn)練,得到序列當(dāng)前最全面的局部和全局特征表示。

??

??

 

BERT[12]網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示,Bert的內(nèi)部結(jié)構(gòu)是多個transformer 的encoder,從上圖可以看出Bert是雙向結(jié)構(gòu)的,transformer 的encoder如下圖所示。encoder包含一個Multi-Head Attention層和一個前饋神經(jīng)網(wǎng)絡(luò),self-attention能幫助當(dāng)前節(jié)點(diǎn)既關(guān)注當(dāng)前的詞又能獲取到上下文的語義,Multi-Head Attention擴(kuò)展了模型集中于不同位置的能力。

我們選擇BERT-Base,Uncased模型。在做文本分類項(xiàng)目時,只需要修改run_classifier.py文件的數(shù)據(jù)預(yù)處理類。

 

 


 

??

??

 

4)三者效果對比

  • TextCNN通過不同的滑動窗口可以獲取不同位置的上下文的特征,在測試集上效果比BiLSTM+Attention好。
  • Bert的雙向結(jié)構(gòu)和多頭機(jī)制可以從多個角度獲取上下文特征,在測試集上效果比TextCNN好。

識別個人高級作弊(面)

在我們識別上述作弊后,接著作弊者又升級高級的人工作弊,模擬人的點(diǎn)擊,盡可能的各種特征上不集中,但是畢竟作弊者要達(dá)到收益的話,需要有一定的作弊量,而他們不知道正常點(diǎn)擊的真實(shí)分布,自然的會在一些維度上出現(xiàn)異常,故我們反作弊算法升級到無監(jiān)督相對熵模型,再后面有樣本了升級到有監(jiān)督的GBDT和Wide&Deep,均是從多個維度和特征上識別作弊。我們稱之為面上反作弊。

1)相對熵

下圖是正常點(diǎn)擊和疑似作弊點(diǎn)擊的訪問時長的分布。在我們沒有其中的作弊點(diǎn)擊標(biāo)簽時,我們使用相對熵識別作弊點(diǎn)擊。

??

??

??

??

 

我們先計算N個特征的異常分,再計算M個維度的異常分,最后求和。

實(shí)際使用中,我們發(fā)現(xiàn)相對熵的一個缺點(diǎn)是新出現(xiàn)的作弊會帶偏基準(zhǔn),從而導(dǎo)致誤識別。由于相對熵模型是把線上策略識別為正常點(diǎn)擊的做基準(zhǔn),當(dāng)新型作弊出現(xiàn)時,我們不能及時識別,會將其當(dāng)做基準(zhǔn),從而基準(zhǔn)不準(zhǔn)確。另外就是相對熵在識別時的候選樣本不能包含大規(guī)模機(jī)器攻擊,它們也會帶偏分布。即使用時待識別樣本中需要剔除規(guī)則識別的特征非常集中的點(diǎn)擊。

2)Wide&Deep

Wide&Deep[13]通過分別提取wide特征和deep特征,再將其融合在一起訓(xùn)練,我們場景下模型結(jié)構(gòu)如下圖所示。

wide是指高維特征和特征組合的LR。LR高效、容易規(guī)?;?scalable)、可解釋性強(qiáng)。出現(xiàn)的特征組合如果被不斷加強(qiáng),對模型的判斷起到記憶作用。但是相反的泛化性弱。deep則是利用神經(jīng)網(wǎng)絡(luò)自由組合映射特征,泛化性強(qiáng)。deep部分本質(zhì)上挖掘一些樣本特征的更通用的特點(diǎn)然后用于判斷,但是有過度泛化的風(fēng)險。算法通過兩種特征的組合去平衡記憶(memorization)和泛化( generalization)。為了進(jìn)一步提升高級人工作弊的召回率,減少統(tǒng)計規(guī)則的段首漏過,使用前面的一些規(guī)則和有監(jiān)督模型挖掘的轉(zhuǎn)化率較低的比較準(zhǔn)確的作弊樣本作為訓(xùn)練樣本,線上統(tǒng)計規(guī)則作為模型的特征,訓(xùn)練Wide&Deep模型識別作弊。

我們的場景中的特征有:ip、memberid、refer等維度的計數(shù)、比例、分布、distinct等類型特征。

??

??

 

識別團(tuán)伙作弊(體)

我們也發(fā)現(xiàn)一些團(tuán)伙攻擊廣告主,特征表現(xiàn)為先是一個cookie換不同ip,再是ip下?lián)Q多個cookie和utdid。每個設(shè)備介質(zhì)點(diǎn)擊次數(shù)較少,繞開了前面的統(tǒng)計策略,也有些點(diǎn)的多的段首漏識別了。而由于我們的CPC較高,客戶感知無效點(diǎn)擊較明顯。我們先是升級聯(lián)通圖解決同行攻擊和點(diǎn)自己的作弊,再升級圖神經(jīng)網(wǎng)絡(luò)GraphSage等模型識別作弊團(tuán)伙。我們稱之為體反作弊。

圖神經(jīng)網(wǎng)絡(luò)[14][15][16]GraphSage[17]的異構(gòu)網(wǎng)絡(luò)適合我們的場景。下圖是GraphSage兩層從鄰居聚合特征信息的示意圖:

??

??

 

在我們的場景中,ip、utdid、cookie等介質(zhì)組成的異構(gòu)圖神經(jīng)網(wǎng)絡(luò),下圖中紅色框的seller是為了示意被一個團(tuán)伙換介質(zhì)攻擊,實(shí)際構(gòu)圖中沒有seller。即將強(qiáng)/弱介質(zhì)連接的團(tuán)伙的特征進(jìn)行聚合。

??

??

 

頂點(diǎn)和邊特征:介質(zhì)近30天的作弊信息和站內(nèi)行為數(shù)據(jù)。

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】

??戳這里,看該作者更多好文??

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2016-10-13 16:20:11

2023-06-15 07:49:33

2019-05-22 10:07:26

異常檢測工程師

2018-07-26 07:21:12

2017-01-09 14:16:34

2023-02-15 21:49:55

2021-01-11 00:00:03

互聯(lián)網(wǎng)IT信息

2019-08-30 10:48:13

人生第一份工作跳槽那些事兒文章

2019-09-16 17:33:59

人生第一份工作跳槽那些事兒程序員

2018-09-21 17:44:01

2018-08-23 14:31:29

2012-02-28 15:04:09

移動互聯(lián)網(wǎng)廣告設(shè)計

2012-08-22 16:11:57

Google

2021-09-27 14:39:52

互聯(lián)網(wǎng)騰訊阿里

2013-01-22 17:07:49

2009-10-20 20:54:30

2025-02-11 09:12:55

2016-08-12 22:47:17

互聯(lián)網(wǎng)計算廣告

2016-12-16 19:27:59

互聯(lián)網(wǎng)廣告歸因分析數(shù)據(jù)

2011-11-10 15:09:04

廣告移動互聯(lián)網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號