移動廣告作弊流量的淺潛規(guī)則
流量作弊彌漫在互聯(lián)網(wǎng)廣告行業(yè)中,已經(jīng)成為公開的秘密。
黑格爾的哲學(xué)***”存在即合理“,往往被人濫用,其原意是“合理即合符某種規(guī)律”,通過黑格爾辯證法,不存在不變的東西,這個***也可以解釋成“凡是存在的,都是應(yīng)該會滅亡的”。 不知道虛假流量什么時候會滅亡,那時這篇文章就失去意義了,不過既然這篇文章現(xiàn)在存在,那么就是合理的(rational)。
今天的話題集中在移動流量作弊上面,作弊(反作弊)形式和技術(shù)與PC作弊不盡相同。PC的用戶標(biāo)識通常使用瀏覽器的Cookie;而移動的標(biāo)識通常是IDFA(蘋果),Google Ads ID(海外Android),IMEI(國內(nèi)Android)。移動App有更多信號(機會)辨別真?zhèn)危琍C瀏覽器的限制會比較多。
這篇文章就膚淺介紹一下虛假流量后的一些潛規(guī)律,很多分析都很淺顯,因此叫做淺潛規(guī)則。
1. 虛假流量的術(shù)語
本文聊的作弊流量,有好多種說法,側(cè)重點也不盡相同。
作弊流量(Fraud Traffic) :大白話,容易明白,就是騙人的流量
非人為流量(No-Human Traffic ): 這種流量特指一些Bot流量,機器模擬的;對于一些劫持的流量,有些灰色地帶,因此不夠準(zhǔn)確。
非激勵正常流量(No-Incentive Traffic):有些流量雖然是人為流量,但常常是由某種誘惑而來(例如不合理頁面設(shè)計,獎券,紅包,游戲點卡等),因此激勵流量通常轉(zhuǎn)化效果比較差。
無效流量(Invalid Traffic) :為了規(guī)避過于敏感的作弊(Fraud)而使用的術(shù)語,這樣不容易得罪人,無效流量中既有故意為之,也有無意為之的。
異常流量(Abnormal Traffic) :類似于無效流量,強調(diào)流量的異常性。
這些術(shù)語之間并沒有太多包含關(guān)系(或沒必要嚴(yán)格細分),更多的是用在不同的場景和角色。例如,有些研發(fā)人員關(guān)注No-Human Traffic(Bot Traffic) ;有些效果監(jiān)測的公司更加關(guān)注計費的流量,因此愿意使用invalid traffic;早期,這些流量都稱為Fraud Traffic,因此作弊流量也是一種常用說法。
2. 移動廣告的業(yè)務(wù)模式圖:
有錢的就地方就是作弊,常在河邊走,哪有不濕鞋?看看錢是如何流動的就可以理解其中利益關(guān)系。錢流的上游是付錢的主,下游的機構(gòu)總想放大收入,那么在付錢主的所能容忍范圍內(nèi)***化收入就是各個環(huán)節(jié)優(yōu)化的目標(biāo)。這是一個在限制條件下,單優(yōu)化目標(biāo)的問題。
常見流量作弊的動機:
- 媒體:制造虛假流量,提升收入
- 廣告代理/銷售:運營虛假流量,保證合同,提升收入
- 交易平臺:對虛假Supply審查不嚴(yán)格,提升收入
- 用戶:為獲得激勵(紅包,點卡等)而產(chǎn)生低(無)效果流量
- 廣告主:惡意消耗競爭對手的預(yù)算
3. 移動廣告目前的虛假流量比例
由于虛假流量過于復(fù)雜和敏感,大家在報數(shù)的時候都是非常謹(jǐn)慎小心的。盡管如此,***大家報的數(shù)字千差萬別,因此無法考證各個數(shù)據(jù)的置信度,大家參考一下就好。
- ANA( Association of National Advertisers): “聲譽差的交易平臺作弊流量達到25-50%,聲譽好的通常低于10%”。
- AppFlyer:2016年,AppLift的報告指出34%的移動流量為有風(fēng)險的虛假流量(Risk of fraud, 22%可疑,12%高風(fēng)險) 。Android虛假流量比例大于iOS,系統(tǒng)版本約高,虛假比例越低。
- 秒針:2016年垂直網(wǎng)站與網(wǎng)盟媒體異常流量占比***。其中,垂直類媒體曝光異常大幅增至 24.93%,點擊異常中網(wǎng)盟類媒體最為明顯,占比高達 71.07%。
- AdMaster :2016年全年無效流量整體占比為30.2%;下半年出現(xiàn)小幅度惡化現(xiàn)象,無效流量增加3.7%;
4.移動虛假流量的分類
虛假流量有很多種分類,各種分類都會有灰色的領(lǐng)域,下面我試圖用作弊的基本原理方式來分類,而且主要是針對移動的場景。更加全面和系統(tǒng)的分類,可以參考劉鵬老師的《互聯(lián)網(wǎng)廣告作弊十八般武藝》。
另外一種分類可以按照設(shè)備和人為的四象限分類
5. 移動反虛假流量的模型
在討論如何對付移動虛假流量的方法之前,我們先看看移動作弊的一些主要黑技術(shù),做到知己知彼。
移動作弊中涉及很多黑技術(shù),其中包括一下一些:
- 模擬器:BlueStacks, AndyWin, GenyMotion
- Spoofer: 不斷的修改機器的IP , IMEI, MAC等
- Proxy: 網(wǎng)關(guān),修改ISP, IP, UA , 設(shè)備類型等
- 蘋果: 沒有模擬器,主要通過硬件和軟件模擬
- 激勵流量(incent Traffic ): 真實人流量,但是轉(zhuǎn)化率差的流量 ...
對于如何防范移動虛假流量,這確實是一個復(fù)雜的問題。并非沒有防范作弊的高端技術(shù),也不是因為這個問題不夠嚴(yán)重,最主要的原因有三個。
- 精準(zhǔn)打擊反作弊的成本比較高
- 各種玩家的利益分配原因
- 作弊者的受益高和風(fēng)險低,大部分情況下,作弊者不會受到任何懲罰。
例如,最近友盟+在法院起訴某家App刷量公司,理由是影響了友盟統(tǒng)計計算的正確性和公正性。目前法院并沒有判定,我也不得知其訴訟的合理性。打個比方,有一個刷墻公司把路上所有廣告牌都刷成某家公司,然后有一個品牌影響力排名公司去控告這個刷墻公司,嚴(yán)重影響了它的品牌排名公正性。總感覺這個邏輯,不算太對。我也確實非常討厭App刷量公司,但是從哪個角度去批判和懲罰他們,確實值得法律法規(guī)上更多的討論。
不聊倫理和法規(guī),聊聊技術(shù)吧,我覺得技術(shù)上可以按照如下模型來對付虛假流量,這里特指移動端。
硬件:手機擁有更多的硬件信息,因此通過硬件信息進行虛假流量的防范,可以防范通過非手機(即Bot,服務(wù)器等)的虛假流量。雖然,現(xiàn)在手機系統(tǒng)提供了有一些標(biāo)準(zhǔn)函數(shù)可以獲得硬件信息,例如IMEI,MAC等,但這些函數(shù)很容易被一些通用軟件工具所攻破。另外,這個硬件標(biāo)識的信息,也無法在服務(wù)器端得到有效校驗。因此,在虛假流量的斗爭中,***步往往就是識別流量的來源,是真實手機,還是模擬器,服務(wù)器模擬等工具。
規(guī)則策略:規(guī)則往往是最簡單有效的防范機制,例如,對于***次訪問全新流量,將虛假流量的可能性設(shè)置為高。對于每天多余X次的有規(guī)律訪問,堅決抵制等等。規(guī)則有很多很多,不斷的增加,修改,發(fā)展到***,規(guī)則的匹配次序也成了一門藝術(shù)了。對于一些初級的造假者,往往會落到這些規(guī)則中。
機器學(xué)習(xí):機器學(xué)習(xí)就是通過一些訓(xùn)練數(shù)據(jù)集合訓(xùn)練出一個分類器,對于一些特征,訓(xùn)練出一些權(quán)重信息,而后用于流量的分類識別上。做虛假識別的團隊很多時候在這個方向會越做越深,使用更多的特征,使用更多數(shù)據(jù),使用更加及時的數(shù)據(jù),嘗試更多的模型。這個領(lǐng)域工作很“苦”,做嚴(yán)格了,收入可能受影像,做寬松了,廣告主投訴ROI下降,這種平衡有點里外不是人。
智勇雙全:有些作弊并非***死板的技術(shù)手段完成的,其實有很多五花八門的方法。舉例來說,通過加大對于媒體的懲罰力度,可以提高媒體的作弊成本,從而降低作弊率。另外,還有一種有趣的反作弊方法,叫做Honey Ad(有時也叫Bluff Ad),這些廣告有些特點(例如,預(yù)期點擊率很低),通過觀察點擊率是否和預(yù)期一樣,可以判斷流量是否是機器流量(機器流量無法判斷這些廣告的貼點)。
6 識別虛假流量的技術(shù)流派
這一部分主要是集中在通過機器學(xué)習(xí)的辦法辨識虛假流量的技術(shù),有一大部分內(nèi)容可以在相關(guān)的論文中找到。
6.1 分類方法
大部分算法工程師在處理虛假流量都是從分類技術(shù)開始的,構(gòu)造一個分類器,找各種各樣的特征,找到一些虛假流量的(例如轉(zhuǎn)化率異常)訓(xùn)練數(shù)據(jù)。這種方法對于對于虛假流量的樣本非常依賴,不同的樣本很容易訓(xùn)練出不同的模型,容易過渡擬合。 對于新的虛假流量模式,不容易及時發(fā)現(xiàn)。
6.2異常檢查(Anomaly-Based Detection)
學(xué)術(shù)上有很多論文,討論通過聚類的方案識別異常流量,在移動端,可以通過跟蹤某一個用戶標(biāo)識的歷史行為,各種上網(wǎng)行為,廣告請求行為,瀏覽行為,特別是跨媒體的使用情況,以辨別這個流量是否是正常手機的使用軌跡。
- 基于歷史信息和行業(yè)平均水平進行異常分析
- 基于時間的變化,發(fā)現(xiàn)一些突變點
- 這一技術(shù)在金融和交易的反欺詐,用的非常多,技術(shù)也非常繁多
- 常用方法可以聚類,分類或者內(nèi)容分析;
《Using Co-Visitation Networks For Classifying Non-Intentional Traffic》 Ori Stitelman et al. Dstillery 2013.
6.3 APP的廣告作弊的自動化檢查
市面上有很多APP,那些APP是制作虛假流量的來源?有沒有什么自動的檢查方法? 微軟有一篇論文就是介紹這方面的工作,通過自動運行APP,分析APP的廣告情況:太多廣告,廣告大小過小,重疊廣告等等。
2014,《DECAF: Detecting and Characterizing Ad Fraud in Mobile Apps》
6.4. 審計(Audit)
審計是一種傳統(tǒng)的反欺詐方法,也是有效的,對于調(diào)查一些刷量問題也是有直接幫助的。
當(dāng)有些在某些媒體(publisher) 點擊發(fā)生點擊
廣告平臺/廣告主向媒體發(fā)送一些審計的請求,確認(rèn)之前受到的點擊的有效性(時間點,基本信息),而后進行對比。
6.5 偽廣告驗證(Honey Ads)
廣告平臺發(fā)送一些小比例的廣告,例如一些信息提示,按道理,這些提示內(nèi)容并沒有讓用戶Click的意圖。
如果這些偽廣告的點擊率,仍然很高,像其它的廣告點擊率一樣高,說明這些流量有問題。
6.6 設(shè)備ID的真?zhèn)伪鎰e
在移動設(shè)備上,對于設(shè)備ID的辨別可以極大的幫助識別虛假流量。有兩件事需要確認(rèn),***,這個ID是有效的ID,第二,這個廣告請求確實是來自這個ID所在的設(shè)備。
移動設(shè)備ID也比較多,國內(nèi)安卓以IMEI的MD5/SHA256為主;IMEI通常也會帶有制造商的一些基礎(chǔ)信息。
如何確定這個ID是來源于真實的設(shè)備,這就需要利用硬件的技術(shù),或則通過歷史數(shù)據(jù)的一些分析來看。例如有一個IMEI ,請求的IP來源忽悠不定,上午的IP在鄭州,下午在杭州和南寧等,或則不熟悉的地方,那么這些廣告請求中,通常有虛假的成分。因此,對ID進行辨別,對常見ID可以采用輔助的技術(shù)進行識別,包括訪問頻率,IP范圍,瀏覽行為,搜索行為,APP事情情況等等,訪問時間等,而且可以通過數(shù)據(jù)鏈的方式來判定請求的真實性。
6.7 分享一些反欺詐的論文
這里推薦老東家的一篇論文,《Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft》,這篇文章介紹了微軟2014年之前的一些心路總結(jié),從RuleBitmap 到 Model Fighting,如何定義Metric (Value per Click)。我有幸與部分作者一起工作,期間真心感到反欺詐的工作的無冕之艱辛。
我收集了一些Papers,有興趣的同學(xué)可以到我的主頁上下載:http://www.ouyangchen.com/download
7 反作弊技術(shù)公司
1.Integral Ad Science
2009年成立的反作弊公司,保護品牌安全等,這家公司和尼爾森有很多合作, 詳情可見integralads.com
2. Solve Media
專業(yè)提供CAPTCHA( "Completely Automated Public Turing test to tell Computers and Humans Apart")的服務(wù),也就是驗證是否是人操作,而不是機器訪問。
3.Double Verify
主要從事視頻的可見性的檢測,它和Facebook和Youtube都有合作,經(jīng)過MRC的認(rèn)真。
4. Forensiq
專業(yè)處理虛假流量的技術(shù)公司,在投前,投中,投后都能夠提供解決方案。
8 ***不得不說的話
打擊異常流量,是一件苦勞總是多于功勞的事情,處理不利常常遭到廣告主的投訴以及平臺的信譽度下降,如果過于激進,廣告主消耗可能會顯著減少,交易平臺流水也會減少。反欺詐算法的同學(xué)通常需要保守各種算法規(guī)則的秘密,很多時候,一些新的規(guī)則上線,也不能大肆宣揚,只能暗中觀察效果,與非正常流量開始一波又一波的拉鋸戰(zhàn)斗。
***,為長期打擊反欺詐的同學(xué)鼓掌加油!
【本文為51CTO專欄作者“歐陽辰”的原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系作者本人獲取授權(quán)】