數(shù)據(jù)挖掘在Google再營銷中的應(yīng)用
再營銷就是將廣告信息再次推送到曾經(jīng)訪問過你的網(wǎng)站用戶面前,Google再營銷就是利用Google聯(lián)盟已有的網(wǎng)站和廣告數(shù)據(jù),對曾經(jīng)來過網(wǎng)站或點擊過廣告的用戶群體召回,并結(jié)合數(shù)據(jù)挖掘技術(shù)實現(xiàn)精準(zhǔn)再營銷,提高轉(zhuǎn)化率。
Google精準(zhǔn)再營銷具體流程如下:
用KNIME預(yù)測模型找到高價值用戶
模型節(jié)點概覽
(一)數(shù)據(jù)導(dǎo)入:CSV Reader節(jié)點,讀入數(shù)據(jù)后可以查看到如下詳細數(shù)據(jù)列:
(二)數(shù)據(jù)處理:對讀入數(shù)據(jù)進行去燥處理,主要包含以下幾方面:
具體方法如下:
(三)建模字段選擇:選擇出對目標(biāo)轉(zhuǎn)化關(guān)系大的輸入變量,可以通過相關(guān)系數(shù)找出,為避免同類變量影響模型效果,可以先聚類,每個類別找出一個域目標(biāo)關(guān)系***的一個變量即可,本次預(yù)測模型由于輸入變量不多,不需要聚類分類。只要根據(jù)變量間的相關(guān)系數(shù)找出輸入變量即可,以下是變量間的相關(guān)系數(shù)。
(四)數(shù)據(jù)分區(qū)和建模:
將數(shù)據(jù)分為training data和test data,training data用來訓(xùn)練模型,test data用來檢驗?zāi)P偷倪m用性。本次預(yù)測模型經(jīng)過多重模型對比,我們選擇SVM(支持向量機)建立預(yù)測模型。支持向量機(Support Vector Machine,SVM)一般應(yīng)用于有監(jiān)督的學(xué)習(xí)模型,可用來分類和預(yù)測。主要用來解決線性不可分類的問題,這也是SVM區(qū)別于其他模型的特點之一。此類模型需要設(shè)置輸入變量是向量,例如x1=(1,0,0,0,0), x2=(0,1,0,0,0)等,需要提前將原始數(shù)據(jù)進行向量轉(zhuǎn)化。
核心算法
對于線性分類問題,只需要曲線或平面就能分類,但是對于非線性,如果也用線或面來粗暴式分類,結(jié)果顯然不理想,為了解決這類非線性問題,SVM通過創(chuàng)建一個超平面(可以理解為高維空間平面)將非線性側(cè)切分類.
SVM在構(gòu)建超平面過程中,需要到將原輸入數(shù)據(jù)映射到高維空間,一般用多項式可以實現(xiàn),但是由于高維空間的計算量會呈現(xiàn)爆炸式增長,對時間和空間是一種消耗,所以想到另一種解決方法—-核函數(shù):即所有的計算過程都在低維空間(一般2-6維)進行,只將結(jié)果映射到高維空間,且計算的結(jié)果與直接在高維空間計算結(jié)果一致。
核函數(shù):特征空間的隱式映射,計算兩個向量在隱式映射過后的空間中的內(nèi)積的函數(shù)叫做核函數(shù)。主要有以下幾種核函數(shù):
d次多項式核函數(shù):
S型核函數(shù):
經(jīng)發(fā)現(xiàn),非線性的SVM所發(fā)現(xiàn)的超平面與神經(jīng)網(wǎng)絡(luò)分類器發(fā)現(xiàn)的超平面屬于一種類型,S型核函數(shù)等價于多層感應(yīng)器的簡單2層神經(jīng)網(wǎng)絡(luò)。
高斯徑向基核函數(shù)(RBF):
注:若 σ 很大的話,高次特征上的權(quán)重實際上衰減得非???,所以實際上(數(shù)值上近似一下)就相當(dāng)于一個低維的子空間;反之 σ 很小,則可以將任意的數(shù)據(jù)映射為線性可分,但這并不一定是好事,因為隨之而來的可能是非常嚴(yán)重的過擬合問題??偟膩碚f,通過調(diào)控參數(shù) σ ,高斯核實際上具有相當(dāng)高的靈活性,也是使用最廣泛的核函數(shù)之一。
在實踐中,核函數(shù)的選擇一般并不導(dǎo)致結(jié)果準(zhǔn)確率的很大差別。
舉例理解超平面:
假設(shè)現(xiàn)在你是一個農(nóng)場主,圈養(yǎng)了一批羊群,但為預(yù)防狼群襲擊羊群,你需要搭建一個籬笆來把羊群圍起來。但是籬笆應(yīng)該建在哪里呢?你很可能需要依據(jù)牛群和狼群的位置建立一個“分類器”,比較下圖這幾種不同的分類器,我們可以看到SVM完成了一個很***的解決方案。
SVM優(yōu)點:可以***解決線性無法解決的分類和預(yù)測問題。在精確度上有優(yōu)勢。
SVM缺點:雖然用了核函數(shù),相對其他模型來說計算量級還是較大,耗內(nèi)存耗時間,如果數(shù)據(jù)類型多,涉及到的高維空間太大不建議使用。
通過ROC曲線可以看出,這個模型的ROC=0.8318,Accuracy=76.5%,是一個比較理想的模型。
(五)數(shù)據(jù)應(yīng)用—精準(zhǔn)再營銷投放(Adwords&DBM)
通過預(yù)測模型,將目標(biāo)轉(zhuǎn)化概率(對應(yīng)預(yù)約試駕提交成功)大于0.5的高價值用戶cookie(對應(yīng)輸變量“_c1”)找出,導(dǎo)入到Adwords&DBM系統(tǒng)中投放。即可實現(xiàn)更低成本拉回老客戶。