大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)
實(shí)際上,所有的數(shù)據(jù)挖掘技術(shù)都是以概率論和統(tǒng)計(jì)學(xué)為基礎(chǔ)的。
下面我們將探討如何用模型來表示簡(jiǎn)單的、描述性的統(tǒng)計(jì)數(shù)據(jù)。如果我們可以描述所要找的事物,那么想要找到它就會(huì)變得很容易。這就是相似度模型的來歷——某事物與所要尋找的事物越相似,其得分就越高。
下面就是查詢模型,該模型正在直銷行業(yè)很受歡迎,并廣泛用于其它領(lǐng)域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型適用于較低的維度,而樸素貝葉斯模型準(zhǔn)許更多的維度加入。還有線性回歸和邏輯回歸模型,都是最常見的預(yù)測(cè)建模技術(shù)?;貧w模型,用于表示散點(diǎn)圖中兩個(gè)變量之間的關(guān)系。多元回歸模型,這個(gè)準(zhǔn)許多個(gè)單值輸入。隨后介紹邏輯回歸分析,該技術(shù)擴(kuò)展了多元回歸以限制其目標(biāo)范圍,例如:限定概率估計(jì)。還有固定效應(yīng)和分層回歸模型,該模型可將回歸應(yīng)用于個(gè)人客戶,在許多以客戶為中心的數(shù)據(jù)挖掘技術(shù)之間搭建了一座橋梁。
1、相似度模型
相似度模型中需要將觀察值和原型進(jìn)行比較,以得到相應(yīng)的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測(cè)量距離。觀察值與原型值之間的距離越近,觀察值的得分就越高。當(dāng)每個(gè)客戶細(xì)分都有一個(gè)原型時(shí),該模型可以根據(jù)得分把客戶分配到與其最相似的原型所在的客戶細(xì)分中。
相似度模型有原型和一個(gè)相似度函數(shù)構(gòu)成。新數(shù)據(jù)通過計(jì)算其相似度函數(shù),就可以計(jì)算出相似度得分。
1.1、相似度距離
通過出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個(gè)訊息——“工資很高,并且受過良好的教育”。
如果要把對(duì)讀者的描述表示成一個(gè)可以識(shí)別該雜志潛在的讀者的模型,就需要對(duì)理想的讀者做出精確的定義,并以此來量化潛在讀者與理想讀者之間的相似程度。
相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標(biāo)時(shí),如果兩個(gè)事物彼此非??拷?,那么兩者就很相似。所以當(dāng)兩者距離很小時(shí),相似度就會(huì)很高。
例如:出版社的理想讀者的受教育程度是16年,年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時(shí)候,我們要選擇一個(gè)度量的標(biāo)準(zhǔn),歐式距離。當(dāng)我們計(jì)算一潛在客戶與理想客戶(x=16,y=100000)之間的距離時(shí),就會(huì)發(fā)現(xiàn)收入在計(jì)算中占了主導(dǎo)地位,因?yàn)樗娜≈当冉逃晗薮蟮亩嗟枚?。這就引入另一個(gè)問題:度量尺度。解決方法:將兩值分別減去相應(yīng)的平均值然后除以相應(yīng)的標(biāo)準(zhǔn)差。這樣就把兩者轉(zhuǎn)化成分?jǐn)?shù),然后用分?jǐn)?shù)代替原來的值來計(jì)算歐式距離。
歐式距離僅計(jì)算距離方法之一。這里才采用歐式距離只是為了將原型目標(biāo)的一種統(tǒng)計(jì)描述與某種距離函數(shù)結(jié)合起來,搭建一種相似度模型。有了潛在用戶與理想客戶之間的距離,就可以對(duì)潛在客戶排序,或者將距離作為另一種計(jì)算的輸入,得到預(yù)期收入或相應(yīng)概率。
1.2 、構(gòu)建相似度模型的步驟
構(gòu)建相似度模型,首先是要對(duì)原型進(jìn)行描述,或得到一個(gè)用于與其他對(duì)象進(jìn)行比較的理想對(duì)象。這些描述必須表示為度量,對(duì)于那些與理想值較近或較遠(yuǎn)的對(duì)象,這些變量的取值要明顯不同。
首先,要解決三個(gè)問題
(1)“差”記錄與“好”記錄有什么區(qū)別?
(2)理想的“好”記錄看起來是什么樣子的?
(3)如何度量與理想對(duì)象之間的距離?
2、表查詢模型
實(shí)現(xiàn)數(shù)據(jù)挖掘模型的一個(gè)簡(jiǎn)單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應(yīng)也相似。對(duì)一個(gè)新觀測(cè)值的評(píng)分涉及兩個(gè)步驟。一、為觀測(cè)值指定一個(gè)特定的標(biāo)簽或主鍵。主鍵對(duì)應(yīng)于查詢表中的一個(gè)單元格。二、被分配到某一個(gè)單元格的所有記錄都會(huì)有一個(gè)得分,該分值在模型訓(xùn)練時(shí)就被賦予該單元格。
分配主鍵的方式有多種。決策樹模型適用了規(guī)則集將觀測(cè)值分配到特定的葉節(jié)點(diǎn),葉節(jié)點(diǎn)的ID就可以作為一個(gè)可用于查詢得分的主鍵。聚類技術(shù)為記錄指定標(biāo)簽,這里的聚類標(biāo)簽就可以作為查詢主鍵。
構(gòu)建查詢表,一、為查詢表選擇輸入變量。將訓(xùn)練集中的每條記錄精確地分配到該表中的一個(gè)單元格中。使用訓(xùn)練集中的統(tǒng)計(jì)數(shù)據(jù)來刻畫單元格的特征,這些統(tǒng)計(jì)數(shù)據(jù)包括平均值、標(biāo)準(zhǔn)差以及落入該單元格的訓(xùn)練實(shí)例個(gè)數(shù)。在為模型評(píng)分的時(shí)候會(huì)用到這些統(tǒng)計(jì)數(shù)據(jù)。分?jǐn)?shù)可以是數(shù)值型目標(biāo)的平均值,也可以是屬于某一特定類別的比例,或者是單元格中占主導(dǎo)地位的類別。
2.1、選擇維度
每個(gè)維度都應(yīng)該是一個(gè)對(duì)目標(biāo)有影響的變量。理想情況,輸入變量不應(yīng)該彼此相關(guān),實(shí)際上,很難避免之間不相關(guān)。相關(guān)變量的實(shí)際影響是,訓(xùn)練完成后有些單元格僅含有幾個(gè)訓(xùn)練實(shí)例,這會(huì)使得估計(jì)值的置信度偏低。實(shí)際情況可能好點(diǎn),因?yàn)橐u(píng)分的新數(shù)據(jù)在那些單元格中也是稀疏的。
例如:在RFM模型中,有一個(gè)維度是采購總數(shù),還有一個(gè)維度是整個(gè)生存期的花費(fèi)。在兩個(gè)變量高度相關(guān),因?yàn)橥ǔG闆r下,額外的購買會(huì)創(chuàng)造額外的收入。很少有記錄會(huì)落入到購買數(shù)量***而收入?yún)s很少,或收入很高而采購量卻很少的單元格情況。
應(yīng)該避免使用高度相關(guān)的變量作為查詢表的維度,因?yàn)檫@些相關(guān)變量會(huì)導(dǎo)致大量的稀疏的單元格。包含訓(xùn)練樣本過少的單元格會(huì)產(chǎn)生置信度偏低的目標(biāo)估計(jì)值。
對(duì)維度數(shù)的主要限制是單元格中訓(xùn)練記錄的數(shù)量。在維度數(shù)與每個(gè)維度上分到的訓(xùn)練樣本數(shù)之間有一個(gè)權(quán)衡。使用較少的維度,可以在每一個(gè)維度上進(jìn)行更加精細(xì)的劃分。在實(shí)際處理過程中,可能會(huì)出現(xiàn)該單元格中什么都沒有,有的時(shí)候這種情況是確實(shí)存在的。這種異常情況,表中應(yīng)該包含具有默認(rèn)得分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認(rèn)異常單元格得分,就是平均值。
2.2、維度的劃分
在實(shí)際的過程中,并不需要,每一個(gè)類別劃分一個(gè)維度。維度的分割應(yīng)該依實(shí)而用。對(duì)于一個(gè)維度的合理劃分是按高、中、低劃分,而對(duì)另一個(gè)維度的合理劃分可能是按照百分比來劃分。有的時(shí)候,根據(jù)業(yè)務(wù)規(guī)則來定分割點(diǎn),遵循這些特定的分割點(diǎn)劃分記錄可能那個(gè)比等分劃分更有意義。有監(jiān)督的分割,可以用于確保分割的有效性。這個(gè)后面在討論。
2.3、從訓(xùn)練數(shù)據(jù)到得分
維度劃分好以后,在訓(xùn)練集上計(jì)算每個(gè)單元格的得分就簡(jiǎn)單了。對(duì)于數(shù)值型目標(biāo)而言,得分=平均值。對(duì)于類別目標(biāo),每個(gè)類別會(huì)有一個(gè)得分=每個(gè)單元格類標(biāo)簽的比例。這樣對(duì)于每個(gè)類都有一個(gè)概率估計(jì),即待評(píng)分的數(shù)據(jù)記錄屬于該類的概率。
2.4、通過刪除維度處理稀疏和缺失數(shù)據(jù)
有些單元格沒有分配到足夠多的數(shù)據(jù),這會(huì)導(dǎo)致目標(biāo)估計(jì)值的置信度較低。對(duì)于這類單元格該怎么辦?一、減少每個(gè)維度上的劃分?jǐn)?shù)量。二、減少定義稀疏單元格的維度數(shù)。
例如:構(gòu)建某購物網(wǎng)站物品清單價(jià)格的競(jìng)爭(zhēng)力模型。基于清單熟悉感,點(diǎn)擊吸引力的分析考慮四個(gè)維度:
- 產(chǎn)品
- 地域
- 供應(yīng)商類型
- 星期幾
對(duì)于一些比較受歡迎的產(chǎn)品,使用這四個(gè)維度是有道理的。而對(duì)于不受歡迎的商品,沒有足夠多的清單來支持所有維度,所以要丟棄一些維度。對(duì)于一些產(chǎn)品,放棄星期幾這一維度就OK。對(duì)于已協(xié)商產(chǎn)品,只是基于三個(gè)維度而不是基于四個(gè)維度之間的比較。對(duì)于一些產(chǎn)品,甚至只留下一個(gè)維度,對(duì)于這類產(chǎn)品,要做的就是持續(xù)刪除維度并合并單元格,直到每個(gè)單元格含有足夠的多的數(shù)據(jù)。
3、RFM:一種廣泛使用的查詢模型
RFM模型,稱為近期、頻率以及貨幣。RFM背后的邏輯很簡(jiǎn)單。近期下單的客戶在不久的將來再次購買的概率可能性非常大。在過去有許多購買記錄的顧客更有可能在不久的將來再次購買,并且在過去消費(fèi)較多的客戶更有可能在將來消費(fèi)更多。RFM是一種***化現(xiàn)有客戶收益的技術(shù),而不是吸引新客戶的技術(shù)。
將客戶分配大RFM單元中,三個(gè)RFM變量需要轉(zhuǎn)化為三個(gè)量化指標(biāo)。近期:距離上次購買的天數(shù)或周數(shù),用于得到R的得分。
第二個(gè)變量頻率,通常是以前下單的總數(shù),記錄F的得分。***一個(gè)是客戶生存期中的總的花費(fèi),該值用于創(chuàng)建M的得分。每個(gè)維度5等分。由于維度之間具有相關(guān)性,如F維和M維,所以各個(gè)單元格的客戶數(shù)量并不相等。要做的就是將所有的數(shù)據(jù)都分配到合適的單元格中,而且每個(gè)單元格要有足夠多的記錄,從而目標(biāo)估計(jì)值具有一個(gè)可以接受的置信度。
3.1、RFM單元格轉(zhuǎn)移
對(duì)于每個(gè)營(yíng)銷活動(dòng),客戶都會(huì)在RFM單元格之間轉(zhuǎn)移。那些做出響應(yīng)的客戶對(duì)增加其消費(fèi)頻率和消費(fèi)總額,并且會(huì)減少距上一次購買的時(shí)間。這些新的取值通常都會(huì)遷移到單元格中。沒有響應(yīng)的客戶也可能因距上一次購買時(shí)間的增加而轉(zhuǎn)移到新的單元格。其實(shí)這就是定期的數(shù)據(jù)更新,模型更新。數(shù)據(jù)的遷移,會(huì)導(dǎo)致原來的期望的變化,在數(shù)據(jù)單元格遷移過程中,要不斷的了解客戶的需求,及時(shí)的更改數(shù)據(jù)。
3.2、RFM和增量響應(yīng)建模
增量響應(yīng)建模的目標(biāo)是識(shí)別那些容易被說服的潛在客戶——受營(yíng)銷影響***的人。RFM可以看成是對(duì)客戶營(yíng)銷活動(dòng)響應(yīng)能力的預(yù)測(cè)。在定義好的RFM單元格之后,需要為每個(gè)單元格分配成員,要么是接收營(yíng)銷信息的測(cè)試組成員,要么就是不接受該信息的對(duì)照組成員?;跍y(cè)試組和對(duì)照組兩個(gè)分組之間的響應(yīng)率之差決定了營(yíng)銷活動(dòng)對(duì)于發(fā)現(xiàn)潛在客戶的能力。對(duì)于測(cè)試組和對(duì)照組之間的響應(yīng)率差異***的單元格,營(yíng)銷獲得產(chǎn)生的影響也是***的。但這些單元格的響應(yīng)率卻未必是***的。