自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)挖掘工具:誰最適合CRM

數(shù)據(jù)庫
CRM(Customer Relationship Management),即客戶關(guān)系管理。這個(gè)概念最初由Gartner Group提出來,而在最近開始在企業(yè)電子商務(wù)中流行。CRM的主要含義就是通過對(duì)客戶詳細(xì)資料的深入分析,來提高客戶滿意程度,從而提高企業(yè)的競爭力的一種手段。本文主要講述適合CRM的數(shù)據(jù)挖掘工具。

自從我上次斗膽回答“如何選擇數(shù)據(jù)挖掘工具”之后,已經(jīng)好幾年過去了。本文主要闡述以下兩個(gè)核心觀點(diǎn):

1. 沒有***的工具,更確切地說,沒有適合所有人的***的工具。

2. 最有用的工具,是那些能夠滿足你所需要的絕大多數(shù)數(shù)據(jù)挖掘任務(wù)的工具。

主要的數(shù)據(jù)挖掘任務(wù)

大多數(shù)數(shù)據(jù)挖掘人員都明白,數(shù)據(jù)挖掘項(xiàng)目中70%到90%的工作是做數(shù)據(jù)準(zhǔn)備。在數(shù)據(jù)挖掘工具的演進(jìn)過程中,數(shù)據(jù)準(zhǔn)備功能的開發(fā)一直被放在次要位置上。***,你要能夠?qū)δP蜏?zhǔn)確評(píng)估,才能比較多個(gè)模型,并將它們推薦給市場人員。

數(shù)據(jù)準(zhǔn)備任務(wù)

常見的數(shù)據(jù)準(zhǔn)備任務(wù)包括:

◆進(jìn)行數(shù)據(jù)評(píng)估

以判別出:

缺失值(空字符串、空格、空值)

孤立點(diǎn)

共線性評(píng)估(自變量之間的相關(guān)性)

◆合并多個(gè)數(shù)據(jù)集;

◆從不同輸入格式到通用分析格式的元數(shù)據(jù)(字段的名稱和類型)映射;

◆將類似變量的值變換為通用格式;

◆某些算法對(duì)輸入變量有特殊要求,需要將數(shù)值型變量變換為類別型(通過數(shù)據(jù)分箱和分類),或者將類別型變換為數(shù)值型;

◆將變量值切分為多個(gè)字段,或?qū)⒍鄠€(gè)字段合并為一個(gè)字段;

◆從現(xiàn)有變量中派生新變量。大多數(shù)數(shù)據(jù)挖掘人員發(fā)現(xiàn),有些***有預(yù)測能力的變量,正是派生出來的變量。

大多數(shù)數(shù)據(jù)挖掘工具會(huì)把這些數(shù)據(jù)挖掘功能放在次要的地位, 本文則會(huì)側(cè)重評(píng)估常見數(shù)據(jù)挖掘工具處理這些任務(wù)的能力。

除了能支持以上的數(shù)據(jù)準(zhǔn)備任務(wù),一個(gè)好的數(shù)據(jù)挖掘工具還應(yīng)該包含模型評(píng)估的功能,以便比較建模過程中產(chǎn)生的多個(gè)模型,并用于支持直效營銷(direct marketing)。

#p#

模型評(píng)估工具

在分析理論中,***的模型是具有***精度的模型,可以準(zhǔn)確預(yù)測出目標(biāo)變量的類別,同時(shí)在驗(yàn)證數(shù)據(jù)集上也能表現(xiàn)穩(wěn)定。這就是說,在預(yù)測中我們要考慮響應(yīng)目標(biāo)和非響應(yīng)目標(biāo)的組合精度。這種方法稱為全局精度方法(Global Accuracy method)。大多數(shù)數(shù)據(jù)挖掘工具使用這種方法來確定“***”模型。但是,它也有美中不足。全局精度評(píng)估方法的背后有一個(gè)前提假設(shè),就是各種分類錯(cuò)誤的代價(jià)是相同的。這種方法在課堂上表現(xiàn)不錯(cuò),但在實(shí)際的CRM數(shù)據(jù)挖掘應(yīng)用上則可能存在問題,特別是在那些用于直郵營銷的應(yīng)用上。實(shí)際上,這也是過去很多用CRM來支持直郵營銷而未能產(chǎn)生明顯商業(yè)價(jià)值的一個(gè)主要原因。對(duì)模型的評(píng)估有一些主要原則,而其中只有一部分是營銷部門真正關(guān)心的: ***化目標(biāo)客戶的響應(yīng)率,最小化所需成本。大多數(shù)數(shù)據(jù)挖掘工具都把注意力集中在預(yù)測的組合精度上,卻完全忽略了成本的因素。

在直效營銷活動(dòng)中,向未響應(yīng)的潛在客戶(稱為“錯(cuò)誤肯定”錯(cuò)誤,false-positive)發(fā)送郵件的成本是相當(dāng)?shù)偷?;而如果一個(gè)潛在客戶可能會(huì)響應(yīng)(稱為“錯(cuò)誤否定”錯(cuò)誤,false-negative),你卻沒有向他發(fā)送郵件,那么這個(gè)代價(jià)就相當(dāng)大了(因?yàn)闆]有把他發(fā)展為客戶,您會(huì)損失他所繳納的會(huì)員費(fèi),而且他也不可能購買您的其它服務(wù))。因此在直銷營銷模型的評(píng)估中,就應(yīng)該盡量最小化錯(cuò)誤否定的錯(cuò)誤,而不是錯(cuò)誤肯定。因?yàn)闋I銷部門只關(guān)注響應(yīng)率和成本,如果前30%的客戶名單中包含了全體響應(yīng)者的60%,就可以滿足他們的需求。對(duì)于直銷營銷來說,盡管前30%的客戶仍會(huì)有部分人不會(huì)響應(yīng)(錯(cuò)誤肯定錯(cuò)誤),向他們發(fā)送郵件依然是值得的。那是因?yàn)槲覀円呀?jīng)聯(lián)系了全體響應(yīng)者中的60%。 此時(shí)就比隨機(jī)發(fā)郵件的有效性提高了一倍,也就更加合算。

大多數(shù)數(shù)據(jù)挖掘工具都使用全局精度方法來進(jìn)行模型評(píng)估。它們可能會(huì)要求你使用這種方法,通過工具的報(bào)表功能來識(shí)別出“***”模型。不同算法會(huì)產(chǎn)生多個(gè)模型,我們不應(yīng)該只是查看工具提供的精度報(bào)告,簡單比較后就判別哪個(gè)是***的模型。實(shí)際上,更合適的評(píng)估應(yīng)該根據(jù)如下條件來做出:按照預(yù)測概率值順序排列模型結(jié)果,生成評(píng)分列表,然后看真正的響應(yīng)者是否被放在最前面的分段中。 盡管分類算法可以輸出分類概率,實(shí)際的類別(例如,0或1)還是對(duì)分類概率的進(jìn)一步歸納(例如,<0.5 = 0; ≥ 0.5 = 1)。 大量真正的“金塊”隱藏在數(shù)據(jù)挖掘工具的功能模塊之中。 初級(jí)的CRM挖掘人員會(huì)把注意力放在分類和精度上面,但真正的“金塊”應(yīng)該是客戶保持、購買傾向以及新客戶獲取的概率值。

我們應(yīng)該查看累積提升表(cumulative lift table;例如表1),來判別模型是否真正有效地把正確肯定(true-positives)放在了靠前的分組里。累積提升表可以通過以下方式創(chuàng)建:

1.預(yù)測概率值按降序方式存儲(chǔ)為有序列表

2.把這個(gè)有序列表劃分為10段(分組)

3.計(jì)算每組中的實(shí)際命中數(shù)(actual hits,實(shí)際的響應(yīng)數(shù))

4.計(jì)算每個(gè)分組的隨機(jī)期望值(random expectation),該期望值等于實(shí)際響應(yīng)總數(shù)除以10。也就是說,在每個(gè)分組中我們期望會(huì)有實(shí)際響應(yīng)總數(shù)的10%會(huì)響應(yīng)。 如果命中率超過了隨機(jī)期望值,就意味著模型為該分組帶來了提升。


1 提升表

譯者注:

Decile-分組序號(hào);Hits-命中數(shù),即每組內(nèi)包含的實(shí)際響應(yīng)數(shù),等于TP+FN;

TP-正確肯定;FN-錯(cuò)誤否定;TN-正確否定;FP-錯(cuò)誤肯定;

(TP和FN對(duì)應(yīng)于實(shí)際的響應(yīng),TN和FP對(duì)應(yīng)于實(shí)際的非響應(yīng))

Random Hits-隨機(jī)命中數(shù),即隨機(jī)期望值,等于SUM(TP+FN)/10;

% of Total-召回率,等于Hits/SUM(Hits)*100;

Cum % of Total-累積召回率,是% of Total的累積值。

一共劃分了10個(gè)分組,實(shí)際的總響應(yīng)數(shù)為SUM(Hits)=275,因此每組的隨機(jī)期望值為275/10=27.5。***組的命中數(shù)為81,明顯超過了隨機(jī)期望值,其召回率=81/275=29.45%。第二組的命中數(shù)為43,也超過了隨機(jī)期望值,其召回率為43/275=15.64%,累積召回率等于第二組的召回率加上前面所有組(即***組)的召回率,等于15.64%+29.45%=45.09%。

從上表中可以看出,該模型劃分肯定和否定的閾值應(yīng)該是在第二個(gè)分組中,這樣才出現(xiàn)了***組都被預(yù)測為肯定,但其中有81個(gè)是正確的肯定(TP),而735個(gè)是錯(cuò)誤的肯定(FP);第二組中則同時(shí)包含了TP、FN、TN和FP;從第三組之后則都被預(yù)測為否定(因?yàn)槲挥陂撝抵?,因此包含了FN和TN。

正確肯定(True-Positives,TP): 實(shí)際的響應(yīng)中,被正確預(yù)測為響應(yīng)的個(gè)數(shù)

錯(cuò)誤否定(False-Negatives,F(xiàn)N): 實(shí)際的響應(yīng)中,被錯(cuò)誤預(yù)測為非響應(yīng)的個(gè)數(shù)

正確否定(True-Negatives,TN): 實(shí)際的非響應(yīng)中,被正確預(yù)測為非響應(yīng)的個(gè)數(shù)

錯(cuò)誤肯定(False-Positives,F(xiàn)P): 實(shí)際的非響應(yīng)中,被錯(cuò)誤預(yù)測為響應(yīng)的個(gè)數(shù)

通過對(duì)提升表的分析可以看到,在第四個(gè)分段之后,增量提升(incremental lift,第8列中的”% of Total”)下降到隨機(jī)期望(每個(gè)分段為10%)之下,而前四個(gè)分段包含了超過70%的響應(yīng)。 從下面的增量提升曲線(圖1)中可以明顯看出增量提升和隨機(jī)期望的交叉點(diǎn)。


圖1: 增量提升圖示例

在增量提升曲線中標(biāo)示了各個(gè)分段的命中數(shù)。 在圖1中可以看到,增量提升曲線在第4個(gè)分段后和隨機(jī)期望線(275個(gè)響應(yīng)的10%,即平均每個(gè)分段27.5個(gè)響應(yīng))交叉。 不管營銷經(jīng)理怎么去看,上述的表格和圖形都可以把必要的信息傳遞給他們。 營銷人員可以借助模型評(píng)估工具,來設(shè)定要給多少個(gè)客戶發(fā)郵件。 以表1為例,營銷人員可以向前四個(gè)分段的客戶(占整個(gè)評(píng)分名單的40%)發(fā)郵件,并預(yù)期可以命中70%的潛在響應(yīng)客戶。

我們現(xiàn)在已經(jīng)了解該如何評(píng)估數(shù)據(jù)挖掘模型,接下來就可以深入分析和調(diào)整業(yè)務(wù)流程,借助模型的結(jié)果來提高企業(yè)的盈利。 業(yè)務(wù)流程包括:

1.數(shù)據(jù)挖掘過程

2.知識(shí)發(fā)現(xiàn)過程

3.業(yè)務(wù)流程管理(BPM)軟件

4.知識(shí)管理系統(tǒng)

5.商業(yè)生態(tài)系統(tǒng)管理

#p#

數(shù)據(jù)挖掘過程

Eric King在“如何在數(shù)據(jù)挖掘上投資:避免預(yù)測型分析中昂貴的項(xiàng)目陷阱的框架”一文(發(fā)表于2005年10月的“DM Review”)中主張數(shù)據(jù)挖掘是一段旅程,而非終點(diǎn)。他把這段旅程定義為數(shù)據(jù)挖掘過程。 該過程包含如下要素:

1.一個(gè)發(fā)現(xiàn)過程

2.具有靈活的框架

3.按照清晰定義的策略進(jìn)行

4.包含多個(gè)檢查點(diǎn)

5.多次定期的評(píng)估

6.允許在反饋環(huán)路中對(duì)函數(shù)進(jìn)行調(diào)整

7.組織為疊代式的架構(gòu)

過程模型

很多數(shù)據(jù)挖掘工具的廠商都對(duì)這個(gè)過程進(jìn)行了簡化,使之更加清晰。 SAS將數(shù)據(jù)挖掘過程劃分為五個(gè)階段: 抽樣(Sample),解釋(Explain),處理(Manipulate),建模(Model),評(píng)估(Assess)。 過去人們常用循環(huán)式的飲水器來比喻數(shù)據(jù)挖掘過程。 水(數(shù)據(jù))首先涌上***層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經(jīng)處理過”的水之后,就溢出來流到下一個(gè)更低的層中。 不斷地進(jìn)行這種“處理”,直到水流到***層。在那里它被抽回頂層,開始新一輪的“處理”。 數(shù)據(jù)挖掘和這種層次式的疊代過程非常相像。 甚至在很多數(shù)據(jù)挖掘算法的內(nèi)部處理也是如此,比如神經(jīng)網(wǎng)絡(luò)算法,就是在數(shù)據(jù)集上多次運(yùn)行(epochs),直至發(fā)現(xiàn)***解。 Insightful Miner已經(jīng)在其用戶界面中內(nèi)建了簡單過程模型。 這種集成可以幫助用戶把必要的數(shù)據(jù)挖掘任務(wù)組織起來,讓任務(wù)能夠按照正確的順序來處理。

但使用飲水器來比喻數(shù)據(jù)挖掘過程還不算恰當(dāng),因?yàn)樗鼪]有反映出反饋環(huán)路,而反饋環(huán)路在數(shù)據(jù)挖掘過程中是很常見的。 例如,通過數(shù)據(jù)評(píng)估可以發(fā)現(xiàn)異常的數(shù)據(jù),從而要求從源系統(tǒng)中抽取更多的數(shù)據(jù)。 或者,在建模之后,會(huì)發(fā)現(xiàn)需要更多的記錄才能反映總體的分布。

在CRISP過程模型中進(jìn)行了解決這個(gè)問題的嘗試,該模型是由Daimler-Benz、ISL (Clementine的開發(fā)者)和NCR共同制定的。 CRISP同時(shí)也被集成到Clementine挖掘工具(現(xiàn)在屬于SPSS公司)的設(shè)計(jì)中。 CRISP幾乎反映了完整的數(shù)據(jù)挖掘環(huán)境。


圖2: CRISP圖例

使用數(shù)據(jù)建模其實(shí)和做陶土模型或者大理石模型差不多。 藝術(shù)家首先從一大堆材料開始著手,經(jīng)過許多次的加工和檢查,才誕生了最終的藝術(shù)品。很多人在建模過程中常常沒有充分理解建模的本質(zhì),由此帶來了一系列問題,使得建模變得很復(fù)雜。 Eric King發(fā)現(xiàn)數(shù)據(jù)挖掘是一個(gè)循環(huán)的過程(就象上圖中的CRISP流程圖),而非線性的過程。 這種循環(huán)式的數(shù)據(jù)挖掘過程會(huì)讓您想起Wankel轉(zhuǎn)式汽車發(fā)動(dòng)機(jī)。 這種發(fā)動(dòng)機(jī)是一圈一圈旋轉(zhuǎn)的(而非上下運(yùn)動(dòng)),不斷輸出動(dòng)能來驅(qū)動(dòng)汽車。 與之相似,數(shù)據(jù)挖掘過程也是不斷循環(huán),產(chǎn)生信息來幫助我們完成商業(yè)目標(biāo)。 信息就是推動(dòng)商業(yè)的“能量”。 在挖掘過程中會(huì)有很多對(duì)前一個(gè)階段的反饋(例如,在完成初步建模之后可能需要獲取更多的數(shù)據(jù))。

不過,在CRISP流程中還是遺漏了一個(gè)要素——那就是對(duì)數(shù)據(jù)倉庫或源系統(tǒng)的反饋。 前一次CRM營銷活動(dòng)的結(jié)果應(yīng)該導(dǎo)入數(shù)據(jù)倉庫,為后續(xù)的建模提供指導(dǎo),并能跟蹤營銷活動(dòng)間的變化趨勢。 我在CRISP流程圖中加入了這些反饋,以紅線表示(見圖2)。

通過數(shù)據(jù)挖掘過程的結(jié)構(gòu),我們可以得知數(shù)據(jù)挖掘工具必需能完成那些任務(wù),但是工具常常會(huì)缺少對(duì)部分功能的支持。 當(dāng)產(chǎn)生了挖掘結(jié)果時(shí),你會(huì)怎么使用這些結(jié)果呢? 此外,針對(duì)挖掘結(jié)果所采取的這些行動(dòng)又將如何影響后續(xù)的挖掘? 數(shù)據(jù)挖掘工具應(yīng)該具備的一些功能包括:

1.將模型導(dǎo)出到多種數(shù)據(jù)庫結(jié)構(gòu)中

2.模型的導(dǎo)出格式,適合于決策支持和商業(yè)行動(dòng)的應(yīng)用

3.挖掘算法的輸出數(shù)據(jù),可以為另外的算法所用

4.能夠比較不同算法的結(jié)果

【編輯推薦】

  1. 數(shù)據(jù)挖掘技術(shù)在沃爾瑪?shù)膽?yīng)用
  2. 基于數(shù)據(jù)挖掘技術(shù)的客戶關(guān)系管理
  3. 深入探討數(shù)據(jù)倉庫緩慢變化維的解決方案
  4. Oracle中OSFA和數(shù)據(jù)倉庫簡介
  5. 建立數(shù)據(jù)倉庫的八條基本準(zhǔn)則
  6. Sybase數(shù)據(jù)倉庫大鵬證券應(yīng)用案例
責(zé)任編輯:楊鵬飛 來源: IDMer(數(shù)據(jù)挖掘者)
相關(guān)推薦

2018-01-24 15:27:35

數(shù)據(jù)信仰數(shù)據(jù)宗教

2021-02-14 10:09:04

數(shù)據(jù)目錄數(shù)據(jù)元數(shù)據(jù)

2016-12-12 14:15:37

Java大數(shù)據(jù)工具

2020-03-17 15:55:12

Redis數(shù)據(jù)庫命令

2015-06-17 10:10:28

2015-06-17 09:54:08

2022-08-12 08:00:00

編碼語言開發(fā)工具

2016-01-26 09:58:28

云存儲(chǔ)云服務(wù)云安全

2015-09-23 13:28:01

大數(shù)據(jù)分析軟件

2013-03-14 10:05:57

2018-09-07 06:30:50

物聯(lián)網(wǎng)平臺(tái)物聯(lián)網(wǎng)IOT

2018-07-16 08:50:31

固態(tài)硬盤內(nèi)存

2017-06-09 10:20:17

數(shù)據(jù)庫表設(shè)計(jì)

2012-03-20 09:32:24

Linux服務(wù)器

2017-03-09 13:30:13

Linux游戲AMD

2015-03-17 16:02:16

大數(shù)據(jù)混合云云模型

2023-01-13 10:46:42

2012-05-16 11:53:39

虛擬化

2023-10-08 13:42:00

Python Web框架

2015-03-17 10:25:42

IoT物聯(lián)網(wǎng)鏈接傳感器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)