SQL Server數(shù)據(jù)挖掘之如何實(shí)現(xiàn)Web路徑流挖掘
最近與一個(gè)客戶的開發(fā)團(tuán)隊(duì)探討和學(xué)習(xí)SQL Server的數(shù)據(jù)挖掘及其應(yīng)用。有幾個(gè)比較有意思的問題,整理出來
關(guān)于數(shù)據(jù)挖掘的基本知識(shí)和學(xué)習(xí)資料,可以參考http://msdn.microsoft.com/zh-cn/library/bb510517.aspx
上一篇:SQL Server數(shù)據(jù)挖掘之理解聚類算法和順序聚類算法
上一篇解釋了聚類算法和順序聚類算法,這一篇講解一個(gè)實(shí)例,就是我們常說的Web 路徑流挖掘分析。Web路徑流是讓我們發(fā)現(xiàn)用戶使用網(wǎng)站的習(xí)慣的一種表示方式,例如我們想知道用戶是先到什么頁面,然后再到什么頁面,由此我們可以給用戶分組,并且根據(jù)他們的習(xí)慣定制更好的頁面導(dǎo)航設(shè)計(jì)。
按照數(shù)據(jù)挖掘的基本流程,我們一步一步來做
1.定義問題:通過分析得到不同用戶群使用網(wǎng)站的路徑及其規(guī)律
2.準(zhǔn)備數(shù)據(jù):
為此,我們準(zhǔn)備兩個(gè)表格,分別保存客戶信息(如下)
以及客戶點(diǎn)擊頁面的記錄表(這里作為演示,我只填寫了一些范例數(shù)據(jù))
#p#
3.建立模型:
準(zhǔn)備數(shù)據(jù)源和數(shù)據(jù)源視圖
創(chuàng)建挖掘模型。這個(gè)業(yè)務(wù)場景,我們適合用“順序分析和聚類分析”
#p#
#p#
#p#
#p#
點(diǎn)擊“Finish”之后,檢查模型的設(shè)計(jì)
#p#
4.部署和處理
【備注】因?yàn)閿?shù)據(jù)不多,所以看到的結(jié)果比較簡單。有興趣的朋友可以實(shí)際準(zhǔn)備一些數(shù)據(jù)進(jìn)行分析
【編輯推薦】