自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)挖掘建模過(guò)程全公開(kāi)

大數(shù)據(jù)
數(shù)據(jù)挖掘的基本任務(wù)包括利用分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢測(cè)、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值,提高企業(yè)的競(jìng)爭(zhēng)力。

[[414444]]

本文轉(zhuǎn)載自微信公眾號(hào)「數(shù)倉(cāng)寶貝庫(kù)」,作者張良均 等。轉(zhuǎn)載本文請(qǐng)聯(lián)系數(shù)倉(cāng)寶貝庫(kù)公眾號(hào)。

數(shù)據(jù)挖掘的基本任務(wù)包括利用分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢測(cè)、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值,提高企業(yè)的競(jìng)爭(zhēng)力。

對(duì)餐飲企業(yè)而言,數(shù)據(jù)挖掘的基本任務(wù)是從餐飲企業(yè)采集各類(lèi)菜品銷(xiāo)量、成本單價(jià)、會(huì)員消費(fèi)、促銷(xiāo)活動(dòng)等內(nèi)部數(shù)據(jù),以及天氣、節(jié)假日、競(jìng)爭(zhēng)對(duì)手及周邊商業(yè)氛圍等外部數(shù)據(jù),之后利用數(shù)據(jù)分析手段,實(shí)現(xiàn)菜品智能推薦、促銷(xiāo)效果分析、客戶價(jià)值分析、新店選點(diǎn)優(yōu)化、熱銷(xiāo)/滯銷(xiāo)菜品分析和銷(xiāo)量趨勢(shì)預(yù)測(cè),最后將這些分析結(jié)果推送給餐飲企業(yè)管理者及有關(guān)服務(wù)人員,為餐飲企業(yè)降低運(yùn)營(yíng)成本、提升盈利能力、實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)、策劃促銷(xiāo)活動(dòng)等提供智能服務(wù)支持。

接下來(lái)將以餐飲行業(yè)的數(shù)據(jù)挖掘應(yīng)用為例,詳細(xì)介紹數(shù)據(jù)挖掘的建模過(guò)程,如圖1所示。

圖1 餐飲行業(yè)數(shù)據(jù)挖掘建模過(guò)程

1定義挖掘目標(biāo)

針對(duì)具體的數(shù)據(jù)挖掘應(yīng)用需求,首先要明確本次的挖掘目標(biāo)是什么,系統(tǒng)完成后能達(dá)到什么樣的效果。因此,我們必須分析應(yīng)用領(lǐng)域(包括應(yīng)用中的各種知識(shí)和應(yīng)用目標(biāo)),了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶需求。要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須要對(duì)數(shù)據(jù)挖掘目標(biāo)有清晰明確的認(rèn)識(shí),即決定到底想干什么。

針對(duì)餐飲行業(yè)的數(shù)據(jù)挖掘應(yīng)用,可定義如下挖掘目標(biāo):

1)實(shí)現(xiàn)動(dòng)態(tài)菜品智能推薦,幫助顧客快速發(fā)現(xiàn)自己感興趣的菜品,同時(shí)確保推薦給顧客的菜品也是餐飲企業(yè)期望顧客消費(fèi)的菜品,實(shí)現(xiàn)餐飲消費(fèi)者和餐飲企業(yè)的雙贏。

2)對(duì)餐飲客戶進(jìn)行細(xì)分,了解不同客戶的貢獻(xiàn)度和消費(fèi)特征,分析哪些客戶是最有價(jià)值的、哪些是最需要關(guān)注的,對(duì)不同價(jià)值的客戶采取不同的營(yíng)銷(xiāo)策略,將有限的資源投放到最有價(jià)值的客戶身上,實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷(xiāo)。

3)基于菜品歷史銷(xiāo)售情況,綜合考慮節(jié)假日、氣候和競(jìng)爭(zhēng)對(duì)手等影響因素,對(duì)菜品銷(xiāo)量進(jìn)行趨勢(shì)預(yù)測(cè),方便餐飲企業(yè)準(zhǔn)備原材料。

4)基于餐飲大數(shù)據(jù),優(yōu)化新店選址,并對(duì)新店潛在顧客的口味偏好進(jìn)行分析,以便及時(shí)進(jìn)行菜式調(diào)整。

2數(shù)據(jù)取樣

在明確了數(shù)據(jù)挖掘的目標(biāo)后,接下來(lái)就需要從業(yè)務(wù)系統(tǒng)中抽取一個(gè)與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。抽取數(shù)據(jù)的標(biāo)準(zhǔn):一是相關(guān)性,二是可靠性,三是有效性,而不是動(dòng)用全部企業(yè)數(shù)據(jù)。通過(guò)數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且使我們想要尋找的規(guī)律能更好地突顯出來(lái)。

進(jìn)行數(shù)據(jù)取樣,一定要嚴(yán)把質(zhì)量關(guān)。在任何時(shí)候都不能忽視數(shù)據(jù)的質(zhì)量,即使是從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行數(shù)據(jù)取樣,也不要忘記檢查數(shù)據(jù)質(zhì)量如何。因?yàn)閿?shù)據(jù)挖掘是要探索企業(yè)運(yùn)作的內(nèi)在規(guī)律性,原始數(shù)據(jù)有誤,就很難從中探索其規(guī)律。若真的從中探索出什么“規(guī)律性”,再依此去指導(dǎo)工作,則很可能會(huì)對(duì)相關(guān)決策造成誤導(dǎo)。若從正在運(yùn)行的系統(tǒng)中進(jìn)行數(shù)據(jù)取樣,更要注意數(shù)據(jù)的完整性和有效性。

衡量取樣數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)包括:資料完整無(wú)缺,各類(lèi)指標(biāo)項(xiàng)齊全;數(shù)據(jù)準(zhǔn)確無(wú)誤,反映的都是正常(而不是異常)狀態(tài)下的水平。

對(duì)獲取的數(shù)據(jù)可再?gòu)闹凶鞒闃硬僮?。抽樣的方式多種多樣,常見(jiàn)的方式如下:

1)隨機(jī)抽樣:在采用隨機(jī)抽樣方式時(shí),數(shù)據(jù)集中的每一組觀測(cè)值都有相同的被抽取的概率。如按10%的比例對(duì)一個(gè)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣,則每一組觀測(cè)值都有10%的機(jī)會(huì)被取到。

2)等距抽樣:如果按5%的比例對(duì)一個(gè)有100組觀測(cè)值的數(shù)據(jù)集進(jìn)行等距抽樣,則有個(gè)數(shù)據(jù)被取到,那么等距抽樣方式是取第20、40、60、80組這和第100組這5組觀測(cè)值。

3)分層抽樣:在這種抽樣操作中,首先將樣本總體分成若干層次(或者說(shuō)分成若干個(gè)子集)。每個(gè)層次中的觀測(cè)值都具有相同的被選用的概率,但對(duì)不同的層次可設(shè)定不同的概率。這樣的抽樣結(jié)果通常具有更好的代表性,進(jìn)而使模型具有更好的擬合精度。

4)按起始順序抽樣:這種抽樣方式是從輸入數(shù)據(jù)集的起始處開(kāi)始抽樣。抽樣的數(shù)量可以給定一個(gè)百分比,或者直接給定選取觀測(cè)值的組數(shù)。

5)分類(lèi)抽樣:在前述幾種抽樣方式中,并不考慮抽取樣本的具體取值。分類(lèi)抽樣則依據(jù)某種屬性的取值來(lái)選擇數(shù)據(jù)子集,如按客戶名稱(chēng)分類(lèi)、按地址區(qū)域分類(lèi)等。分類(lèi)抽樣的選取方式就是前面所述的幾種方式,只是抽樣以類(lèi)為單位。

基于前面提到的針對(duì)餐飲行業(yè)的數(shù)據(jù)挖掘目標(biāo),需從客戶關(guān)系管理系統(tǒng)、前廳管理系統(tǒng)、后廚管理系統(tǒng)、財(cái)務(wù)管理系統(tǒng)和物資管理系統(tǒng)中抽取用于建模和分析的餐飲數(shù)據(jù),主要包括的內(nèi)容如下:

  • 餐飲企業(yè)信息:名稱(chēng)、位置、規(guī)模、聯(lián)系方式、部門(mén)、人員以及角色等。
  • 餐飲客戶信息:姓名、聯(lián)系方式、消費(fèi)時(shí)間、消費(fèi)金額等。
  • 餐飲企業(yè)菜品信息:菜品名稱(chēng)、菜品單價(jià)、菜品成本、所屬部門(mén)等。
  • 菜品銷(xiāo)量數(shù)據(jù):菜品名稱(chēng)、銷(xiāo)售日期、銷(xiāo)售金額、銷(xiāo)售份數(shù)。
  • 原材料供應(yīng)商資料及商品數(shù)據(jù):供應(yīng)商姓名、聯(lián)系方式、商品名稱(chēng)、客戶評(píng)價(jià)信息。
  • 促銷(xiāo)活動(dòng)數(shù)據(jù):促銷(xiāo)日期、促銷(xiāo)內(nèi)容以及促銷(xiāo)描述等。
  • 外部數(shù)據(jù):如天氣、節(jié)假日、競(jìng)爭(zhēng)對(duì)手以及周邊商業(yè)氛圍等數(shù)據(jù)。

3數(shù)據(jù)探索

前面所敘述的數(shù)據(jù)取樣,多少帶有人們對(duì)如何實(shí)現(xiàn)數(shù)據(jù)挖掘目的的先驗(yàn)認(rèn)識(shí)而進(jìn)行操作的。當(dāng)我們拿到一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們?cè)瓉?lái)設(shè)想的要求、其中有沒(méi)有什么明顯的規(guī)律和趨勢(shì)、有沒(méi)有出現(xiàn)從未設(shè)想過(guò)的數(shù)據(jù)狀態(tài)、屬性之間有什么相關(guān)性、它們可分成怎樣的類(lèi)別……這都是要首先探索的內(nèi)容。

對(duì)所抽取的樣本數(shù)據(jù)進(jìn)行探索、審核和必要的加工處理,能保證最終的挖掘模型的質(zhì)量??梢哉f(shuō),挖掘模型的質(zhì)量不會(huì)超過(guò)抽取樣本的質(zhì)量。數(shù)據(jù)探索和預(yù)處理的目的是保證樣本數(shù)據(jù)的質(zhì)量,從而為保證模型質(zhì)量打下基礎(chǔ)。

針對(duì)采集的餐飲數(shù)據(jù),數(shù)據(jù)探索主要包括異常值分析、缺失值分析、相關(guān)分析、周期性分析等。

4數(shù)據(jù)預(yù)處理

當(dāng)采樣數(shù)據(jù)維度過(guò)大時(shí),如何進(jìn)行降維處理、缺失值處理等都是數(shù)據(jù)預(yù)處理要解決的問(wèn)題。

由于采樣數(shù)據(jù)中常常包含許多含有噪聲、不完整甚至不一致的數(shù)據(jù),對(duì)數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對(duì)象必須進(jìn)行預(yù)處理。那么如何對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以改善數(shù)據(jù)質(zhì)量,并最終達(dá)到完善數(shù)據(jù)挖掘結(jié)果的目的呢?

針對(duì)采集的餐飲數(shù)據(jù),數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)篩選、數(shù)據(jù)變量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化、主成分分析、屬性選擇、數(shù)據(jù)規(guī)約等。

5挖掘建模

樣本抽取完成并經(jīng)預(yù)處理后,接下來(lái)要考慮的問(wèn)題是:本次建模屬于數(shù)據(jù)挖掘應(yīng)用中的哪類(lèi)問(wèn)題(分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、時(shí)序模式或智能推薦)?選用哪種算法進(jìn)行模型構(gòu)建?

這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。針對(duì)餐飲行業(yè)的數(shù)據(jù)挖掘應(yīng)用,挖掘建模主要包括基于關(guān)聯(lián)規(guī)則算法的動(dòng)態(tài)菜品智能推薦、基于聚類(lèi)算法的餐飲客戶價(jià)值分析、基于分類(lèi)與預(yù)測(cè)算法的菜品銷(xiāo)量預(yù)測(cè)、基于整體優(yōu)化的新店選址。

以菜品銷(xiāo)量預(yù)測(cè)為例,模型構(gòu)建是對(duì)菜品歷史銷(xiāo)量,綜合考慮節(jié)假日、氣候和競(jìng)爭(zhēng)對(duì)手等采樣數(shù)據(jù)軌跡的概括,它反映的是采樣數(shù)據(jù)內(nèi)部結(jié)構(gòu)的一般特征,并與該采樣數(shù)據(jù)的具體結(jié)構(gòu)基本吻合。模型的具體化就是菜品銷(xiāo)量預(yù)測(cè)公式,公式可以產(chǎn)生與觀察值有相似結(jié)構(gòu)的輸出,這就是預(yù)測(cè)值。

6模型評(píng)價(jià)

從建模過(guò)程會(huì)得出一系列的分析結(jié)果,模型評(píng)價(jià)的目的之一就是從這些模型中自動(dòng)找出一個(gè)最好的模型,另外就是要根據(jù)業(yè)務(wù)對(duì)模型進(jìn)行解釋和應(yīng)用。

7常用的數(shù)據(jù)挖掘建模工具

數(shù)據(jù)挖掘是一個(gè)反復(fù)探索的過(guò)程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實(shí)施經(jīng)驗(yàn)與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實(shí)施過(guò)程中不斷磨合,才能取得好的效果。下面簡(jiǎn)單介紹幾種常用的數(shù)據(jù)挖掘建模工具。

(1)SAS Enterprise Miner

Enterprise Miner(EM)是SAS推出的一個(gè)集成數(shù)據(jù)挖掘系統(tǒng),允許使用和比較不同的技術(shù),同時(shí)還集成了復(fù)雜的數(shù)據(jù)庫(kù)管理軟件。它通過(guò)在一個(gè)工作空間(Workspace)中按照一定的順序添加各種可以實(shí)現(xiàn)不同功能的節(jié)點(diǎn),然后對(duì)不同節(jié)點(diǎn)進(jìn)行相應(yīng)的設(shè)置,最后運(yùn)行整個(gè)工作流程(Workflow),便可以得到相應(yīng)的結(jié)果。

(2)IBM SPSS Modeler

IBM SPSS Modeler原名Clementine,2009年被IBM收購(gòu)后對(duì)產(chǎn)品的性能和功能進(jìn)行了大幅度改進(jìn)和提升。它封裝了最先進(jìn)的統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘技術(shù)來(lái)獲得預(yù)測(cè)知識(shí),并將相應(yīng)的決策方案部署到現(xiàn)有的業(yè)務(wù)系統(tǒng)和業(yè)務(wù)過(guò)程中,從而提高企業(yè)的效益。IBM SPSS Modeler擁有直觀的操作界面、自動(dòng)化的數(shù)據(jù)準(zhǔn)備和成熟的預(yù)測(cè)分析模型,結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測(cè)性模型。

(3)SQL Server

Microsoft的SQL Server集成了數(shù)據(jù)挖掘組件—Analysis Servers,借助SQL Server的數(shù)據(jù)庫(kù)管理功能,可以無(wú)縫集成在SQL Server數(shù)據(jù)庫(kù)中。SQL Server 2008提供了決策樹(shù)算法、聚類(lèi)分析算法、Naive Bayes算法、關(guān)聯(lián)規(guī)則算法、時(shí)序算法、神經(jīng)網(wǎng)絡(luò)算法、線性回歸算法等9種常用的數(shù)據(jù)挖掘算法。但是其預(yù)測(cè)建模的實(shí)現(xiàn)是基于SQL Server平臺(tái)的,平臺(tái)移植性相對(duì)較差。

(4)Python

Python是一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,它擁有高效的高級(jí)數(shù)據(jù)結(jié)構(gòu),并且能夠用簡(jiǎn)單而又高效的方式進(jìn)行面向?qū)ο缶幊?。但是Python并不提供專(zhuān)門(mén)的數(shù)據(jù)挖掘環(huán)境,它提供眾多的擴(kuò)展庫(kù),例如,以下3個(gè)十分經(jīng)典的科學(xué)計(jì)算擴(kuò)展庫(kù):NumPy、SciPy和Matplotlib,它們分別為Python提供了快速數(shù)組處理、數(shù)值運(yùn)算以及繪圖功能,Scikit-learn庫(kù)中包含很多分類(lèi)器的實(shí)現(xiàn)以及聚類(lèi)相關(guān)算法。正因?yàn)橛辛诉@些擴(kuò)展庫(kù),Python才能成為數(shù)據(jù)挖掘常用的語(yǔ)言,也是比較適合數(shù)據(jù)挖掘的語(yǔ)言。

(5)WEKA

WEKA(Waikato Environment for Knowledge Analysis)是一款知名度較高的開(kāi)源機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件。高級(jí)用戶可以通過(guò)Java編程和命令行來(lái)調(diào)用其分析組件。同時(shí),WEKA也為普通用戶提供了圖形化界面,稱(chēng)為WEKA Knowledge Flow Environ-ment和WEKA Explorer,可以實(shí)現(xiàn)預(yù)處理、分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、文本挖掘、可視化等功能。

(6)KNIME

KNIME(Konstanz Information Miner)是基于Java開(kāi)發(fā)的,可以擴(kuò)展使用WEKA中的挖掘算法。KNIME采用類(lèi)似數(shù)據(jù)流(Data Flow)的方式來(lái)建立分析挖掘流程。挖掘流程由一系列功能節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有輸入/輸出端口,用于接收數(shù)據(jù)或模型、導(dǎo)出結(jié)果。

(7)RapidMiner

RapidMiner也叫YALE(Yet Another Learning Environment),提供圖形化界面,采用類(lèi)似Windows資源管理器中的樹(shù)狀結(jié)構(gòu)來(lái)組織分析組件,樹(shù)上每個(gè)節(jié)點(diǎn)表示不同的運(yùn)算符(Operator)。YALE提供了大量的運(yùn)算符,包括數(shù)據(jù)處理、變換、探索、建模、評(píng)估等各個(gè)環(huán)節(jié)。YALE是用Java開(kāi)發(fā)的,基于WEKA來(lái)構(gòu)建,可以調(diào)用WEKA中的各種分析組件。RapidMiner有拓展的套件Radoop,可以和Hadoop集成起來(lái),在hadoop集群上運(yùn)行任務(wù)。

(8)TipDM開(kāi)源數(shù)據(jù)挖掘建模平臺(tái)

TipDM數(shù)據(jù)挖掘建模平臺(tái)是基于Python引擎、用于數(shù)據(jù)挖掘建模的開(kāi)源平臺(tái)。它采用B/S結(jié)構(gòu),用戶不需要下載客戶端,可通過(guò)瀏覽器進(jìn)行訪問(wèn)。平臺(tái)支持?jǐn)?shù)據(jù)挖掘流程所需的主要過(guò)程:數(shù)據(jù)探索(相關(guān)性分析、主成分分析、周期性分析等),數(shù)據(jù)預(yù)處理(特征構(gòu)造、記錄選擇、缺失值處理等),構(gòu)建模型(聚類(lèi)模型、分類(lèi)模型、回歸模型等),模型評(píng)價(jià)(R-Squared、混淆矩陣、ROC曲線等)。用戶可在沒(méi)有Python編程基礎(chǔ)的情況下,通過(guò)拖曳的方式進(jìn)行操作,將數(shù)據(jù)輸入輸出、數(shù)據(jù)預(yù)處理、挖掘建模、模型評(píng)估等環(huán)節(jié)通過(guò)流程化的方式進(jìn)行連接,以達(dá)到數(shù)據(jù)分析挖掘的目的。

本文摘編于《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)(第2版)》,經(jīng)出版方授權(quán)發(fā)布。

 

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)倉(cāng)寶貝庫(kù)
相關(guān)推薦

2009-01-18 14:42:09

CRM商業(yè)智能數(shù)據(jù)挖掘

2010-06-30 13:53:28

UML建模過(guò)程

2010-06-10 17:14:54

UML建模過(guò)程

2025-01-24 15:40:00

2024-01-30 01:01:48

數(shù)據(jù)集核模型高斯過(guò)程機(jī)器學(xué)習(xí)

2010-03-29 10:50:04

安裝Nginx

2014-01-06 10:44:17

Angular數(shù)據(jù)

2020-10-10 06:53:18

數(shù)據(jù)建模數(shù)據(jù)庫(kù)

2012-06-27 09:45:41

ibmdw

2009-03-04 10:38:36

XenDesktop 桌面虛擬化Xendesktop

2012-07-26 08:32:38

MongoDB

2012-05-15 10:28:29

NoSQL數(shù)據(jù)庫(kù)建模技術(shù)

2017-02-05 14:59:18

MongoDB數(shù)據(jù)建模數(shù)據(jù)庫(kù)

2025-03-18 08:00:00

豆包文生圖技術(shù)Seedream

2009-03-04 10:10:49

XenDesktop 桌面虛擬化Xendesktop

2009-07-08 15:11:58

JVM GC調(diào)整優(yōu)化

2010-05-06 16:41:37

EIGRP負(fù)載均衡

2016-08-18 01:26:22

數(shù)據(jù)挖掘

2012-09-27 09:17:35

大數(shù)據(jù)云服務(wù)云計(jì)算

2024-04-25 09:25:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)