數據挖掘技術在沃爾瑪的應用
總部位于美國阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪(Wal Mart)擁有世界上***的數據倉庫系統。為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪利對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用NCR數據挖掘工具對這些數據進行分析和挖掘。一個意外的發(fā)現是:"跟尿布一起購買最多的商品竟是啤酒!"
這是數據挖掘技術對歷史數據進行分析的結果,反映數據內在的規(guī)律。那么這個結果符合現實情況嗎?是否是一個有用的知識?是否有利用價值?
于是,沃爾瑪派出市場調查人員和分析師對這一數據挖掘結果進行調查分析。經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。
既然尿布與啤酒一起被購買的機會很多,于是沃爾瑪就在其一個個門店將尿布與啤酒并排擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。
按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發(fā)現數據內在這一有價值的規(guī)律的。
數據"的含義很廣,不僅指321、897這樣一些數字,還指"abc"、"李明"、"96/10/11"等符號、字符、日期形式的數據。我們討論的數據是指存放在計算機系統中的任何東西,如:"數字"、"字符"、"聲音"、"圖像"、"照片"、……等等,甚至處理數據的計算機程序本身也作為計算機的"數據"。隨著國民經濟和社會信息化的發(fā)展,人們在計算機系統中存放的數據量越來越大。我們發(fā)現這些數據是人們工作、生活和其他行為的記錄,是企業(yè)和社會發(fā)展的記錄,也是人與自然界本身的描述。這就是說在計算機系統中形成了龐大的"數據資源"。因此,發(fā)現這些數據所含的規(guī)律也就是發(fā)現我們工作、生活和社會發(fā)展中的規(guī)律,發(fā)現人與自然界的規(guī)律,就相當于在數據資源中發(fā)現金礦。這就是數據資源的開發(fā)利用,是非常有價值的工作。而數據挖掘是目前***進的數據資源開發(fā)利用技術。
什么是數據挖掘
我們先來看一個數據挖掘的故事, "尿布與啤酒"的故事是關于數據挖掘最經典和流傳最廣的故事。
那么數據挖掘是什么樣的技術呢?
數據挖掘是從大量數據中尋找其規(guī)律的技術,主要有數據準備、規(guī)律尋找和規(guī)律表示三個步驟。數據準備是從各種數據源中選取和集成用于數據挖掘的數據;規(guī)律尋找是用某種方法將數據中的規(guī)律找出來;規(guī)律表示是用盡可能符合用戶習慣的方式(如可視化)將找出的規(guī)律表示出來。
但在具體實施數據挖掘應用時,還要有一個步驟就是結果評價。這是因為數據算法尋找出來的是數據的規(guī)律,其中有些是人們感興趣的有用的,還有一些可能是不感興趣的沒有用的。這就要對尋找出的規(guī)律進行評估。例如:"跟尿布一起購買最多的商品是啤酒"這樣一條規(guī)律是否有用呢?這就需要市場調查和評估工程師根據實際情況做出評估判斷。這是一個人工步驟,還難以自動化。
數據挖掘在自身發(fā)展的過程中,吸收了數理統計、數據庫和人工智能中的大量技術。
【編輯推薦】