詳解數據挖掘的技術、工具與用例
譯文【51CTO.com快譯】近十年來,隨著計算機處理能力和速度的顯著提高,我們逐漸能夠從繁瑣且耗時的手動式數據分析,轉變成為快速便捷的自動化方法。面對被收集到的數據集日趨增長,能夠發(fā)現的信息相關性也日益復雜,目前各大零售商、銀行、制造商、醫(yī)療保健公司,都在通過數據挖掘技術,在發(fā)現價格變化、促銷策略、用戶偏好、消費習慣、以及支付風險等方面,針對業(yè)務模型、收入、運營、以及客戶關系產生深遠的影響。不過,隨著各個公司能夠獲取數據能力的增強,它們會碰到如何充分利用好海量的結構化與非結構化數據,促進業(yè)務增長等新問題。而這些往往需要數據科學家的協助與實現。
什么是數據挖掘?
從業(yè)務角度而言,我們將分析大數據,發(fā)現商業(yè)智能,協助公司解決現實問題,減輕風險,以及抓住新機遇的過程,統稱為數據挖掘。而在計算機科學中,它是在大量數據中,發(fā)現實用的模式、及其相互關系的過程。它通常涉及到將統計學、人工智能(AI)工具、以及數據庫管理相結合,通過對大型數據集予以分析,查找潛藏的異常情況,發(fā)現數據模式與相關性,將原始數據轉化為實用信息,進而實現結果預測。
數據挖掘過程的基本步驟
1. 收集數據,將其加載到數據倉庫中。
2. 在本地服務器或云端,存儲與管理數據。
3. 業(yè)務分析師、管理團隊和IT專業(yè)人員通過訪問數據,以確定該如何規(guī)整數據。
4. 應用軟件根據特定的需求,對數據進行排序。
5. 以圖形或表格等形式,向最終用戶共享或展示數據。
為了及時獲取可靠的分析結果,我們通常需要通過如下六個步驟,對數據進行結構化:
1. 業(yè)務理解
全面了解當前的業(yè)務狀況、項目的主要目標、以及成功的標準等方面。
2. 數據理解
確定解決問題所需的數據,并從所有可用來源收集數據。
3. 數據準備
為滿足業(yè)務需求,準備適當的數據格式,防范數據出現丟失或重復等質量問題。
4. 建模
使用算法,識別出數據中的潛在模式。
5. 評估
評估給定模型所產生的效果與業(yè)務目標之間的差距。為了獲得最佳結果,我們通常需要一個迭代的過程,來找到最佳算法。
6. 部署
將輸出的結果提供給決策者。
數據挖掘的技術
目前,企業(yè)可以使用如下多種數據挖掘技術,來從原始數據中獲取有價值的洞見:
1.模式跟蹤
模式跟蹤是數據挖掘的一項基本技術。它旨在通過識別和監(jiān)視數據中的趨勢或模式,以對業(yè)務成果形成智能推斷。例如,企業(yè)可以用它來識別銷售數據的發(fā)展趨勢。如果發(fā)現某種產品在某些特定人群中的銷售情況,要好于其他產品,那么該企業(yè)便可以據此來創(chuàng)建類似的產品或服務,甚至只是簡單地為此類人群增加原始產品的庫存。
2.數據清理和準備
作為數據挖掘過程中的一個重要環(huán)節(jié),我們必須對原始數據進行清理和格式化,以用于各種后續(xù)的分析。具體而言,數據的清理和準備工作包含了:數據建模,轉換,遷移,集成和聚合等各種元素。這是理解數據基本特征和屬性,進而確定其最佳用途的必要步驟。
3.分類
基于分類的數據挖掘技術,主要涉及到分析各種類型數據之間的關聯屬性。一旦確定了數據類型的關鍵特征,企業(yè)便可以對它們進行分類。企業(yè)可以據此判定是該保護,還是該刪除某些個人身份信息。
4.異常值(Outlier)檢測
異常值檢測可被用于識別數據集中的異常情況。企業(yè)在發(fā)現數據中異常值后,可以通過防范此類事件的發(fā)生,以順利實現業(yè)務目標。例如,信用卡系統在某個特定時段出現使用和交易的高峰,那么企業(yè)便可以通過分析了解到,可能是由于“大促”所致,并為將來的此類活動做好資源上的事先部署與準備。
5.關聯
關聯是一種與統計學相關的數據挖掘技術。它旨在建立某些數據與其他數據、或數據驅動型事件的聯系。它與機器學習中的“共現(co-occurrence)”概念相似,即:某個基于數據的事件的發(fā)生概率,是由另一個事件的存在性所標識的。例如,用戶購買漢堡這一行為,往往會伴隨著購買薯片的可能性。兩者之間有著較強的關聯性,卻又不是絕對的伴生關系。
6.聚類
聚類是一種依靠可視化方法,來理解數據的分析技術。聚類機制使用圖形或顏色,來顯示數據在不同類別指標下的分布情況。通過圖形式的聚類分析,用戶可以直觀地獲悉數據隨業(yè)務目標發(fā)展的趨勢。
7.回歸
作為一種簡單的白盒技術,回歸技術可被用于識別出,數據集中變量之間的因果關系、或相關性質。它在數據建模和預測等方面非常實用。
8.順序模式
此類數據挖掘技術關注于發(fā)現和挖掘一系列順序發(fā)生的事件,因此常被用于事務性的數據環(huán)境中。例如,它可以預測某個顧客在最初購買了某種樣式的鞋后,最有可能去購買哪些相配的服裝。順序模式可以幫助企業(yè)向客戶推薦并銷售其他增值項產品。
9.預測
預測分析是指在當前或歷史的數據中,對發(fā)現到的模式進行擴展,以便企業(yè)根據現有數據,洞察到即將發(fā)生的趨勢。我們既可以使用簡單的算法,又可以運用高級的機器學習和人工智能來實現預測分析。
10.決策樹
作為一種特定類型的預測模型,決策樹可以讓企業(yè)有效地提取所需的數據。從技術上說,決策樹屬于一種極其簡單的“白盒”類機器學習技術。而從效果上說,決策樹能夠使用戶清楚地了解到,輸入數據是如何影響結果的。當有多個決策樹模型被組合在一起時,它們將創(chuàng)建所謂隨機森林的預測分析模型。由于輸入并不總能被輕易地猜測其輸出結果,因此復雜的隨機森林模型常被視為“黑盒”類機器學習技術。當然,在大多數情況下,相比單純地使用決策樹,集成建模的基本形式要更為準確一些。
11.神經網絡
作為一種特定類型的機器學習模型,神經網絡通常能夠與AI、以及深度學習協同使用。由于該網絡具有類似于人腦中神經元的不同功能層,因此它被譽為目前最精確的機器學習模型之一。
12.可視化
數據可視化可以在數據挖掘的過程中,為用戶提供可查看到的數據視圖。目前,數據可視化可用于實時數據流的傳輸場景中,以不同的顏色、動態(tài)地展示數據中的不同趨勢和模式。企業(yè)不僅能夠使用統計模型中的數值結果,還可以用基于不同指標的儀表板,來可視化地突顯數據中的模式。
13.統計技術
作為數據挖掘過程的核心,統計技術基于統計的概念,利用不同的分析模型,產生適用于特定業(yè)務目標的數值。例如,神經網絡可以使用基于不同權重和度量的復雜統計信息,來確定被輸入到圖像識別系統中的圖片上,到底是狗、還是貓。
14.長時記憶處理(Long-term Memory Processing)
長時記憶處理是指能夠長時間分析數據的能力。那些存儲在數據倉庫中的歷史數據可被用于此目的。企業(yè)需要通過長時分析,來識別出原本難以檢測到的模式。例如,通過分析過去幾年的人員流失情況,企業(yè)可以找到可能導致賬務惡化的蛛絲馬跡。
15.數據倉庫
從傳統上說,數據倉庫是將結構化的數據,存儲在關系型數據庫管理系統中,以便對其進行商業(yè)智能化分析、報告,并提供基本的儀表板顯示。目前,業(yè)界有基于云端的數據倉庫、以及半結構化和非結構化的數據倉庫(如Hadoop)。過去,數據倉庫主要處理的是歷史數據。如今,它也能夠利用各種現代化技術與方法,實時地提供對于數據的深入分析。
16.機器學習與人工智能
諸如深度學習之類的高級機器學習形式,在處理大規(guī)模的數據時,可以提供較高準確性的預測。因此,它們可以被用在實施AI過程中的數據處理,其中包括:計算機視覺、語音識別、以及使用自然語言處理的復雜文本分析等。此類數據挖掘技術有助于識別半結構化和非結構化的數據價值。
數據挖掘的重要性
- 篩選并濾除數據中各種混雜與重復性“噪聲”。
- 識別相關數據,并用其評估可能出現的結果。
- 加快企業(yè)做出明智決策的過程。
數據挖掘的優(yōu)勢
- 可協助企業(yè)獲取基于知識(knowledge-based)的信息。
- 可以被部署并實施在新的或既有的平臺上。
- 可協助企業(yè)在生產和運營中按需進行調整。
- 促進趨勢和行為的自動化預測,以及隱藏模式的自動發(fā)現。
- 相比其他統計數據類型的應用,更加經濟高效。
- 有助于改進決策的過程。
- 作為一個快速的過程,可以讓用戶輕松地在更少的時間內分析大量數據。
十種數據挖掘工具
由于數據挖掘過程是在數據被獲取后立即執(zhí)行的,因此找到那些能夠針對不同數據結構進行分類、分析與挖掘的工具,是至關重要的。下面,讓我們來討論十種業(yè)界常用的挖掘工具。
1. Oracle Data Mining
Oracle Data Mining(也稱為ODM)是Oracle高級分析數據庫(Advanced Analytics Database)的一個模塊。該數據挖掘工具既能夠方便數據分析師生成詳細的數據見解,并做出預測;又可以協助識別到交叉銷售(Cross-sells)的機會,開發(fā)出用戶畫像(profiles),并最終預測用戶的行為。
2. Rapid Miner
由Java語言編寫的Rapid Miner,是目前最好的預測分析系統之一。它能夠為深度學習、文本挖掘、機器學習和預測分析,提供一套集成化的環(huán)境。其系列產品可以被用來構建全新的數據挖掘過程,以及執(zhí)行預測性的設置分析。
3. Orange Data Mining
作為可用于機器學習和數據挖掘的完美軟件套件,Orange Data Mining通過基于組件的方式,來協助實現數據的可視化。它的組件常被稱為“widgets”,其中包括各種預處理、數據可視化、算法評估、以及預測建模等部件。它們可以協助實現:顯示數據表,選擇不同的功能,讀取數據,訓練預測變量,比較學習算法,以及可視化數據元素等服務。
4. Weka
由Java語言編寫的Weka,通過提供GUI,以方便用戶輕松地訪問其所有功能。開發(fā)者可以在其圖形化的界面中執(zhí)行諸如:預處理、分類、回歸、聚類、以及可視化等各種數據挖掘任務。而作為一款開源的機器學習軟件,Weka為各種任務內置并提供了大量可用于數據挖掘的機器學習算法。因此,您無需編寫任何代碼,即可快速地驗證自己的數據猜測,并部署出相應的模型。
5. KNIME
基于模塊化數據管道的KNIME,是由KNIME AG開發(fā)的最佳數據分析與報告的集成化平臺。它不但免費開源,而且?guī)в懈鞣N機器學習與數據挖掘的相關組件。其直觀的界面,可方便用戶創(chuàng)建從建模到生產環(huán)境的端到端式數據科學工作流。作為一個通用的可擴展平臺,KNIME帶有強大的擴展和集成功能,能夠通過各種高級算法,來處理復雜的數據類型。由于KNIME的不同預構建組件,可以在無需輸入任何代碼的情況下,實現快速建模。因此,數據科學家可以用它來創(chuàng)建諸如:金融行業(yè)常用的信用評分系統等,以實現業(yè)務智能與分析的應用與服務。
6. Sisense
作為一款非常實用的業(yè)務智能(BI)軟件,Sisense能夠根據不同企業(yè)的報告目的,開展數據處理與挖掘,并能夠對大型或分散的數據集,采用儀表板的形式,予以分析和可視化。它可以將各種來源的數據通過組合,構建出公共存儲庫,進而生成完善且豐富的數據報告,以供各個部門享用。Sisense通過提供具有拖放功能的小部件,以方便非技術類型的用戶設計出餅圖、折線圖、以及條狀圖。用戶只需單擊,便可查看到詳細信息和數據全貌。
7. Dundas
作為一款出色的儀表板、報告和數據分析類工具,Dundas可以通過快速的集成方式,提供美觀的表格、圖表和圖形,不受限制的數據轉換模式,以及可靠的洞見。Dundas BI能夠以特定的方式,將數據放入已定義明確的結構中,以簡化用戶的后續(xù)處理。同時,它通過各種關系型方法,方便用戶構建多維的分析,并關注那些業(yè)務關鍵性(business-critical)的事項。此外,由它生成的報告,可以在降低成本的同時,消除對于其他附加軟件的依賴。
8. Intetsoft
作為一種分析儀表板和報告類工具,Intetsoft可以提供針對數據報告與視圖的迭代式開發(fā),并生成像素級的完美報告。它能夠快速、靈活地轉換各種數據來源。
9. Qlik
作為一種數據挖掘和可視化工具,Qlik既能夠提供儀表板,又能夠支持多種數據源和文件類型。此外,它的豐富功能還包括:通過拖放界面可實現靈活的交互式數據可視化,即時響應各種交互和更改,支持多種數據源與文件類型,可輕松、安全地保護各種設備上的數據和內容,允許以集中式共享應用與分析的故事線。
10. MonkeyLearn
作為一個專門研究文本挖掘的機器學習平臺,MonkeyLearn通過友好的用戶界面,實現了與其他工具的輕松集成,并通過對數據的實時挖掘,基于預訓練的文本挖掘模型,開展目標情感分析,或通過構建定制化的解決方案,以滿足更為具體的業(yè)務需求。從檢測主題、情感和意圖,到提取關鍵字和命名實體,MonkeyLearn能夠支持各種數據挖掘任務。此外,MonkeyLearn的文本挖掘功能還可以被用于,在客戶支持的場景中,自動進行任務單的標記與路由,自動檢測社交媒體中的負面反饋,以及提供細粒度的洞見,進而做出更好的決策。
數據挖掘的典型用例
下面,我們通過各個行業(yè)中的典型用例,來討論數據挖掘是如何改變業(yè)務策略設計,以及預測業(yè)務走向的。
市場
數據挖掘可用于檢索與日俱增的數據庫,并改善當前的市場細分。通過分析諸如客戶年齡、性別、口味等參數之間的關系,我們可以預測其行為,以推出個性化的用戶忠誠度計劃。而在市場營銷活動中,數據挖掘還可以預測哪些用戶可能會取消已訂閱的服務,獲悉他們的搜索偏好,進而為實現更高的轉化率,而定制郵件內容與列表。
銀行業(yè)
為了更好地獲悉市場上存在的風險,銀行業(yè)可以將數據挖掘應用到信用等級、以及智能反欺詐系統中,以分析卡密交易、購買模式、以及客戶財務數據等方面。通過對銀行APP的數據挖掘,它們還可以更深入地了解用戶的在線習慣和偏好信息,研究銷售渠道的績效,以及合規(guī)管理的義務,進而提高其營銷活動的回報。
教育
教育工作者能夠在訪問學生數據的基礎上,通過數據挖掘,來預測他們的知識掌握水平,并針對某些成績較差的學生,提供額外的補習與關注。
電子商務
諸如亞馬遜之類的知名電商平臺,通過使用數據挖掘技術,不但可以實現推薦銷售(Up-sells)和交叉銷售,還能夠吸引更多的顧客訪問其平臺。
零售
超市既可以使用聯合采購的模式(joint purchasing pattern),來識別各個產品之間的關聯,進而決定如何將它們放置在過道和貨架上;又可以通過數據挖掘,在結賬隊列中檢測出,哪些商品最受客戶的喜愛,以便提高進貨量。
服務供應商
手機和公用事業(yè)等服務提供商可以使用數據挖掘技術,來分析賬單的詳細信息,與客戶服務的互動,并根據投訴的歷史記錄,為每個客戶分配一個概率分值,以便提供定制化的激勵計劃,或者判斷其流失的可能性。
醫(yī)藥業(yè)
通過數據挖掘,醫(yī)院和醫(yī)生可以掌握患者的全面信息(包括病歷、體檢報告和治療模式等),并據此制定出更加準確且有效的診療方案。通過識別風險,預測人群中的疾病傳播、以及預測住院時間,他們還可以更具成本效益地管理公共衛(wèi)生資源。而醫(yī)療機構則能夠通過數據挖掘的優(yōu)勢,及時發(fā)現各種欺詐和違規(guī)行為,加強與患者之間的聯系,進而更好地滿足他們的需求。
保險
保險公司可以通過數據挖掘,來根據盈利目的對其產品進行綜合定價,進而推廣給新、老客戶。
制造業(yè)
借助數據挖掘,制造商可以預測其生產資源的損耗速度,并能通過預防性的維護,最大程度地減少停機時間。
犯罪調查
通過數據挖掘與分析,治安機構可以預測犯罪多發(fā)的地點與時段,提前部署警力。
電視和廣播
憑借著針對網絡應用和實時數據的挖掘,在線電視(如IPTV)和廣播可以實時收集和分析來自不同頻道與節(jié)目的觀看與收聽信息,實時了解觀眾與聽眾的興趣愛好,在更好地了解其習慣與行為的基礎上,更準確地定位潛在客戶,并實現個性化的推送。
不同行業(yè)使用數據挖掘的成功案例:
- 拜耳幫助農民實現可持續(xù)的糧食生產
在農業(yè)耕種過程中,那些破壞農作物的雜草一直是困擾農民的難題。雖然農民們可以使用窄譜除草劑,在盡可能減少不良副作用的前提下,有效地殺死田間的雜草。但是,他們首先需要準確地識別出田間雜草的類型。拜耳數字農業(yè)使用Talend實時大數據,開發(fā)出了WEEDSCOUT應用。在農民們完成了免費下載與安裝后,該APP使用機器學習和人工智能的方式,將拜耳數據庫中的雜草圖片,與農民拍攝到的雜草照片進行匹配,以便為他們的選種,作物保護產品,以及收割時機等環(huán)節(jié),給出更加準確地預測與建議。
- 法航荷航滿足客戶旅行的偏好要求
該航空公司使用數據挖掘技術,通過將旅行搜索、預訂、以及航班運營中的數據,與互聯網、社交媒體、呼叫中心、以及候機廳的互動相整合,進而創(chuàng)建了360度的客戶視圖。它們憑借著這種深刻的客戶洞察力,創(chuàng)建了個性化的旅行體驗。
- Groupon協調營銷活動
每天,Groupon都需要實時處理超過TB量級的原始數據,并將此類信息存儲在各種數據庫系統之中。而數據挖掘技術使得Groupon能夠實時地分析海量的客戶數據,將營銷活動與客戶的偏好更加緊密地結合起來,并協助公司識別出業(yè)務發(fā)展的趨勢。
- 達美樂打造完美的購買體驗
作為世界上最大的比薩公司,達美樂通過各種渠道(包括:短信、社交媒體、以及Amazon Echo)收集著85,000個結構化和非結構化的數據源,其中包括全球銷售點系統和26個供應鏈中心。這種洞察能力在提高其業(yè)務績效的同時,在各個銷售點之間實現一對一的客戶購買體驗。
總的說來,您可以根據自己的實際需求,使用數據挖掘技術,來解決諸如:增加營收,了解客戶群的特征和偏好,獲取新的客戶,改善交叉銷售和推薦銷售,留存客戶并提高忠誠度,通過營銷活動來增加投資回報率,檢測與發(fā)現欺詐行為,識別信貸風險,監(jiān)控運營績效等業(yè)務問題與需求。
原文標題:Data Mining: Use Cases, Benefits, and Tools,作者:Ekaterina Novoseltseva
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】