自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

詳解數據挖掘的技術、工具與用例

譯文
大數據 數據分析
本文將和您討論數據挖掘的基本概念、基本步驟、主要技術、優(yōu)勢、工具、以及典型用例。

[[400781]]

【51CTO.com快譯】近十年來,隨著計算機處理能力和速度的顯著提高,我們逐漸能夠從繁瑣且耗時的手動式數據分析,轉變成為快速便捷的自動化方法。面對被收集到的數據集日趨增長,能夠發(fā)現的信息相關性也日益復雜,目前各大零售商、銀行、制造商、醫(yī)療保健公司,都在通過數據挖掘技術,在發(fā)現價格變化、促銷策略、用戶偏好、消費習慣、以及支付風險等方面,針對業(yè)務模型、收入、運營、以及客戶關系產生深遠的影響。不過,隨著各個公司能夠獲取數據能力的增強,它們會碰到如何充分利用好海量的結構化與非結構化數據,促進業(yè)務增長等新問題。而這些往往需要數據科學家的協助與實現。

什么是數據挖掘?

從業(yè)務角度而言,我們將分析大數據,發(fā)現商業(yè)智能,協助公司解決現實問題,減輕風險,以及抓住新機遇的過程,統稱為數據挖掘。而在計算機科學中,它是在大量數據中,發(fā)現實用的模式、及其相互關系的過程。它通常涉及到將統計學、人工智能(AI)工具、以及數據庫管理相結合,通過對大型數據集予以分析,查找潛藏的異常情況,發(fā)現數據模式與相關性,將原始數據轉化為實用信息,進而實現結果預測。

數據挖掘過程的基本步驟

1. 收集數據,將其加載到數據倉庫中。

2. 在本地服務器或云端,存儲與管理數據。

3. 業(yè)務分析師、管理團隊和IT專業(yè)人員通過訪問數據,以確定該如何規(guī)整數據。

4. 應用軟件根據特定的需求,對數據進行排序。

5. 以圖形或表格等形式,向最終用戶共享或展示數據。

為了及時獲取可靠的分析結果,我們通常需要通過如下六個步驟,對數據進行結構化:

1. 業(yè)務理解

全面了解當前的業(yè)務狀況、項目的主要目標、以及成功的標準等方面。

2. 數據理解

確定解決問題所需的數據,并從所有可用來源收集數據。

3. 數據準備

為滿足業(yè)務需求,準備適當的數據格式,防范數據出現丟失或重復等質量問題。

4. 建模

使用算法,識別出數據中的潛在模式。

5. 評估

評估給定模型所產生的效果與業(yè)務目標之間的差距。為了獲得最佳結果,我們通常需要一個迭代的過程,來找到最佳算法。

6. 部署

將輸出的結果提供給決策者。

數據挖掘的技術

目前,企業(yè)可以使用如下多種數據挖掘技術,來從原始數據中獲取有價值的洞見:

1.模式跟蹤

模式跟蹤是數據挖掘的一項基本技術。它旨在通過識別和監(jiān)視數據中的趨勢或模式,以對業(yè)務成果形成智能推斷。例如,企業(yè)可以用它來識別銷售數據的發(fā)展趨勢。如果發(fā)現某種產品在某些特定人群中的銷售情況,要好于其他產品,那么該企業(yè)便可以據此來創(chuàng)建類似的產品或服務,甚至只是簡單地為此類人群增加原始產品的庫存。

2.數據清理和準備

作為數據挖掘過程中的一個重要環(huán)節(jié),我們必須對原始數據進行清理和格式化,以用于各種后續(xù)的分析。具體而言,數據的清理和準備工作包含了:數據建模,轉換,遷移,集成和聚合等各種元素。這是理解數據基本特征和屬性,進而確定其最佳用途的必要步驟。

3.分類

基于分類的數據挖掘技術,主要涉及到分析各種類型數據之間的關聯屬性。一旦確定了數據類型的關鍵特征,企業(yè)便可以對它們進行分類。企業(yè)可以據此判定是該保護,還是該刪除某些個人身份信息。

4.異常值(Outlier)檢測

異常值檢測可被用于識別數據集中的異常情況。企業(yè)在發(fā)現數據中異常值后,可以通過防范此類事件的發(fā)生,以順利實現業(yè)務目標。例如,信用卡系統在某個特定時段出現使用和交易的高峰,那么企業(yè)便可以通過分析了解到,可能是由于“大促”所致,并為將來的此類活動做好資源上的事先部署與準備。

5.關聯

關聯是一種與統計學相關的數據挖掘技術。它旨在建立某些數據與其他數據、或數據驅動型事件的聯系。它與機器學習中的“共現(co-occurrence)”概念相似,即:某個基于數據的事件的發(fā)生概率,是由另一個事件的存在性所標識的。例如,用戶購買漢堡這一行為,往往會伴隨著購買薯片的可能性。兩者之間有著較強的關聯性,卻又不是絕對的伴生關系。

6.聚類

聚類是一種依靠可視化方法,來理解數據的分析技術。聚類機制使用圖形或顏色,來顯示數據在不同類別指標下的分布情況。通過圖形式的聚類分析,用戶可以直觀地獲悉數據隨業(yè)務目標發(fā)展的趨勢。

7.回歸

作為一種簡單的白盒技術,回歸技術可被用于識別出,數據集中變量之間的因果關系、或相關性質。它在數據建模和預測等方面非常實用。

8.順序模式

此類數據挖掘技術關注于發(fā)現和挖掘一系列順序發(fā)生的事件,因此常被用于事務性的數據環(huán)境中。例如,它可以預測某個顧客在最初購買了某種樣式的鞋后,最有可能去購買哪些相配的服裝。順序模式可以幫助企業(yè)向客戶推薦并銷售其他增值項產品。

9.預測

預測分析是指在當前或歷史的數據中,對發(fā)現到的模式進行擴展,以便企業(yè)根據現有數據,洞察到即將發(fā)生的趨勢。我們既可以使用簡單的算法,又可以運用高級的機器學習和人工智能來實現預測分析。

10.決策樹

作為一種特定類型的預測模型,決策樹可以讓企業(yè)有效地提取所需的數據。從技術上說,決策樹屬于一種極其簡單的“白盒”類機器學習技術。而從效果上說,決策樹能夠使用戶清楚地了解到,輸入數據是如何影響結果的。當有多個決策樹模型被組合在一起時,它們將創(chuàng)建所謂隨機森林的預測分析模型。由于輸入并不總能被輕易地猜測其輸出結果,因此復雜的隨機森林模型常被視為“黑盒”類機器學習技術。當然,在大多數情況下,相比單純地使用決策樹,集成建模的基本形式要更為準確一些。

11.神經網絡

作為一種特定類型的機器學習模型,神經網絡通常能夠與AI、以及深度學習協同使用。由于該網絡具有類似于人腦中神經元的不同功能層,因此它被譽為目前最精確的機器學習模型之一。

12.可視化

數據可視化可以在數據挖掘的過程中,為用戶提供可查看到的數據視圖。目前,數據可視化可用于實時數據流的傳輸場景中,以不同的顏色、動態(tài)地展示數據中的不同趨勢和模式。企業(yè)不僅能夠使用統計模型中的數值結果,還可以用基于不同指標的儀表板,來可視化地突顯數據中的模式。

13.統計技術

作為數據挖掘過程的核心,統計技術基于統計的概念,利用不同的分析模型,產生適用于特定業(yè)務目標的數值。例如,神經網絡可以使用基于不同權重和度量的復雜統計信息,來確定被輸入到圖像識別系統中的圖片上,到底是狗、還是貓。

14.長時記憶處理(Long-term Memory Processing)

長時記憶處理是指能夠長時間分析數據的能力。那些存儲在數據倉庫中的歷史數據可被用于此目的。企業(yè)需要通過長時分析,來識別出原本難以檢測到的模式。例如,通過分析過去幾年的人員流失情況,企業(yè)可以找到可能導致賬務惡化的蛛絲馬跡。

15.數據倉庫

從傳統上說,數據倉庫是將結構化的數據,存儲在關系型數據庫管理系統中,以便對其進行商業(yè)智能化分析、報告,并提供基本的儀表板顯示。目前,業(yè)界有基于云端的數據倉庫、以及半結構化和非結構化的數據倉庫(如Hadoop)。過去,數據倉庫主要處理的是歷史數據。如今,它也能夠利用各種現代化技術與方法,實時地提供對于數據的深入分析。

16.機器學習與人工智能

諸如深度學習之類的高級機器學習形式,在處理大規(guī)模的數據時,可以提供較高準確性的預測。因此,它們可以被用在實施AI過程中的數據處理,其中包括:計算機視覺、語音識別、以及使用自然語言處理的復雜文本分析等。此類數據挖掘技術有助于識別半結構化和非結構化的數據價值。

數據挖掘的重要性

  • 篩選并濾除數據中各種混雜與重復性“噪聲”。
  • 識別相關數據,并用其評估可能出現的結果。
  • 加快企業(yè)做出明智決策的過程。

數據挖掘的優(yōu)勢

  • 可協助企業(yè)獲取基于知識(knowledge-based)的信息。
  • 可以被部署并實施在新的或既有的平臺上。
  • 可協助企業(yè)在生產和運營中按需進行調整。
  • 促進趨勢和行為的自動化預測,以及隱藏模式的自動發(fā)現。
  • 相比其他統計數據類型的應用,更加經濟高效。
  • 有助于改進決策的過程。
  • 作為一個快速的過程,可以讓用戶輕松地在更少的時間內分析大量數據。

十種數據挖掘工具

由于數據挖掘過程是在數據被獲取后立即執(zhí)行的,因此找到那些能夠針對不同數據結構進行分類、分析與挖掘的工具,是至關重要的。下面,讓我們來討論十種業(yè)界常用的挖掘工具。

1. Oracle Data Mining

Oracle Data Mining(也稱為ODM)是Oracle高級分析數據庫(Advanced Analytics Database)的一個模塊。該數據挖掘工具既能夠方便數據分析師生成詳細的數據見解,并做出預測;又可以協助識別到交叉銷售(Cross-sells)的機會,開發(fā)出用戶畫像(profiles),并最終預測用戶的行為。

2. Rapid Miner

由Java語言編寫的Rapid Miner,是目前最好的預測分析系統之一。它能夠為深度學習、文本挖掘、機器學習和預測分析,提供一套集成化的環(huán)境。其系列產品可以被用來構建全新的數據挖掘過程,以及執(zhí)行預測性的設置分析。

3. Orange Data Mining

作為可用于機器學習和數據挖掘的完美軟件套件,Orange Data Mining通過基于組件的方式,來協助實現數據的可視化。它的組件常被稱為“widgets”,其中包括各種預處理、數據可視化、算法評估、以及預測建模等部件。它們可以協助實現:顯示數據表,選擇不同的功能,讀取數據,訓練預測變量,比較學習算法,以及可視化數據元素等服務。

4. Weka

由Java語言編寫的Weka,通過提供GUI,以方便用戶輕松地訪問其所有功能。開發(fā)者可以在其圖形化的界面中執(zhí)行諸如:預處理、分類、回歸、聚類、以及可視化等各種數據挖掘任務。而作為一款開源的機器學習軟件,Weka為各種任務內置并提供了大量可用于數據挖掘的機器學習算法。因此,您無需編寫任何代碼,即可快速地驗證自己的數據猜測,并部署出相應的模型。

5. KNIME

基于模塊化數據管道的KNIME,是由KNIME AG開發(fā)的最佳數據分析與報告的集成化平臺。它不但免費開源,而且?guī)в懈鞣N機器學習與數據挖掘的相關組件。其直觀的界面,可方便用戶創(chuàng)建從建模到生產環(huán)境的端到端式數據科學工作流。作為一個通用的可擴展平臺,KNIME帶有強大的擴展和集成功能,能夠通過各種高級算法,來處理復雜的數據類型。由于KNIME的不同預構建組件,可以在無需輸入任何代碼的情況下,實現快速建模。因此,數據科學家可以用它來創(chuàng)建諸如:金融行業(yè)常用的信用評分系統等,以實現業(yè)務智能與分析的應用與服務。

6. Sisense

作為一款非常實用的業(yè)務智能(BI)軟件,Sisense能夠根據不同企業(yè)的報告目的,開展數據處理與挖掘,并能夠對大型或分散的數據集,采用儀表板的形式,予以分析和可視化。它可以將各種來源的數據通過組合,構建出公共存儲庫,進而生成完善且豐富的數據報告,以供各個部門享用。Sisense通過提供具有拖放功能的小部件,以方便非技術類型的用戶設計出餅圖、折線圖、以及條狀圖。用戶只需單擊,便可查看到詳細信息和數據全貌。

7. Dundas

作為一款出色的儀表板、報告和數據分析類工具,Dundas可以通過快速的集成方式,提供美觀的表格、圖表和圖形,不受限制的數據轉換模式,以及可靠的洞見。Dundas BI能夠以特定的方式,將數據放入已定義明確的結構中,以簡化用戶的后續(xù)處理。同時,它通過各種關系型方法,方便用戶構建多維的分析,并關注那些業(yè)務關鍵性(business-critical)的事項。此外,由它生成的報告,可以在降低成本的同時,消除對于其他附加軟件的依賴。

8. Intetsoft

作為一種分析儀表板和報告類工具,Intetsoft可以提供針對數據報告與視圖的迭代式開發(fā),并生成像素級的完美報告。它能夠快速、靈活地轉換各種數據來源。

9. Qlik

作為一種數據挖掘和可視化工具,Qlik既能夠提供儀表板,又能夠支持多種數據源和文件類型。此外,它的豐富功能還包括:通過拖放界面可實現靈活的交互式數據可視化,即時響應各種交互和更改,支持多種數據源與文件類型,可輕松、安全地保護各種設備上的數據和內容,允許以集中式共享應用與分析的故事線。

10. MonkeyLearn

作為一個專門研究文本挖掘的機器學習平臺,MonkeyLearn通過友好的用戶界面,實現了與其他工具的輕松集成,并通過對數據的實時挖掘,基于預訓練的文本挖掘模型,開展目標情感分析,或通過構建定制化的解決方案,以滿足更為具體的業(yè)務需求。從檢測主題、情感和意圖,到提取關鍵字和命名實體,MonkeyLearn能夠支持各種數據挖掘任務。此外,MonkeyLearn的文本挖掘功能還可以被用于,在客戶支持的場景中,自動進行任務單的標記與路由,自動檢測社交媒體中的負面反饋,以及提供細粒度的洞見,進而做出更好的決策。

數據挖掘的典型用例

下面,我們通過各個行業(yè)中的典型用例,來討論數據挖掘是如何改變業(yè)務策略設計,以及預測業(yè)務走向的。

市場

數據挖掘可用于檢索與日俱增的數據庫,并改善當前的市場細分。通過分析諸如客戶年齡、性別、口味等參數之間的關系,我們可以預測其行為,以推出個性化的用戶忠誠度計劃。而在市場營銷活動中,數據挖掘還可以預測哪些用戶可能會取消已訂閱的服務,獲悉他們的搜索偏好,進而為實現更高的轉化率,而定制郵件內容與列表。

銀行業(yè)

為了更好地獲悉市場上存在的風險,銀行業(yè)可以將數據挖掘應用到信用等級、以及智能反欺詐系統中,以分析卡密交易、購買模式、以及客戶財務數據等方面。通過對銀行APP的數據挖掘,它們還可以更深入地了解用戶的在線習慣和偏好信息,研究銷售渠道的績效,以及合規(guī)管理的義務,進而提高其營銷活動的回報。

教育

教育工作者能夠在訪問學生數據的基礎上,通過數據挖掘,來預測他們的知識掌握水平,并針對某些成績較差的學生,提供額外的補習與關注。

電子商務

諸如亞馬遜之類的知名電商平臺,通過使用數據挖掘技術,不但可以實現推薦銷售(Up-sells)和交叉銷售,還能夠吸引更多的顧客訪問其平臺。

零售

超市既可以使用聯合采購的模式(joint purchasing pattern),來識別各個產品之間的關聯,進而決定如何將它們放置在過道和貨架上;又可以通過數據挖掘,在結賬隊列中檢測出,哪些商品最受客戶的喜愛,以便提高進貨量。

服務供應商

手機和公用事業(yè)等服務提供商可以使用數據挖掘技術,來分析賬單的詳細信息,與客戶服務的互動,并根據投訴的歷史記錄,為每個客戶分配一個概率分值,以便提供定制化的激勵計劃,或者判斷其流失的可能性。

醫(yī)藥業(yè)

通過數據挖掘,醫(yī)院和醫(yī)生可以掌握患者的全面信息(包括病歷、體檢報告和治療模式等),并據此制定出更加準確且有效的診療方案。通過識別風險,預測人群中的疾病傳播、以及預測住院時間,他們還可以更具成本效益地管理公共衛(wèi)生資源。而醫(yī)療機構則能夠通過數據挖掘的優(yōu)勢,及時發(fā)現各種欺詐和違規(guī)行為,加強與患者之間的聯系,進而更好地滿足他們的需求。

保險

保險公司可以通過數據挖掘,來根據盈利目的對其產品進行綜合定價,進而推廣給新、老客戶。

制造業(yè)

借助數據挖掘,制造商可以預測其生產資源的損耗速度,并能通過預防性的維護,最大程度地減少停機時間。

犯罪調查

通過數據挖掘與分析,治安機構可以預測犯罪多發(fā)的地點與時段,提前部署警力。

電視和廣播

憑借著針對網絡應用和實時數據的挖掘,在線電視(如IPTV)和廣播可以實時收集和分析來自不同頻道與節(jié)目的觀看與收聽信息,實時了解觀眾與聽眾的興趣愛好,在更好地了解其習慣與行為的基礎上,更準確地定位潛在客戶,并實現個性化的推送。

不同行業(yè)使用數據挖掘的成功案例:

  • 拜耳幫助農民實現可持續(xù)的糧食生產

在農業(yè)耕種過程中,那些破壞農作物的雜草一直是困擾農民的難題。雖然農民們可以使用窄譜除草劑,在盡可能減少不良副作用的前提下,有效地殺死田間的雜草。但是,他們首先需要準確地識別出田間雜草的類型。拜耳數字農業(yè)使用Talend實時大數據,開發(fā)出了WEEDSCOUT應用。在農民們完成了免費下載與安裝后,該APP使用機器學習和人工智能的方式,將拜耳數據庫中的雜草圖片,與農民拍攝到的雜草照片進行匹配,以便為他們的選種,作物保護產品,以及收割時機等環(huán)節(jié),給出更加準確地預測與建議。

  • 法航荷航滿足客戶旅行的偏好要求

該航空公司使用數據挖掘技術,通過將旅行搜索、預訂、以及航班運營中的數據,與互聯網、社交媒體、呼叫中心、以及候機廳的互動相整合,進而創(chuàng)建了360度的客戶視圖。它們憑借著這種深刻的客戶洞察力,創(chuàng)建了個性化的旅行體驗。

  • Groupon協調營銷活動

每天,Groupon都需要實時處理超過TB量級的原始數據,并將此類信息存儲在各種數據庫系統之中。而數據挖掘技術使得Groupon能夠實時地分析海量的客戶數據,將營銷活動與客戶的偏好更加緊密地結合起來,并協助公司識別出業(yè)務發(fā)展的趨勢。

  • 達美樂打造完美的購買體驗

作為世界上最大的比薩公司,達美樂通過各種渠道(包括:短信、社交媒體、以及Amazon Echo)收集著85,000個結構化和非結構化的數據源,其中包括全球銷售點系統和26個供應鏈中心。這種洞察能力在提高其業(yè)務績效的同時,在各個銷售點之間實現一對一的客戶購買體驗。

總的說來,您可以根據自己的實際需求,使用數據挖掘技術,來解決諸如:增加營收,了解客戶群的特征和偏好,獲取新的客戶,改善交叉銷售和推薦銷售,留存客戶并提高忠誠度,通過營銷活動來增加投資回報率,檢測與發(fā)現欺詐行為,識別信貸風險,監(jiān)控運營績效等業(yè)務問題與需求。

原文標題:Data Mining: Use Cases, Benefits, and Tools,作者:Ekaterina Novoseltseva

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

 

責任編輯:華軒 來源: 51CTO
相關推薦

2022-01-11 18:21:11

存儲技術數據

2015-09-23 09:28:24

2009-01-15 10:28:35

XMLWeb數據挖掘

2012-08-09 09:57:54

K-means

2011-04-19 11:02:57

數據庫分頁

2019-11-21 14:01:37

Python數據挖掘機器學習

2018-04-23 11:11:52

數據挖掘機器學習Python

2010-06-08 17:01:34

UML用例圖

2010-07-08 11:27:00

UML用例建模

2010-02-04 11:15:12

數據交換技術

2020-03-08 16:45:58

數據挖掘學習數據量

2009-01-19 16:44:31

數據挖掘沃爾瑪應用

2020-07-28 07:55:33

Python開發(fā)工具

2013-04-25 11:52:34

數據

2011-05-11 10:13:16

數據庫加密脫密

2010-06-30 11:08:09

UML用例建模

2011-05-19 11:00:44

數據庫加密

2016-08-18 00:35:39

Pythonwitte數據采集

2018-05-25 10:51:50

數據保護進

2014-01-06 09:48:40

點贊
收藏

51CTO技術棧公眾號