自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="xcun1"><rp id="xcun1"></rp></cite>

<ruby id="xcun1"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

詳解數據挖掘的技術、工具與用例

作者：陳峻 2021-05-21 09:00:00

大數據數據分析

本文將和您討論數據挖掘的基本概念、基本步驟、主要技術、優(yōu)勢、工具、以及典型用例。

【51CTO.com快譯】近十年來，隨著計算機處理能力和速度的顯著提高，我們逐漸能夠從繁瑣且耗時的手動式數據分析，轉變成為快速便捷的自動化方法。面對被收集到的數據集日趨增長，能夠發(fā)現的信息相關性也日益復雜，目前各大零售商、銀行、制造商、醫(yī)療保健公司，都在通過數據挖掘技術，在發(fā)現價格變化、促銷策略、用戶偏好、消費習慣、以及支付風險等方面，針對業(yè)務模型、收入、運營、以及客戶關系產生深遠的影響。不過，隨著各個公司能夠獲取數據能力的增強，它們會碰到如何充分利用好海量的結構化與非結構化數據，促進業(yè)務增長等新問題。而這些往往需要數據科學家的協助與實現。

什么是數據挖掘?

從業(yè)務角度而言，我們將分析大數據，發(fā)現商業(yè)智能，協助公司解決現實問題，減輕風險，以及抓住新機遇的過程，統稱為數據挖掘。而在計算機科學中，它是在大量數據中，發(fā)現實用的模式、及其相互關系的過程。它通常涉及到將統計學、人工智能(AI)工具、以及數據庫管理相結合，通過對大型數據集予以分析，查找潛藏的異常情況，發(fā)現數據模式與相關性，將原始數據轉化為實用信息，進而實現結果預測。

數據挖掘過程的基本步驟

1. 收集數據，將其加載到數據倉庫中。

2. 在本地服務器或云端，存儲與管理數據。

3. 業(yè)務分析師、管理團隊和IT專業(yè)人員通過訪問數據，以確定該如何規(guī)整數據。

4. 應用軟件根據特定的需求，對數據進行排序。

5. 以圖形或表格等形式，向最終用戶共享或展示數據。

為了及時獲取可靠的分析結果，我們通常需要通過如下六個步驟，對數據進行結構化：

1. 業(yè)務理解

全面了解當前的業(yè)務狀況、項目的主要目標、以及成功的標準等方面。

2. 數據理解

確定解決問題所需的數據，并從所有可用來源收集數據。

3. 數據準備

為滿足業(yè)務需求，準備適當的數據格式，防范數據出現丟失或重復等質量問題。

4. 建模

使用算法，識別出數據中的潛在模式。

5. 評估

評估給定模型所產生的效果與業(yè)務目標之間的差距。為了獲得最佳結果，我們通常需要一個迭代的過程，來找到最佳算法。

6. 部署

將輸出的結果提供給決策者。

數據挖掘的技術

目前，企業(yè)可以使用如下多種數據挖掘技術，來從原始數據中獲取有價值的洞見：

1.模式跟蹤

模式跟蹤是數據挖掘的一項基本技術。它旨在通過識別和監(jiān)視數據中的趨勢或模式，以對業(yè)務成果形成智能推斷。例如，企業(yè)可以用它來識別銷售數據的發(fā)展趨勢。如果發(fā)現某種產品在某些特定人群中的銷售情況，要好于其他產品，那么該企業(yè)便可以據此來創(chuàng)建類似的產品或服務，甚至只是簡單地為此類人群增加原始產品的庫存。

2.數據清理和準備

作為數據挖掘過程中的一個重要環(huán)節(jié)，我們必須對原始數據進行清理和格式化，以用于各種后續(xù)的分析。具體而言，數據的清理和準備工作包含了：數據建模，轉換，遷移，集成和聚合等各種元素。這是理解數據基本特征和屬性，進而確定其最佳用途的必要步驟。

3.分類

基于分類的數據挖掘技術，主要涉及到分析各種類型數據之間的關聯屬性。一旦確定了數據類型的關鍵特征，企業(yè)便可以對它們進行分類。企業(yè)可以據此判定是該保護，還是該刪除某些個人身份信息。

4.異常值(Outlier)檢測

異常值檢測可被用于識別數據集中的異常情況。企業(yè)在發(fā)現數據中異常值后，可以通過防范此類事件的發(fā)生，以順利實現業(yè)務目標。例如，信用卡系統在某個特定時段出現使用和交易的高峰，那么企業(yè)便可以通過分析了解到，可能是由于“大促”所致，并為將來的此類活動做好資源上的事先部署與準備。

5.關聯

關聯是一種與統計學相關的數據挖掘技術。它旨在建立某些數據與其他數據、或數據驅動型事件的聯系。它與機器學習中的“共現(co-occurrence)”概念相似，即：某個基于數據的事件的發(fā)生概率，是由另一個事件的存在性所標識的。例如，用戶購買漢堡這一行為，往往會伴隨著購買薯片的可能性。兩者之間有著較強的關聯性，卻又不是絕對的伴生關系。

6.聚類

聚類是一種依靠可視化方法，來理解數據的分析技術。聚類機制使用圖形或顏色，來顯示數據在不同類別指標下的分布情況。通過圖形式的聚類分析，用戶可以直觀地獲悉數據隨業(yè)務目標發(fā)展的趨勢。

7.回歸

作為一種簡單的白盒技術，回歸技術可被用于識別出，數據集中變量之間的因果關系、或相關性質。它在數據建模和預測等方面非常實用。

8.順序模式

此類數據挖掘技術關注于發(fā)現和挖掘一系列順序發(fā)生的事件，因此常被用于事務性的數據環(huán)境中。例如，它可以預測某個顧客在最初購買了某種樣式的鞋后，最有可能去購買哪些相配的服裝。順序模式可以幫助企業(yè)向客戶推薦并銷售其他增值項產品。

9.預測

預測分析是指在當前或歷史的數據中，對發(fā)現到的模式進行擴展，以便企業(yè)根據現有數據，洞察到即將發(fā)生的趨勢。我們既可以使用簡單的算法，又可以運用高級的機器學習和人工智能來實現預測分析。

10.決策樹

作為一種特定類型的預測模型，決策樹可以讓企業(yè)有效地提取所需的數據。從技術上說，決策樹屬于一種極其簡單的“白盒”類機器學習技術。而從效果上說，決策樹能夠使用戶清楚地了解到，輸入數據是如何影響結果的。當有多個決策樹模型被組合在一起時，它們將創(chuàng)建所謂隨機森林的預測分析模型。由于輸入并不總能被輕易地猜測其輸出結果，因此復雜的隨機森林模型常被視為“黑盒”類機器學習技術。當然，在大多數情況下，相比單純地使用決策樹，集成建模的基本形式要更為準確一些。

11.神經網絡

作為一種特定類型的機器學習模型，神經網絡通常能夠與AI、以及深度學習協同使用。由于該網絡具有類似于人腦中神經元的不同功能層，因此它被譽為目前最精確的機器學習模型之一。

12.可視化

數據可視化可以在數據挖掘的過程中，為用戶提供可查看到的數據視圖。目前，數據可視化可用于實時數據流的傳輸場景中，以不同的顏色、動態(tài)地展示數據中的不同趨勢和模式。企業(yè)不僅能夠使用統計模型中的數值結果，還可以用基于不同指標的儀表板，來可視化地突顯數據中的模式。

13.統計技術

作為數據挖掘過程的核心，統計技術基于統計的概念，利用不同的分析模型，產生適用于特定業(yè)務目標的數值。例如，神經網絡可以使用基于不同權重和度量的復雜統計信息，來確定被輸入到圖像識別系統中的圖片上，到底是狗、還是貓。

14.長時記憶處理(Long-term Memory Processing)

長時記憶處理是指能夠長時間分析數據的能力。那些存儲在數據倉庫中的歷史數據可被用于此目的。企業(yè)需要通過長時分析，來識別出原本難以檢測到的模式。例如，通過分析過去幾年的人員流失情況，企業(yè)可以找到可能導致賬務惡化的蛛絲馬跡。

15.數據倉庫

從傳統上說，數據倉庫是將結構化的數據，存儲在關系型數據庫管理系統中，以便對其進行商業(yè)智能化分析、報告，并提供基本的儀表板顯示。目前，業(yè)界有基于云端的數據倉庫、以及半結構化和非結構化的數據倉庫(如Hadoop)。過去，數據倉庫主要處理的是歷史數據。如今，它也能夠利用各種現代化技術與方法，實時地提供對于數據的深入分析。

16.機器學習與人工智能

諸如深度學習之類的高級機器學習形式，在處理大規(guī)模的數據時，可以提供較高準確性的預測。因此，它們可以被用在實施AI過程中的數據處理，其中包括：計算機視覺、語音識別、以及使用自然語言處理的復雜文本分析等。此類數據挖掘技術有助于識別半結構化和非結構化的數據價值。

數據挖掘的重要性

篩選并濾除數據中各種混雜與重復性“噪聲”。
識別相關數據，并用其評估可能出現的結果。
加快企業(yè)做出明智決策的過程。

數據挖掘的優(yōu)勢

可協助企業(yè)獲取基于知識(knowledge-based)的信息。
可以被部署并實施在新的或既有的平臺上。
可協助企業(yè)在生產和運營中按需進行調整。
促進趨勢和行為的自動化預測，以及隱藏模式的自動發(fā)現。
相比其他統計數據類型的應用，更加經濟高效。
有助于改進決策的過程。
作為一個快速的過程，可以讓用戶輕松地在更少的時間內分析大量數據。

十種數據挖掘工具

由于數據挖掘過程是在數據被獲取后立即執(zhí)行的，因此找到那些能夠針對不同數據結構進行分類、分析與挖掘的工具，是至關重要的。下面，讓我們來討論十種業(yè)界常用的挖掘工具。

1. Oracle Data Mining

Oracle Data Mining(也稱為ODM)是Oracle高級分析數據庫(Advanced Analytics Database)的一個模塊。該數據挖掘工具既能夠方便數據分析師生成詳細的數據見解，并做出預測;又可以協助識別到交叉銷售(Cross-sells)的機會，開發(fā)出用戶畫像(profiles)，并最終預測用戶的行為。

2. Rapid Miner

由Java語言編寫的Rapid Miner，是目前最好的預測分析系統之一。它能夠為深度學習、文本挖掘、機器學習和預測分析，提供一套集成化的環(huán)境。其系列產品可以被用來構建全新的數據挖掘過程，以及執(zhí)行預測性的設置分析。

3. Orange Data Mining

作為可用于機器學習和數據挖掘的完美軟件套件，Orange Data Mining通過基于組件的方式，來協助實現數據的可視化。它的組件常被稱為“widgets”，其中包括各種預處理、數據可視化、算法評估、以及預測建模等部件。它們可以協助實現：顯示數據表，選擇不同的功能，讀取數據，訓練預測變量，比較學習算法，以及可視化數據元素等服務。

4. Weka

由Java語言編寫的Weka，通過提供GUI，以方便用戶輕松地訪問其所有功能。開發(fā)者可以在其圖形化的界面中執(zhí)行諸如：預處理、分類、回歸、聚類、以及可視化等各種數據挖掘任務。而作為一款開源的機器學習軟件，Weka為各種任務內置并提供了大量可用于數據挖掘的機器學習算法。因此，您無需編寫任何代碼，即可快速地驗證自己的數據猜測，并部署出相應的模型。

5. KNIME

基于模塊化數據管道的KNIME，是由KNIME AG開發(fā)的最佳數據分析與報告的集成化平臺。它不但免費開源，而且?guī)в懈鞣N機器學習與數據挖掘的相關組件。其直觀的界面，可方便用戶創(chuàng)建從建模到生產環(huán)境的端到端式數據科學工作流。作為一個通用的可擴展平臺，KNIME帶有強大的擴展和集成功能，能夠通過各種高級算法，來處理復雜的數據類型。由于KNIME的不同預構建組件，可以在無需輸入任何代碼的情況下，實現快速建模。因此，數據科學家可以用它來創(chuàng)建諸如：金融行業(yè)常用的信用評分系統等，以實現業(yè)務智能與分析的應用與服務。

6. Sisense

作為一款非常實用的業(yè)務智能(BI)軟件，Sisense能夠根據不同企業(yè)的報告目的，開展數據處理與挖掘，并能夠對大型或分散的數據集，采用儀表板的形式，予以分析和可視化。它可以將各種來源的數據通過組合，構建出公共存儲庫，進而生成完善且豐富的數據報告，以供各個部門享用。Sisense通過提供具有拖放功能的小部件，以方便非技術類型的用戶設計出餅圖、折線圖、以及條狀圖。用戶只需單擊，便可查看到詳細信息和數據全貌。

7. Dundas

作為一款出色的儀表板、報告和數據分析類工具，Dundas可以通過快速的集成方式，提供美觀的表格、圖表和圖形，不受限制的數據轉換模式，以及可靠的洞見。Dundas BI能夠以特定的方式，將數據放入已定義明確的結構中，以簡化用戶的后續(xù)處理。同時，它通過各種關系型方法，方便用戶構建多維的分析，并關注那些業(yè)務關鍵性(business-critical)的事項。此外，由它生成的報告，可以在降低成本的同時，消除對于其他附加軟件的依賴。

8. Intetsoft

作為一種分析儀表板和報告類工具，Intetsoft可以提供針對數據報告與視圖的迭代式開發(fā)，并生成像素級的完美報告。它能夠快速、靈活地轉換各種數據來源。

9. Qlik

作為一種數據挖掘和可視化工具，Qlik既能夠提供儀表板，又能夠支持多種數據源和文件類型。此外，它的豐富功能還包括：通過拖放界面可實現靈活的交互式數據可視化，即時響應各種交互和更改，支持多種數據源與文件類型，可輕松、安全地保護各種設備上的數據和內容，允許以集中式共享應用與分析的故事線。

10. MonkeyLearn

作為一個專門研究文本挖掘的機器學習平臺，MonkeyLearn通過友好的用戶界面，實現了與其他工具的輕松集成，并通過對數據的實時挖掘，基于預訓練的文本挖掘模型，開展目標情感分析，或通過構建定制化的解決方案，以滿足更為具體的業(yè)務需求。從檢測主題、情感和意圖，到提取關鍵字和命名實體，MonkeyLearn能夠支持各種數據挖掘任務。此外，MonkeyLearn的文本挖掘功能還可以被用于，在客戶支持的場景中，自動進行任務單的標記與路由，自動檢測社交媒體中的負面反饋，以及提供細粒度的洞見，進而做出更好的決策。

數據挖掘的典型用例

下面，我們通過各個行業(yè)中的典型用例，來討論數據挖掘是如何改變業(yè)務策略設計，以及預測業(yè)務走向的。

市場

數據挖掘可用于檢索與日俱增的數據庫，并改善當前的市場細分。通過分析諸如客戶年齡、性別、口味等參數之間的關系，我們可以預測其行為，以推出個性化的用戶忠誠度計劃。而在市場營銷活動中，數據挖掘還可以預測哪些用戶可能會取消已訂閱的服務，獲悉他們的搜索偏好，進而為實現更高的轉化率，而定制郵件內容與列表。

銀行業(yè)

為了更好地獲悉市場上存在的風險，銀行業(yè)可以將數據挖掘應用到信用等級、以及智能反欺詐系統中，以分析卡密交易、購買模式、以及客戶財務數據等方面。通過對銀行APP的數據挖掘，它們還可以更深入地了解用戶的在線習慣和偏好信息，研究銷售渠道的績效，以及合規(guī)管理的義務，進而提高其營銷活動的回報。

教育

教育工作者能夠在訪問學生數據的基礎上，通過數據挖掘，來預測他們的知識掌握水平，并針對某些成績較差的學生，提供額外的補習與關注。

電子商務

諸如亞馬遜之類的知名電商平臺，通過使用數據挖掘技術，不但可以實現推薦銷售(Up-sells)和交叉銷售，還能夠吸引更多的顧客訪問其平臺。

零售

超市既可以使用聯合采購的模式(joint purchasing pattern)，來識別各個產品之間的關聯，進而決定如何將它們放置在過道和貨架上;又可以通過數據挖掘，在結賬隊列中檢測出，哪些商品最受客戶的喜愛，以便提高進貨量。

服務供應商

手機和公用事業(yè)等服務提供商可以使用數據挖掘技術，來分析賬單的詳細信息，與客戶服務的互動，并根據投訴的歷史記錄，為每個客戶分配一個概率分值，以便提供定制化的激勵計劃，或者判斷其流失的可能性。

醫(yī)藥業(yè)

通過數據挖掘，醫(yī)院和醫(yī)生可以掌握患者的全面信息(包括病歷、體檢報告和治療模式等)，并據此制定出更加準確且有效的診療方案。通過識別風險，預測人群中的疾病傳播、以及預測住院時間，他們還可以更具成本效益地管理公共衛(wèi)生資源。而醫(yī)療機構則能夠通過數據挖掘的優(yōu)勢，及時發(fā)現各種欺詐和違規(guī)行為，加強與患者之間的聯系，進而更好地滿足他們的需求。

保險

保險公司可以通過數據挖掘，來根據盈利目的對其產品進行綜合定價，進而推廣給新、老客戶。

制造業(yè)

借助數據挖掘，制造商可以預測其生產資源的損耗速度，并能通過預防性的維護，最大程度地減少停機時間。

犯罪調查

通過數據挖掘與分析，治安機構可以預測犯罪多發(fā)的地點與時段，提前部署警力。

電視和廣播

憑借著針對網絡應用和實時數據的挖掘，在線電視(如IPTV)和廣播可以實時收集和分析來自不同頻道與節(jié)目的觀看與收聽信息，實時了解觀眾與聽眾的興趣愛好，在更好地了解其習慣與行為的基礎上，更準確地定位潛在客戶，并實現個性化的推送。

不同行業(yè)使用數據挖掘的成功案例：

拜耳幫助農民實現可持續(xù)的糧食生產

在農業(yè)耕種過程中，那些破壞農作物的雜草一直是困擾農民的難題。雖然農民們可以使用窄譜除草劑，在盡可能減少不良副作用的前提下，有效地殺死田間的雜草。但是，他們首先需要準確地識別出田間雜草的類型。拜耳數字農業(yè)使用Talend實時大數據，開發(fā)出了WEEDSCOUT應用。在農民們完成了免費下載與安裝后，該APP使用機器學習和人工智能的方式，將拜耳數據庫中的雜草圖片，與農民拍攝到的雜草照片進行匹配，以便為他們的選種，作物保護產品，以及收割時機等環(huán)節(jié)，給出更加準確地預測與建議。

法航荷航滿足客戶旅行的偏好要求

該航空公司使用數據挖掘技術，通過將旅行搜索、預訂、以及航班運營中的數據，與互聯網、社交媒體、呼叫中心、以及候機廳的互動相整合，進而創(chuàng)建了360度的客戶視圖。它們憑借著這種深刻的客戶洞察力，創(chuàng)建了個性化的旅行體驗。

Groupon協調營銷活動

每天，Groupon都需要實時處理超過TB量級的原始數據，并將此類信息存儲在各種數據庫系統之中。而數據挖掘技術使得Groupon能夠實時地分析海量的客戶數據，將營銷活動與客戶的偏好更加緊密地結合起來，并協助公司識別出業(yè)務發(fā)展的趨勢。

達美樂打造完美的購買體驗

作為世界上最大的比薩公司，達美樂通過各種渠道(包括：短信、社交媒體、以及Amazon Echo)收集著85,000個結構化和非結構化的數據源，其中包括全球銷售點系統和26個供應鏈中心。這種洞察能力在提高其業(yè)務績效的同時，在各個銷售點之間實現一對一的客戶購買體驗。

總的說來，您可以根據自己的實際需求，使用數據挖掘技術，來解決諸如：增加營收，了解客戶群的特征和偏好，獲取新的客戶，改善交叉銷售和推薦銷售，留存客戶并提高忠誠度，通過營銷活動來增加投資回報率，檢測與發(fā)現欺詐行為，識別信貸風險，監(jiān)控運營績效等業(yè)務問題與需求。

原文標題：Data Mining: Use Cases, Benefits, and Tools，作者：Ekaterina Novoseltseva

【51CTO譯稿，合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯：華軒來源： 51CTO

數據挖掘數據分析工具

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="nsm6s"><track id="nsm6s"><sub id="nsm6s"></sub></track></cite>

<sub id="nsm6s"></sub>

<style id="nsm6s"></style>