淺談數據挖掘的基本概念及其最常用算法
當前,大數據的理論和應用正在國民經濟和生活的各個領域如火如荼的進行。很多人對大數據的基本概念和特點已經有所了解,那么我們僅僅將大數據進行獲取、存儲、檢索和共享是不夠的,怎么樣才能在大數據中找出未知的且有價值的信息和知識呢?
知識發(fā)現(KDD)就是從大數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。

知識發(fā)現的流程圖
數據挖掘是大數據知識發(fā)現(KDD)中不可缺少一部分,是大數據理論和應用中非常重要的一部分。數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。大部分人是通過一個案例認識到數據挖掘:這是因為沃爾瑪通過數據分析發(fā)現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段;沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。雖然這個故事很可能是假的, 但是確實讓不少人開始接觸數據挖掘。

數據挖掘基本框架
數據挖掘的最常用的幾種算法:
(1)預測建模:將已有數據和模型用于對未知變量的語言。
- 分類,用于預測離散的目標變量
- 回歸,用于預測連續(xù)的目標變量
(2)聚類分析:發(fā)現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。
(3)關聯(lián)分析(又稱關系模式):反映一個事物與其他事物之間的相互依存性和關聯(lián)性。用來發(fā)現描述數據中強關聯(lián)特征的模式。
(4)異常檢測:識別其特征顯著不同于其他數據的觀測值。
有時也把數據挖掘分為:分類,回歸,聚類,關聯(lián)分析。

數據挖掘的四種典型算法
數據挖掘和機器學習有區(qū)別,也有關系,我們將在以后的文章中對其進行介紹。