自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="mv3p0"></sub>

^{<thead id="mv3p0"></thead>}<style id="mv3p0"></style>

<style id="mv3p0"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

作者：Python工程師 2020-04-17 15:23:21

大數(shù)據(jù) Hadoop

個人看完這一章，對于數(shù)據(jù)挖掘的落地有了一個大概得了解，我們選擇、使用、學習這些大數(shù)據(jù)的技術應該是結果導向的，這里會讓人更清晰去選擇技術，使用技術。

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

數(shù)據(jù)挖掘基礎

數(shù)據(jù)挖掘的概念：

從數(shù)據(jù)中“淘金”，從大量數(shù)據(jù)(文本)中挖掘出隱含的、未知的、對決策有潛在的關系、模型和趨勢，并用這些知識和規(guī)則建立用于決策支持的模型，提供預測性決策支持的方法、工具和過程，這就是數(shù)據(jù)挖掘。

它是利用各種分析工具在大量數(shù)據(jù)中尋找其規(guī)律和發(fā)現(xiàn)模型與數(shù)據(jù)之間關系的過程，是統(tǒng)計學、數(shù)據(jù)技術和人智能智能技術的綜合。

數(shù)據(jù)挖掘的基本任務：

包括利用分類與預測、聚類分析、關聯(lián)規(guī)則、時序模式、偏差檢測、職能推薦等方法，幫助企業(yè)提取數(shù)據(jù)中蘊含的商業(yè)價值，提高企業(yè)的競爭力。

1 目標定義

任務理解
指標確認

針對具體的挖掘應用需求明確本次挖掘目標是什么?系統(tǒng)完成后能達到什么樣的效果?

2 數(shù)據(jù)采集

建模抽樣

抽樣數(shù)據(jù)的標準，一是相關性、二是可靠性、三是有效性。

抽樣的方式

隨機抽樣：比如按10%比例隨機抽樣
等距抽樣：比如按5%比例，一共100組，取20、40、60、80、100
分層抽樣：將樣本分若干層次，每個層次設定不同的概率。
從起始順序抽樣：從輸入數(shù)據(jù)集的起始處開始。
分類抽樣：依據(jù)某種屬性的取值來選擇數(shù)據(jù)子集。如按客戶名稱分類、按地址區(qū)域分類等。分類抽樣的選取方式就是前面所述的幾種方式，只是抽樣以類為單位。

質(zhì)量把控

實時采集

3 數(shù)據(jù)整理

數(shù)據(jù)探索

對所抽樣的樣本數(shù)據(jù)進行探索、審核和必要的加工處理，是保證最終的挖掘模型的質(zhì)量所必須的。

常用的數(shù)據(jù)探索方法主要包括兩方面：數(shù)據(jù)質(zhì)量分析，數(shù)據(jù)特征分析。

數(shù)據(jù)質(zhì)量分析：得主要任務是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)。包括缺失值分析、異常值分析、數(shù)據(jù)一致性分析。
數(shù)據(jù)特征分析：在質(zhì)量分析后可通過繪制圖標、計算某種特征量等手段進行特征分析，

主要包括

分布分析：能揭示數(shù)據(jù)的分布特征和分布類型?？捎弥狈綀D、餅圖、條形圖等展示
對比分析：將兩個相互聯(lián)系的指標進行比較，從數(shù)據(jù)量上展示和說明研究對象規(guī)模的大小，水平的高低，速度的快慢，以及各種關系是否協(xié)調(diào)。比如，各部門的銷售金額的比較、各年度的銷售額對比。
統(tǒng)計量分析：用統(tǒng)計指標對定量數(shù)據(jù)進行統(tǒng)計描述，常從集中和離中趨勢兩個方面進行分析。平均水平的指標是對個體集中趨勢的度量，最廣泛是均值和中位數(shù);反映變異程度的指標則是對個體離開平均水平的度量，使用較廣泛的是標準差(方差)、四分衛(wèi)間距。
周期性分析：分析某個變量是否跟著時間變化而呈現(xiàn)出某種周期變化趨勢。
貢獻度分析：原理是帕累托法則(又稱20/80定律)
相關性分析：分析連續(xù)變量之間線性相關程度的強弱，并用適當?shù)慕y(tǒng)計指標表示出來的過程稱為相關分析。判斷兩個變量是否具有線性相關關系的最直觀的方法是直接繪制散點圖。多元線性回歸。

數(shù)據(jù)清洗

數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關數(shù)據(jù)、重復數(shù)據(jù)、平滑噪音數(shù)據(jù)，刷選調(diào)與挖掘主題無關的數(shù)據(jù)，處理缺失值，異常值等。

缺失值處理:刪除記錄、數(shù)據(jù)插補和不處理。

異常值處理：直接刪除、提油現(xiàn)有變量，進行填補。

數(shù)據(jù)變換

數(shù)據(jù)變換主要是對數(shù)據(jù)進行規(guī)范化處理，將數(shù)據(jù)轉換成“適當”形勢，以適用與挖掘任務與算法的需要。

常見的數(shù)據(jù)變換方法，簡單函數(shù)變換、規(guī)范化、連續(xù)屬性離散化，屬性構造，小波變換。

數(shù)據(jù)規(guī)約

數(shù)據(jù)規(guī)約產(chǎn)生更小但保持元數(shù)據(jù)完整性的新數(shù)據(jù)集。提高效率。主要包括屬性規(guī)約和數(shù)值規(guī)約。

數(shù)據(jù)集成

數(shù)據(jù)來源往往分布在不同的數(shù)據(jù)源中，數(shù)據(jù)集成就是將數(shù)據(jù)源合并存在一個一致性的數(shù)據(jù)存儲。

4 構建模型

樣本抽取完并經(jīng)預處理，對本次建模進行確認，是分類、聚合、關聯(lián)規(guī)則、時序模式或者職能推薦，以便后續(xù)選用哪種算法進行模型構建。這一步是核心環(huán)節(jié)。

針對餐飲行業(yè)的數(shù)據(jù)挖掘應用，挖掘建模主要基于關聯(lián)規(guī)則算法的動態(tài)菜品智能推薦、基于聚類算法的餐飲客戶價值分析、基于分類與預測算法的菜品銷售預測、基于整體優(yōu)化的新店選址。

模型發(fā)現(xiàn)
構建模型
驗證模型

5 模型評價

為了確保模型有效，需要對其進行測試評價，目的找出一個最好的模型。

為了有效判斷一個預測模型的性能表現(xiàn)，需要一組沒有參與預測模型建立的數(shù)據(jù)集，并在該數(shù)據(jù)集上評價預測模型的精準率。

設定評價標準
多模型對比
模型優(yōu)化

6 模型發(fā)布

模型部署
模型重構

小結

本章從一個知名餐飲企業(yè)經(jīng)營過程中存在的困惑出發(fā)，引出數(shù)據(jù)挖掘的概念、基本任務、建模過程。

針對建模過程，簡要分析了定義挖掘目標、數(shù)據(jù)取樣、數(shù)據(jù)塔索、數(shù)據(jù)預處理以及挖掘建模的各個算法概述和模型評價。

如何幫助企業(yè)從數(shù)據(jù)中洞察商機、提取價值，這是現(xiàn)階段幾乎所有企業(yè)都關心的問題。通過發(fā)生在身邊的案例，由淺入深引出深奧的數(shù)據(jù)挖掘理論，讓讀者感悟數(shù)據(jù)挖掘的非凡魅力。點贊

個人看完這一章，對于數(shù)據(jù)挖掘的落地有了一個大概得了解，我們選擇、使用、學習這些大數(shù)據(jù)的技術應該是結果導向的，這里會讓人更清晰去選擇技術，使用技術。

Hadoop基礎

大數(shù)據(jù)技術，是指從各種類型的數(shù)據(jù)中，快速獲得由價值信息的能力。適用大技術的技術，包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫，數(shù)據(jù)挖掘，分布式文件系統(tǒng)，分布式數(shù)據(jù)庫，云計算平臺，互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。

大數(shù)據(jù)特點4V

數(shù)據(jù)量大(Volume)
數(shù)據(jù)類型復雜(Variety)
數(shù)據(jù)處理速度快(Velocity)
數(shù)據(jù)真實性高(Veracity)

當前，Hadoop已經(jīng)成為了事實上的標準。

Hadoop除了社區(qū)版，還有其他廠商發(fā)行的版本。

Cloudera：最成型的發(fā)行版本，擁有最多的部署案例;
Hortonworks：100%開源的Apache Hadoop唯一提供商。
MapR：
Amazon Elastic Map Reduce(EMR)：這是一個托管的解決方案。

生態(tài)系統(tǒng)

Hadooop生態(tài)系統(tǒng)主要包括:Hive、HBase、Pig、Sqoop、Flume、Zookeeper、Mahout、Spark、Storm、Shark、Phoenix、Tex、Ambari

Hive[haɪv]:數(shù)據(jù)倉庫系統(tǒng)

用于Hadoop的一個數(shù)據(jù)倉庫系統(tǒng)，它提供了類似SQL的查詢語言，通過使用該語言，可以方便地進行數(shù)據(jù)匯總，特定查詢以及分析存放在Hadoop兼容文件系統(tǒng)中的大數(shù)據(jù)。

hive基于hdfs構建了數(shù)據(jù)倉庫系統(tǒng)，它以hdfs作為存儲，依賴于數(shù)據(jù)庫(嵌入式的數(shù)據(jù)庫derby或者獨立的數(shù)據(jù)mysql或oracle)存儲表schema信息，并完成基于sql自動解析創(chuàng)建mapreduce任務(由于mapreduce計算效率比較差，目前官方推薦的是底層計算模型采用tez或者spark)。

所以hive可以理解為：hdfs原始存儲+DB Schema信息存儲+SQL解析引擎+底層計算框架組成的數(shù)據(jù)倉庫。

Hbase:分布式數(shù)據(jù)庫

一種分布式、可伸縮的、大數(shù)據(jù)庫存儲庫，支持隨機、實施讀/寫訪問。

Pig:工作流引擎

Pig是一種編程語言，它簡化了Hadoop常見的工作任務。Pig可加載數(shù)據(jù)、表達轉換數(shù)據(jù)以及存儲最終結果。Pig內(nèi)置的操作使得半結構化數(shù)據(jù)變得有意義(如日志文件)。同時Pig可擴展使用Java中添加的自定義數(shù)據(jù)類型并支持數(shù)據(jù)轉換。

sqoop[skup]:數(shù)據(jù)庫ETL工具

為高效傳輸批量數(shù)據(jù)而設計的一種工具，其用于Apache Hadoop和結構化數(shù)據(jù)存儲庫如關系數(shù)據(jù)庫之間的數(shù)據(jù)傳輸。

Flume:日志收集

一種分布式、可靠的、可用的服務，其用于高效搜集、匯總、移動大量日志數(shù)據(jù)

ZooKeeper[ˈzu:ki:pə(r)]：協(xié)同服務管理

一種集中服務、其用于維護配置信息，命名，提供分布式同步，以及提供分組服務。

HDFS:分布式數(shù)據(jù)存儲系統(tǒng)

hdfs是大數(shù)據(jù)系統(tǒng)的基礎，它提供了基本的存儲功能，由于底層數(shù)據(jù)的分布式存儲，上層任務也可以利用數(shù)據(jù)的本地性進行分布式計算。hdfs思想上很簡單，就是namenode負責數(shù)據(jù)存儲位置的記錄，datanode負責數(shù)據(jù)的存儲。使用者client會先訪問namenode詢問數(shù)據(jù)存在哪，然后去datanode存儲;寫流程也基本類似，會先在namenode上詢問寫到哪，然后把數(shù)據(jù)存儲到對應的datanode上。所以namenode作為整個系統(tǒng)的靈魂，一旦它掛掉了，整個系統(tǒng)也就無法使用了。在運維中，針對namenode的高可用變得十分關鍵。

Mahout[məˈhaʊt]:算法集

一種基于Hadoop的機器學習和數(shù)據(jù)挖掘的分布式計算框架算法集，實現(xiàn)了多重MapReduce模式的數(shù)據(jù)挖掘算法。

spark:計算模型

一種開源的數(shù)據(jù)分析集群計算框架，建立于HDFS紙上。于Hadoop一樣，用于構建大規(guī)模、低延時的數(shù)據(jù)分析應用。它采用Scala語言實現(xiàn)，使用Scala作為應用框架。

spark是現(xiàn)在大數(shù)據(jù)中應用最多的計算模型，它與java8的stream編程有相同的風格。封裝了很多的計算方法和模型，以延遲執(zhí)行的方式，在真正需要執(zhí)行的時候才進行運算。既可以有效的做計算過程的容錯，也可以改善我們的編程模型。

Spark是一款很棒的執(zhí)行引擎，我們可以看到大部分的Spark應用，是作為Hadoop分布式文件系統(tǒng)HDFS的上層應用。

( Spark 典型的取代了已經(jīng)過時的MapReduce引擎，與Hadoop YARN (Yet Another Resource Negotiator，另一種資源協(xié)調(diào)者)或者分布式計算框架Mesos一起工作，有時候同時與兩者一起作為一個計劃進行)

但是Cutting強調(diào)：“還有許多事情Spark是做不到的。”比如：它不是一個全文本搜索引擎;是Solr在Hadoop里扮演著這個角色。它可以運行SQL查詢對抗Spark，但是它沒有被設計成一個交互式查詢系統(tǒng)，對此，Cutting提出，Impala可以實現(xiàn)交互查詢。

如果你只是要需要進行streaming 編程或者batch 編程，那么你需要一個執(zhí)行引擎，Spark就是很棒的一個。但是人們想做的事情遠不止于此，他們想實現(xiàn)交互式SQL(結構化查詢語言)，他們想實現(xiàn)搜索，他們想做各種涉及系統(tǒng)的實時處理，如Kafka(一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng))…我認為那些認為Spark就是整個堆的人是確實存在的少數(shù)情況。

Storm:

一個分布式、容錯的實時計算系統(tǒng)。

Shark[ʃɑ:k]:SQL查詢引擎

Hive on Spark，一個專門為Spark打造的大規(guī)模數(shù)據(jù)倉庫系統(tǒng)，兼容Apache Hive。無需修改現(xiàn)有的數(shù)據(jù)或者查詢，就可以用100倍的速度執(zhí)行Hive SQL。Shark支持Hive查詢語言、元存儲、序列化格式及自定義函數(shù)，與現(xiàn)有Hive部署無縫集成，是一個更快、更強大的替代方案。

Phoenix:

一個構建在Apache HBase之上的一個SQL中間層，完全使用Java編寫，提供了一個客戶端可嵌入的JDBC驅動。

Tez:

一個機遇Hadoop YARN之上的DAG計算框架。它把Map/Reduce過程拆分成若干個子過程。同時可以把多個Map/Reduce任務組合成一個較大的DAG任務，減少Map/Reduce之間的文件存儲。同時合理組合其子過程，減少任務的運行時間。

Amari:安裝部署工具

一個供應、管理和監(jiān)視Apache Hadoop集群的開源框架，它提供一個直觀的操作工具和一個健壯的Hadoop Api,

MapReduce:

說穿了就是函數(shù)式編程，把所有的操作都分成兩類，map與reduce，map用來將數(shù)據(jù)分成多份，分開處理，reduce將處理后的結果進行歸并，得到最終的結果。

ChuKwa:

YARN[jɑ:n]：Hadoop 資源管理器

Hadoop HDFS

HDFS被設計成適合在通用硬件上的分布式文件系統(tǒng)。具有如下特點

具有高度容錯性的系統(tǒng)。設計用來部署在低廉的硬件上，提供高吞吐量，適合那些有超大數(shù)據(jù)集的應用程序，放寬了POSIX的要求這樣可以實現(xiàn)以流的形式(streaming access)訪問文件系統(tǒng)中的數(shù)據(jù)。

HDFS采用master/slave。一個集群由一個NameNode和多個DataNodes組成。

Active Namenode：主 Master(只有一個)，管理 HDFS 的名稱空間，管理數(shù)據(jù)塊映射信息;配置副本策略;處理客戶端讀寫請求。
Secondary NameNode：NameNode 的熱備;定期合并 fsimage 和 fsedits，推送給 NameNode;當 Active NameNode 出現(xiàn)故障時，快速切換為新的 Active NameNode。
Datanode：Slave(有多個);存儲實際的數(shù)據(jù)塊;執(zhí)行數(shù)據(jù)塊讀 / 寫。
Client：與 NameNode 交互，獲取文件位置信息;與 DataNode 交互，讀取或者寫入數(shù)據(jù);管理 HDFS、訪問 HDFS。

Hive

概念

Hive最初是Facebook面對海量數(shù)據(jù)和機器學習的需求而產(chǎn)生和發(fā)展的，是建立在Hadoop上數(shù)據(jù)倉庫基礎架構，它可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的SQL查詢功能。

Hive作為數(shù)據(jù)倉庫，提供一系列工具，可以用來進行數(shù)據(jù)提取轉化加載(ETL)，這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。

Hive定義了簡單的類SQL查詢語言，成為HQL，它允許熟悉SQL用戶查詢數(shù)據(jù)。

特點

支持索引，加快數(shù)據(jù)查詢。
不同的存儲類型，如純文本文件、HBase中的文件。
將元數(shù)據(jù)保存在關系數(shù)據(jù)庫中，大大減少了在查詢過程中執(zhí)行語義檢查的時候。
可以直接使用存儲在Hadoop文件系統(tǒng)中的數(shù)據(jù)。
內(nèi)置大量用戶函數(shù)UDF來操作時間、字符串和其他的數(shù)據(jù)挖掘工具，支持用戶擴展UDF函數(shù)來完成內(nèi)置函數(shù)無法實現(xiàn)的操作。
類SQL的查詢方式，將SQL查詢轉換為MapReduce的Job在Hadoop集群上執(zhí)行

Hive并不能夠在大規(guī)模數(shù)據(jù)集上實現(xiàn)低延遲快速的查詢，不能提供實時的查詢和基于行級的數(shù)據(jù)更新操作。比如幾百MB的數(shù)據(jù)集上執(zhí)行查詢一般有分鐘級的時間延遲。所以它不適合低延遲的應用。最佳應用在大數(shù)據(jù)集的批處理作業(yè)，如網(wǎng)絡日志分析。

Hive支持的數(shù)據(jù)模型

表：存在在HDFS目錄底下，固定目錄
外部表：跟表差不多，指定目錄

分區(qū)：

桶：對指定的列計算其哈希值，根絕哈希值切分數(shù)據(jù)，目的是并行，每個桶對應一個文件。

Hbase

概念

Hbase是一個分布式、面向列的開源數(shù)據(jù)庫，利用HBASE技術可以在廉價PC服務器搭建大規(guī)模結構化存儲集群。它不是關系型數(shù)據(jù)庫，是一個適合非結構化的數(shù)據(jù)存儲數(shù)據(jù)庫。它利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù)，同時利用Zookeeper作為其協(xié)同服務。

采購LSM算法，后面繼續(xù)深入研究，這個算法，是在內(nèi)存中對未排序的值進行，拆分排序，比如N個數(shù)，每M個拆分一次做排序，那么每次尋找的計算量應該是N/M*log2M

特點

線性和模塊化可擴展性
嚴格一致的讀取和寫入
表的自動配置和分片
支持RegionServers之間的自動故障轉移
方便的基類支持Hadoop的MapReduce作業(yè)與Apache HBase的表
易于使用的Java API的客戶端訪問
塊緩存和布魯姆過濾器實時查詢
Thrift網(wǎng)管和REST-FUL Web服務支持XML、protobuf和二進制的數(shù)據(jù)編碼選項;
可擴展的基于JRuby(JIRB)的腳本;
支持監(jiān)控信息通過Hadoop子系統(tǒng)導出到文件或Ganglia

Pig和Hive還為HBase提供了高層語言支持，這使得HBase上進行數(shù)據(jù)統(tǒng)計處理變得非常簡單。Sqoop則為HBase提供了RDBMS數(shù)據(jù)導入功能，使用傳統(tǒng)數(shù)據(jù)庫向HBase遷移變得很方便。

原理

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

HBase構建在HDFS之上，其組件包括 Client、zookeeper、HDFS、Hmaster以及HRegionServer。Client包含訪問HBase的接口，并維護cache來加快對HBase的訪問。Zookeeper用來保證任何時候，集群中只有一個master，存貯所有Region的尋址入口以及實時監(jiān)控Region server的上線和下線信息。并實時通知給Master存儲HBase的schema和table元數(shù)據(jù)。HMaster負責為Region server分配region和Region server的負載均衡。如果發(fā)現(xiàn)失效的Region server并重新分配其上的region。同時，管理用戶對table的增刪改查操作。Region Server 負責維護region，處理對這些region的IO請求并且切分在運行過程中變得過大的region。

Hbase底層使用還是Hadoop的HDFS。同時包含3個重要組件，

Zookeeper：為整個HBase集群提供協(xié)助的服務(信息傳輸);
HMaster：監(jiān)控和操作集群中所有的RegionServer;
HregionServer：服務和管理分區(qū)(regions)。

**Region：**Hbase的Table中的所有行都按照row key的字典序排列。Table 在行的方向上分割為多個Region。、Region按大小分割的，每個表開始只有一個region，隨著數(shù)據(jù)增多，region不斷增大，當增大到一個閥值的時候， region就會等分會兩個新的region，之后會有越來越多的 region。

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

Region是HBase中分布式存儲和負載均衡的最小單元。不同Region分布到不同RegionServer上。

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

Region雖然是分布式存儲的最小單元，但并不是存儲的最小單元。Region由一個或者多個Store組成，每個store保存一個 columns family。每個Strore又由一個memStore和0至多個StoreFile組成。memStore存儲在內(nèi)存中，StoreFile存儲在HDFS上。

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

HBase和RDBMS的區(qū)別

HBASE設計的初衷是針對大數(shù)據(jù)進行隨機地、實時地讀寫操作。區(qū)別

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

HBase數(shù)據(jù)模型

傳統(tǒng)型數(shù)據(jù)庫以行的形式存儲數(shù)據(jù)，每行數(shù)據(jù)包含多列，每列只有單個值。在HBase中，數(shù)據(jù)實際存儲在一個“映射”中，并且“映射”的鍵(key)是被排序的。類似JavaScript Object(JSON)

HBase包含如下幾個概念：

1 Row key

一條記錄的唯一標示

2 column family

一列數(shù)據(jù)的集合的存儲體，作為列簇

3 Column qualifier

在列簇中的每個列數(shù)據(jù)的限定符，用于指定數(shù)據(jù)的屬性

4 Cell

實際存儲的數(shù)據(jù)，包含數(shù)據(jù)和時間戳

讀了十本書丨Hadoop大數(shù)據(jù)分析及數(shù)據(jù)挖掘讀書筆記，一文總結

小結

這里介紹大數(shù)據(jù)數(shù)據(jù)庫HBASE的基礎概念,分析了HBase的原理，主要包括其與RDBMS的對比、訪問接口、數(shù)據(jù)模型等。最后結構HBase的架構圖介紹各個模塊組件，包括HMaster、HRegionServer、Zookeeper

大數(shù)據(jù)挖掘建模平臺

本章首先介紹常用的大數(shù)據(jù)平臺，采用開源的TipDM-HB大數(shù)據(jù)挖掘建模平臺。

SOA架構，面向服務架構，以為著服務接口、流程整合、資源可利用、管控。

挖掘建模

經(jīng)過數(shù)據(jù)探索與數(shù)據(jù)預處理，得到了可以建模的數(shù)據(jù)。

根據(jù)挖掘目標和數(shù)據(jù)形式可以建立分類與預測、聚類分析、關聯(lián)規(guī)則、職能推薦等模型。

責任編輯：未麗燕來源：今日頭條

Hadoop 數(shù)據(jù)挖掘數(shù)據(jù)分析

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營