自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)開發(fā)涉及到的關鍵技術有哪些?

大數(shù)據(jù)
大數(shù)據(jù)技術是使用非傳統(tǒng)的工具對海量數(shù)據(jù)進行處理,從而實現(xiàn)大數(shù)據(jù)的價值。大數(shù)據(jù)關鍵技術涵蓋數(shù)據(jù)存儲、處理、應用等多方面的技術,本文根據(jù)大數(shù)據(jù)的處理過程,詳細的對大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)處理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展示進行介紹。

 大數(shù)據(jù)本身是一種現(xiàn)象而不是一種技術。大數(shù)據(jù)技術是一系列使用非傳統(tǒng)的工具來對大量的結(jié)構化、半結(jié)構化和非結(jié)構化數(shù)據(jù)進行處理,從而獲得分析和預測結(jié)果的數(shù)據(jù)處理技術。

大數(shù)據(jù)價值的完整體現(xiàn)需要多種技術的協(xié)同。大數(shù)據(jù)關鍵技術涵蓋數(shù)據(jù)存儲、處理、應用等多方面的技術,根據(jù)大數(shù)據(jù)的處理過程,可將其分為大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)處理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展示等。

[[359599]] 

大數(shù)據(jù)采集技術

大數(shù)據(jù)采集技術是指通過 RFID 數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構化、半結(jié)構化及非結(jié)構化的海量數(shù)據(jù)。

因為數(shù)據(jù)源多種多樣,數(shù)據(jù)量大,產(chǎn)生速度快,所以大數(shù)據(jù)采集技術也面臨著許多技術挑戰(zhàn),必須保證數(shù)據(jù)采集的可靠性和高效性,還要避免重復數(shù)據(jù)。

大數(shù)據(jù)的數(shù)據(jù)源主要有運營數(shù)據(jù)庫、社交網(wǎng)絡和感知設備 3 大類。針對不同的數(shù)據(jù)源,所采用的數(shù)據(jù)采集方法也不相同。

大數(shù)據(jù)預處理技術

大數(shù)據(jù)預處理技術主要是指完成對已接收數(shù)據(jù)的辨析、抽取、清洗、填補、平滑、合并、規(guī)格化及檢查一致性等操作。

因獲取的數(shù)據(jù)可能具有多種結(jié)構和類型,數(shù)據(jù)抽取的主要目的是將這些復雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的結(jié)構,以達到快速分析處理的目的。

通常數(shù)據(jù)預處理包含 3 個部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換及數(shù)據(jù)規(guī)約。

1. 數(shù)據(jù)清理

數(shù)據(jù)清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音數(shù)據(jù)處理(數(shù)據(jù)中存在錯誤或偏離期望值的數(shù)據(jù))和不一致數(shù)據(jù)處理。

  • 遺漏數(shù)據(jù)可用全局常量、屬性均值、可能值填充或者直接忽略該數(shù)據(jù)等方法處理。
  • 噪音數(shù)據(jù)可用分箱(對原始數(shù)據(jù)進行分組,然后對每一組內(nèi)的數(shù)據(jù)進行平滑處理)、聚類、計算機人工檢查和回歸等方法去除噪音。
  • 對于不一致數(shù)據(jù)則可進行手動更正。

2. 數(shù)據(jù)集成

數(shù)據(jù)集成是指把多個數(shù)據(jù)源中的數(shù)據(jù)整合并存儲到一個一致的數(shù)據(jù)庫中。這一過程中需要著重解決 3 個問題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測與處理。

  • 由于來自多個數(shù)據(jù)集合的數(shù)據(jù)在命名上存在差異,因此等價的實體常具有不同的名稱。對來自多個實體的不同數(shù)據(jù)進行匹配是處理數(shù)據(jù)集成的首要問題。
  • 數(shù)據(jù)冗余可能來源于數(shù)據(jù)屬性命名的不一致,可以利用皮爾遜積矩來衡量數(shù)值屬性,對于離散數(shù)據(jù)可以利用卡方檢驗來檢測兩個屬性之間的關聯(lián)。
  • 數(shù)據(jù)值沖突問題主要表現(xiàn)為,來源不同的統(tǒng)一實體具有不同的數(shù)據(jù)值。數(shù)據(jù)變換的主要過程有平滑、聚集、數(shù)據(jù)泛化、規(guī)范化及屬性構造等。

3. 數(shù)據(jù)規(guī)約

數(shù)據(jù)規(guī)約主要包括數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約和概念分層等。

使用數(shù)據(jù)規(guī)約技術可以實現(xiàn)數(shù)據(jù)集的規(guī)約表示,使得數(shù)據(jù)集變小的同時仍然近于保持原數(shù)據(jù)的完整性。

在規(guī)約后的數(shù)據(jù)集上進行挖掘,依然能夠得到與使用原數(shù)據(jù)集時近乎相同的分析結(jié)果。

大數(shù)據(jù)存儲及管理技術

大數(shù)據(jù)存儲及管理的主要目的是用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應的數(shù)據(jù)庫,并進行管理和調(diào)用。

在大數(shù)據(jù)時代,從多渠道獲得的原始數(shù)據(jù)常常缺乏一致性,數(shù)據(jù)結(jié)構混雜,并且數(shù)據(jù)不斷增長,這造成了單機系統(tǒng)的性能不斷下降,即使不斷提升硬件配置也難以跟上數(shù)據(jù)增長的速度。這導致傳統(tǒng)的處理和存儲技術失去可行性。

大數(shù)據(jù)存儲及管理技術重點研究復雜結(jié)構化、半結(jié)構化和非結(jié)構化大數(shù)據(jù)管理與處理技術,解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關鍵問題。

具體來講需要解決以下幾個問題:海量文件的存儲與管理,海量小文件的存儲、索引和管理,海量大文件的分塊與存儲,系統(tǒng)可擴展性與可靠性。

面對海量的 Web 數(shù)據(jù),為了滿足大數(shù)據(jù)的存儲和管理,Google 自行研發(fā)了一系列大數(shù)據(jù)技術和工具用于內(nèi)部各種大數(shù)據(jù)應用,并將這些技術以論文的形式逐步公開,從而使得以 GFS、MapReduce、BigTable 為代表的一系列大數(shù)據(jù)處理技術被廣泛了解并得到應用,同時還催生出以 Hadoop 為代表的一系列大數(shù)據(jù)開源工具。

從功能上劃分,這些工具可以分為分布式文件系統(tǒng)、NoSQL 數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)。這 3 類系統(tǒng)分別用來存儲和管理非結(jié)構化、半結(jié)構化和結(jié)構化數(shù)據(jù)。

大數(shù)據(jù)處理

大數(shù)據(jù)的應用類型很多,主要的處理模式可以分為流處理模式和批處理模式兩種。批處理是先存儲后處理,而流處理則是直接處理。

1. 批處理模式

Google 公司在 2004 年提出的 MapReduce 編程模型是最具代表性的批處理模式。

MapReduce 模型首先將用戶的原始數(shù)據(jù)源進行分塊,然后分別交給不同的 Map 任務去處理。Map 任務從輸入中解析出 key/value 對集合,然后對這些集合執(zhí)行用戶自行定義的 Map 函數(shù)以得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。Reduce 任務從硬盤上讀取數(shù)據(jù)之后,會根據(jù) key 值進行排序,將具有相同 key 值的數(shù)據(jù)組織在一起。最后,用戶自定義的 Reduce 函數(shù)會作用于這些排好序的結(jié)果并輸出最終結(jié)果。

MapReduce 的核心設計思想有兩點:

  • 將問題分而治之,把待處理的數(shù)據(jù)分成多個模塊分別交給多個 Map 任務去并發(fā)處理。
  • 把計算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計算,從而有效地避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通信開銷。

2. 流處理模式

流處理模式的基本理念是,數(shù)據(jù)的價值會隨著時間的流逝而不斷減少。因此,盡可能快地對最新的數(shù)據(jù)做出分析并給出結(jié)果是所有流處理模式的主要目標。

需要采用流處理模式的大數(shù)據(jù)應用場景主要有網(wǎng)頁點擊數(shù)的實時統(tǒng)計,傳感器網(wǎng)絡,金融中的高頻交易等。

流處理模式將數(shù)據(jù)視為流,將源源不斷的數(shù)據(jù)組成數(shù)據(jù)流。當新的數(shù)據(jù)到來時就立刻處理并返回所需的結(jié)果。

數(shù)據(jù)的實時處理是一個很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)到達、速度快、規(guī)模巨大等特點,因此,通常不會對所有的數(shù)據(jù)進行永久化存儲,同時,由于數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準確掌握整個數(shù)據(jù)的全貌。

由于響應時間的要求,流處理的過程基本在內(nèi)存中完成,其處理方式更多地依賴于在內(nèi)存中設計巧妙的概要數(shù)據(jù)結(jié)構。內(nèi)存容量是限制流處理模式的一個主要瓶頸。

大數(shù)據(jù)分析及挖掘技術

大數(shù)據(jù)處理的核心就是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。

越來越多的應用涉及大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量、速度、多樣性等都引發(fā)了大數(shù)據(jù)不斷增長的復雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。

利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析的常用方法主要有分類、回歸分析、聚類、關聯(lián)規(guī)則等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。

1.分類

分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類。

其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等。

2.回歸分析

回歸分析方法反映的是事務數(shù)據(jù)庫中屬性值在時間上的特征。

該方法可產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預測及數(shù)據(jù)間的相關關系等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。

3.聚類

聚類是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別。

其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應用于客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。

4.關聯(lián)規(guī)則

關聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關系的規(guī)則。即根據(jù)一個事務中某些項的出現(xiàn)可推導出另一些項在同一事務中也會出現(xiàn),即隱藏在數(shù)據(jù)間的關聯(lián)或相互關系。

在客戶關系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關聯(lián)關系,找出影響市場營銷效果的關鍵因素,為產(chǎn)品定位、定價,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據(jù)。

大數(shù)據(jù)展示技術

在大數(shù)據(jù)時代下,數(shù)據(jù)井噴似地增長,分析人員將這些龐大的數(shù)據(jù)匯總并進行分析,而分析出的成果如果是密密麻麻的文字,那么就沒有幾個人能理解,所以我們就需要將數(shù)據(jù)可視化。

圖表甚至動態(tài)圖的形式可將數(shù)據(jù)更加直觀地展現(xiàn)給用戶,從而減少用戶的閱讀和思考時間,以便很好地做出決策。下圖可以清晰地展示大企業(yè)職員相互之間的流向。

可視化技術是最佳的結(jié)果展示方式之一,其通過清晰的圖形圖像展示直觀地反映出最終結(jié)果。

數(shù)據(jù)可視化是將數(shù)據(jù)以不同的視覺表現(xiàn)形式展現(xiàn)在不同系統(tǒng)中,包括相應信息單位的各種屬性和變量。

數(shù)據(jù)可視化技術主要指的是技術上較為高級的技術方法,這些技術方法通過表達、建模,以及對立體、表面、屬性、動畫的顯示,對數(shù)據(jù)加以可視化解釋。

傳統(tǒng)的數(shù)據(jù)可視化工具僅僅將數(shù)據(jù)加以組合,通過不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)信息。

隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)可視化產(chǎn)品已經(jīng)不再滿足于使用傳統(tǒng)的數(shù)據(jù)可視化工具來對數(shù)據(jù)倉庫中的數(shù)據(jù)進行抽取、歸納及簡單的展現(xiàn)。

新型的數(shù)據(jù)可視化產(chǎn)品必須滿足互聯(lián)網(wǎng)上爆發(fā)的大數(shù)據(jù)需求,必須快速收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,并根據(jù)新增的數(shù)據(jù)進行實時更新。因此,在大數(shù)據(jù)時代,數(shù)據(jù)可視化工具必須具有以下特性:

1.實時性

數(shù)據(jù)可視化工具必須適應大數(shù)據(jù)時代數(shù)據(jù)量的爆炸式增長需求,必須快速收集分析數(shù)據(jù),并對數(shù)據(jù)信息進行實時更新。

2.操作簡單

數(shù)據(jù)可視化工具滿足快速開發(fā)、易于操作的特性,能滿足互聯(lián)網(wǎng)時代信息多變的特點。

3.更豐富的展現(xiàn)

數(shù)據(jù)可視化工具需要具有更豐富的展現(xiàn)方式,能充分滿足數(shù)據(jù)展現(xiàn)的多維度要求。

4.多種數(shù)據(jù)集成支持方式

數(shù)據(jù)的來源不僅僅局限于數(shù)據(jù)庫,數(shù)據(jù)可視化工具將支持團隊協(xié)作數(shù)據(jù)、數(shù)據(jù)倉庫、文本等多種方式,并能夠通過互聯(lián)網(wǎng)進行展現(xiàn)。

數(shù)據(jù)可視化技術是一個新興領域,有許多新的發(fā)展。

企業(yè)獲取數(shù)據(jù)可視化功能主要通過編程和非編程兩類工具實現(xiàn)。

主流編程工具包括 3 種類型:從藝術的角度創(chuàng)作的數(shù)據(jù)可視化工具,比較典型的工具是Processing.js,它是為藝術家提供的編程語言。

從統(tǒng)計和數(shù)據(jù)處理的角度創(chuàng)作的數(shù)據(jù)可視化工具,R語言是一款典型的工具,它本身既可以做數(shù)據(jù)分析,又可以做圖形處理。

介于兩者之間的工具,既要兼顧數(shù)據(jù)處理,又要兼顧展現(xiàn)效果,D3.js 是一個不錯的選擇,像 D3.js 這種基于 JavaScript 的數(shù)據(jù)可視化工具更適合在互聯(lián)網(wǎng)上互動式展示數(shù)據(jù)。

責任編輯:梁菲 來源: 職坐標在線
相關推薦

2021-03-03 09:32:21

大數(shù)據(jù)關鍵技術數(shù)據(jù)存儲

2021-04-28 14:58:54

云計算

2018-01-03 00:38:20

大數(shù)據(jù)Hadoop分布式文件系統(tǒng)

2015-09-11 13:54:51

大數(shù)據(jù)關鍵技術

2010-03-22 09:25:57

Python學習筆記

2017-07-20 06:08:04

大數(shù)據(jù)自服務智能化

2019-12-12 09:04:00

5G技術流量

2018-12-04 15:32:09

數(shù)據(jù)處理大數(shù)據(jù)數(shù)據(jù)分析

2023-12-10 10:09:25

Android插件化技術

2020-11-20 14:15:23

大數(shù)據(jù)數(shù)據(jù)存儲

2021-04-08 10:45:37

大數(shù)據(jù)技術安全

2021-04-28 11:33:07

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應用

2017-01-11 09:31:41

2011-04-01 16:12:04

SQL Server數(shù)

2019-07-02 14:16:07

5G承載網(wǎng)網(wǎng)絡

2021-01-27 09:18:50

大數(shù)據(jù)數(shù)據(jù)收集大數(shù)據(jù)分析

2021-06-21 09:35:07

人工智能AI

2022-01-08 21:26:57

元宇宙人工智能區(qū)塊鏈

2023-09-19 09:28:47

AI視覺

2019-09-18 20:28:26

大數(shù)據(jù)數(shù)據(jù)處理數(shù)據(jù)采集
點贊
收藏

51CTO技術棧公眾號