除了Hadoop,其他6個你必須知道的熱門大數(shù)據(jù)技術(shù)!
你知道新的市場領(lǐng)導(dǎo)者和曾經(jīng)的領(lǐng)導(dǎo)者之間的關(guān)鍵區(qū)別是什么嗎?
那就是“數(shù)據(jù)管理”。任何無法處理數(shù)據(jù)并將其投入使用的企業(yè),很可能會讓位給那些能夠更好處理數(shù)據(jù)的。
事實上,大數(shù)據(jù)和其流動性的力量能促使企業(yè)發(fā)展。
大數(shù)據(jù)是大量數(shù)據(jù)的術(shù)語。由于數(shù)據(jù)的來源渠道眾多,導(dǎo)致其太多樣,太龐大,傳統(tǒng)技術(shù)難以處理。這使得利用技術(shù)和基礎(chǔ)設(shè)施對其進行有效處理十分重要。
這些數(shù)據(jù)必須通過計算來分析,以揭示模式和趨勢,從而有助于市場和推廣活動。
以下是一些企業(yè)機構(gòu)利用大數(shù)據(jù)的例子:
• 政府組織通過緊跟社交媒體的動向,從而了解新疾病的出現(xiàn)和爆發(fā)的信息。
石油和天然氣公司將鉆探設(shè)備與傳感器集成在一起,以確保安全和促進更有效的鉆探。
零售商緊跟網(wǎng)絡(luò)點擊動向,并識別行為趨勢來從而改進廣告活動。
下面,讓我們來看一下目前可以促進商務(wù)的流行大數(shù)據(jù)技術(shù):
1. Apache Spark
Apache Spark 作為大型數(shù)據(jù)處理的最快和通用的引擎,具備流媒體、機器學(xué)習(xí)、圖形處理和 SQL 支持的內(nèi)置模塊。它支持所有重要的大數(shù)據(jù)語言,包括 Python、Java、R 和 Scala。
它補充了 Hadoop 最初出現(xiàn)的主要意圖。數(shù)據(jù)處理中的主要關(guān)注點是速度,所以需要減少查詢間的等待時間和運行程序所需的時間。
盡管 Spark 被用來加速 Hadoop 的計算軟件過程,但它并不是后者的擴展。實際上,Spark 使用 Hadoop 有兩個主要目的——存儲和處理。
Apache Spark 對旨在實時跟蹤欺詐性交易的公司來說是一大福音,例如,金融機構(gòu)、電子商務(wù)行業(yè)和醫(yī)療保健。假設(shè)你的錢包丟了,同時信用卡被盜刷了一大筆錢,那么該技術(shù)可以幫助你及時掌握卡被盜刷的時間和地點。
2. Apache Flink
如果你知道 Apache Spark 和 Apache Hadoop,那么你很可以也聽過 Apache Flink 。Flink 是由德國柏林工業(yè)大學(xué)的 Volker Markl 教授創(chuàng)建的一個社區(qū)驅(qū)動開源框架。在德語中,F(xiàn)link 的意思是“敏捷的”,具有高性能和極其精確的數(shù)據(jù)流。
Flink 的功能受到 MPP 數(shù)據(jù)庫技術(shù)(如聲明性、查詢優(yōu)化器、并行內(nèi)存、外核算法)和Hadoop MapReduce 技術(shù)(如大規(guī)模擴展、用戶定義函數(shù)、閱讀模式)等功能的啟發(fā)。
3. NiFi
NiFi 是一種強大且可拓展的工具,它能夠以最小的編碼和舒適的界面來存儲和處理來自各種數(shù)據(jù)源的數(shù)據(jù)。這還不是全部,它還可以輕松地不同系統(tǒng)之間的數(shù)據(jù)流自動化。如果 NiFi 不包含你需要的任何源,那么通過簡潔的 Java 代碼你可以編寫自己的處理器。
NiFi 的專長在于數(shù)據(jù)提取,這是過濾數(shù)據(jù)的一個非常有用的手段。由于 NiFi 是美國國家安全局的項目,其安全性也是值得稱道的。
4. Kafka
Kafka 是必不可少的,因為它是各種系統(tǒng)之間的強大粘合劑,從 Spark,NiFi 到第三方工具??梢詫崿F(xiàn)高效的數(shù)據(jù)流實時處理。Kafka 具有開放源碼,可水平伸縮,有容錯能力,快速安全的特點。
作為一個分布式系統(tǒng),Kafka 存儲消息在不同主題中,并且主題本身在不同的節(jié)點上進行分區(qū)和復(fù)制。
當(dāng) Kafka 最初是建立在 LinkedIn 的分布式消息系統(tǒng),但如今是 Apache 軟件基金會的一部分,并被成千上萬的公司使用。
Pinterest(照片分享網(wǎng)站,堪稱圖片版的Twitter) 使用 Apache Kafka。該公司建立了名為 Secor 的平臺,使用 Kafka、Storm 和 Hadoop 來進行實時數(shù)據(jù)分析,并將數(shù)據(jù)輸入到 MemSQL 中。
5. Apache Samza
Apache Samza 主要目的是為了擴展 Kafka 的能力,并集成了容錯、持久消息、簡單 API、托管狀態(tài)、可擴展、處理器隔離和可伸縮的特性。
在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流qq裙: 957205962, 裙 里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份2018最新的大數(shù)據(jù)進階資料和高級開發(fā)教程,歡迎進階中和進想深入大數(shù)據(jù)的小伙伴。
它使用 Apache Hadoop YARN 用于容錯,同時使用 Kafka 進行通訊。因此,可以說它是一個分布式流處理框架。它還提供了一個可插入的 API 來運行 Samza 和其他通訊系統(tǒng)。
6. Cloud Dataflow
Cloud Dataflow 是谷歌的云數(shù)據(jù)處理服務(wù),它集成了基于批處理和流數(shù)據(jù)處理任務(wù)的簡單編程模型。
使用這個工具,無需擔(dān)心操作任務(wù),包括性能優(yōu)化和資源管理。通過其完全托管的服務(wù),可以動態(tài)地提供資源以保持較高的利用率,同時使延遲最小化。
同時通過其統(tǒng)一編程模型方法,無需擔(dān)心編程模型轉(zhuǎn)換成本的。這種方法有助于批量和連續(xù)的流處理,使其易于表達計算需求,同時無需擔(dān)心數(shù)據(jù)源。
大數(shù)據(jù)生態(tài)系統(tǒng)不斷發(fā)展,新技術(shù)頻頻出現(xiàn),其中許多技術(shù)進一步發(fā)展,超出了 hadoop - spark 集群。這些工具可以用來確保與安全和管理的無縫工作。
數(shù)據(jù)工程師需要利用這些工具來提取、清理和設(shè)置數(shù)據(jù)模式,以幫助數(shù)據(jù)科學(xué)家徹底地探究和檢查它們,并構(gòu)建模型。