自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

海量數(shù)據(jù)洶涌而來,Hadoop不再一家獨大

大數(shù)據(jù) Hadoop
2017年大數(shù)據(jù)將不再是Hadoop一家獨大,也不再是編程者們的自娛自樂,企業(yè)和終端用戶的不斷涌入,海量數(shù)據(jù)“堆積如山”,隨之而來的儲存、分析、處理成為從業(yè)者的下一挑戰(zhàn)。

[[184033]]

2017年大數(shù)據(jù)將不再是Hadoop一家獨大,也不再是編程者們的自娛自樂,企業(yè)和終端用戶的不斷涌入,海量數(shù)據(jù)“堆積如山”,隨之而來的儲存、分析、處理成為從業(yè)者的下一挑戰(zhàn)。數(shù)據(jù)如何變現(xiàn),價值怎么挖掘?2017大數(shù)據(jù)十大趨勢,興許給你驚艷的解答~

隨著對不同類型、不同體量數(shù)據(jù)的結構化存儲、批量處理以及價值挖掘需求的增多,2016年注定是大數(shù)據(jù)里程碑式的一年。

2017年,支持大量結構化和非結構化數(shù)據(jù)的系統(tǒng)將繼續(xù)增長。市場需要數(shù)據(jù)平臺來幫助數(shù)據(jù)管理人員管理和保護大數(shù)據(jù),同時允許最終用戶進行數(shù)據(jù)分析。這些系統(tǒng)將逐步成熟,在企業(yè)內(nèi)部的IT系統(tǒng)中更好地運行。

1.數(shù)據(jù)處理變得更加快速,數(shù)據(jù)也變得更加易于使用

選項擴展將加速Hadoop

當然,你可以在Hadoop上執(zhí)行機器學習和情緒分析,但人們常常會問的第一個問題是:交互式SQL(結構化查詢語言,一種數(shù)據(jù)庫查詢和程序設計語言,用于存取數(shù)據(jù)以及查詢、更新和管理關系數(shù)據(jù)庫系統(tǒng))究竟有多快?畢竟,SQL相當于企業(yè)用戶的“導管”——他們希望使用Hadoop數(shù)據(jù)來更快的獲得可復用的BI儀表盤(一種向企業(yè)展示度量信息和關鍵業(yè)務指標即KPI現(xiàn)狀的數(shù)據(jù)虛擬化工具),或者是進行一些探索性分析。

這種對速度的需求促使用戶采用訪問速度更快和執(zhí)行效率更高的數(shù)據(jù)庫,如Exasol、MemSQL,或者是類似于Kudu這種基于Hadoop的商店,當然還需要能夠更快查詢數(shù)據(jù)的技術。諸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技術(AtScale,Jethro Data和Kyvos Insights)這樣的數(shù)據(jù)查詢加速器將進一步模糊傳統(tǒng)數(shù)據(jù)庫與大數(shù)據(jù)世界的邊界。

2.大數(shù)據(jù)不再只是Hadoop

專門基于Hadoop開發(fā)的工具已過時

在過去的幾年中,隨著大數(shù)據(jù)浪潮來襲,數(shù)種為了滿足Hadoop分析需求的技術興起。但是,身處復雜,異構環(huán)境中的企業(yè)不再希望僅為一個數(shù)據(jù)源(Hadoop)采用孤立的BI訪問點。他們需要的答案被埋沒在一大堆數(shù)據(jù)源中,從記錄系統(tǒng)到云端,再到來自Hadoop和非Hadoop源的結構化和非結構化數(shù)據(jù)。(順便說一句,甚至連關系型數(shù)據(jù)庫也正在為大數(shù)據(jù)趨勢做準備。例如,SQL Server 2016于近日添加了JSON支持)。

在2017年,客戶將會需要對所有數(shù)據(jù)都進行分析。不依賴于數(shù)據(jù)源的平臺將會茁壯成長,而專為Hadoop而設計的平臺和未能跨應用部署的平臺將被棄用。Platfora的退出便是這一趨勢的預示。

3.相關組織將利用數(shù)據(jù)湖(DataLake)來實現(xiàn)價值

數(shù)據(jù)湖就像一個人造水庫

數(shù)據(jù)湖就像一個人造水庫。首先你要建造一個水壩(構建一個集群),然后填滿水(數(shù)據(jù))。一旦建立了湖泊,你將開始因為各種目的而使用這些水資源(數(shù)據(jù)),如發(fā)電,飲用以及各種消遣(預測分析,機器學習,網(wǎng)絡安全等)。

而今,保有數(shù)據(jù)湖里的數(shù)據(jù)已經(jīng)變成了一種為了保留而保留的行為。在2017年,這將隨著Hadoop業(yè)務的收緊而改變。各個組織要求可重復的并且敏捷地使用數(shù)據(jù)湖,以便更快地獲得響應。在確定對人事、數(shù)據(jù)和基礎設施的相應投資之前,企業(yè)會更加慎重的考慮業(yè)務成果。這將促進業(yè)務和IT之間的強力耦合。而自助服務平臺作為分析大數(shù)據(jù)資產(chǎn)的工具將獲得更深入的認可。

另外,公司還將關注業(yè)務驅(qū)動型應用,避免數(shù)據(jù)湖陷入困境。在2017年,企業(yè)機構將從“構建未來”的數(shù)據(jù)湖應用轉向業(yè)務驅(qū)動型數(shù)據(jù)應用。當今世界需要分析和操作能力去觸及客戶、處理索賠并且連接到個體的不同設備。

舉例而言,任何商業(yè)網(wǎng)站需要提供實時的個性化推薦和價格查詢。醫(yī)療健康型企業(yè)必須處理有效的索賠并且運用分析運營系統(tǒng)來防止索賠欺詐。媒體公司需要通過機頂盒提供個性化的內(nèi)容。汽車制造商和汽車共享公司則要交互運營其車輛和司機。這些案例的實施交付均需要由一個敏捷平臺來實現(xiàn),同時提供分析和運營的處理,跨越后臺分析和前臺運營進行整合,提升了商業(yè)價值。

4.成熟的架構拒絕通用型框架

Hadoop不再只是一個用于數(shù)據(jù)科學用例的批處理平臺。

Hadoop不再只是一個用于數(shù)據(jù)科學用例的批處理平臺。它已經(jīng)成為一種專為特殊分析而架設的多用途分析引擎,甚至被用于日常工作負載的操作報告——傳統(tǒng)上這項任務是由數(shù)據(jù)倉庫(大量數(shù)據(jù)提取和分析的工具)來處理的。

在2017年,各個組織將通過特定的用例的架構設計來滿足現(xiàn)存的混合需求。他們將研究一系列的因素,包括用戶角色模型、訪問頻率、數(shù)據(jù)速度和聚合級別等,然后才能提交合適的數(shù)據(jù)策略。這些現(xiàn)代化的參考架構由需求驅(qū)動,他們將以某種方式將最好的自助服務數(shù)據(jù)準備工具Hadoop核心和最終用戶分析平臺結合起來,以便可以根據(jù)這些需求進行重新配置。這些架構的靈活性將最終推動技術選擇。

5.推動大數(shù)據(jù)投資的是數(shù)據(jù)的多樣性,而不是體量和速

Gartner將大數(shù)據(jù)定義為“三高”

Gartner將大數(shù)據(jù)定義為“三高”:高容量,高速率,高品類的信息資產(chǎn)。正如New Vantage Partners最近的一項調(diào)查結果所示:雖然三個特性都在凸顯,但其中,多元化無疑正成為大數(shù)據(jù)投資的主導推動力。

隨著企業(yè)尋求整合更多來源并關注大數(shù)據(jù)的“長尾”,這一趨勢將更加明顯。從自由模式的JSON到嵌入式的數(shù)據(jù)庫(如關系數(shù)據(jù)庫和非關系數(shù)據(jù)庫),到非平面數(shù)據(jù)(如Avro,Parquet,XML),數(shù)據(jù)格式正在成倍增長,連接器變得至關重要,它將不同格式的數(shù)據(jù)變成統(tǒng)一的表達/它讓不同格式的數(shù)據(jù)之間實現(xiàn)互通。在2017年,為零散的、不同的資源提供即時連接的能力,將成為評估一個平臺能力的重要方面。

6.Spark和機器學習打通大數(shù)據(jù)的任督二脈

Apache Spark曾是Hadoop生態(tài)系統(tǒng)的一個組件,現(xiàn)在正成為大數(shù)據(jù)平臺企業(yè)的首選。

在對數(shù)據(jù)架構師、IT經(jīng)理和BI分析師的調(diào)查中,近70%的受訪者表示,現(xiàn)有的MapReduce里邊最青睞Spark,它是批量導向的并行處理,但不適合交互式應用程序或?qū)崟r流處理。

這些以大數(shù)據(jù)為基礎的超級計算能力為計算密集型的平臺提供了極大的助力,如:機器學習(ML)、人工智能(AI)、圖形算法等。尤其對于Microsoft Azure 機器學習,由于上述計算能力也完全適用于初學者,并能迅速集成到現(xiàn)有的Microsoft平臺。向大眾開放機器學習將有助于創(chuàng)建更多的模型和應用程序來生成PB級數(shù)據(jù)。隨著機器學習和系統(tǒng)日益智能化,自助服務軟件提供商們是時候要挖掘一下大數(shù)據(jù)的力量如何變現(xiàn)到最終用戶身上。

7.物聯(lián)網(wǎng)、云服務和大數(shù)據(jù)集結起來便是自助服務的新機遇

在2017年,似乎一切都將有一個傳感器把信息送回主體

IoT正在生成大量的結構化和非結構化數(shù)據(jù),而且越來越多的數(shù)據(jù)部署在云服務上。數(shù)據(jù)通常是異構的,并且存在于多個關系和非關系系統(tǒng)中,如Hadoop集群、非關系數(shù)據(jù)庫等。

雖然存儲和管理服務的創(chuàng)新加快了數(shù)據(jù)獲取的步伐、進程程,但訪問和理解數(shù)據(jù)本身仍然是棘手的“最后一米”。因此,對于無縫連接和組合各種云托管數(shù)據(jù)源的分析工具的需求正在增長。這樣的工具使企業(yè)實現(xiàn)了大數(shù)據(jù)庫的即時調(diào)取和可視化管理,,從而幫助物聯(lián)網(wǎng)投資者挖掘隱藏的機會。

8.在最終用戶驅(qū)動下,自助數(shù)據(jù)預處理走向主流

Hadoop數(shù)據(jù)如何走進企業(yè)用戶,是當下最大的挑戰(zhàn)之一。

Hadoop數(shù)據(jù)如何走進企業(yè)用戶,是當下最大的挑戰(zhàn)之一。自助服務分析平臺的興起改善了這一過程。但企業(yè)用戶希望進一步簡化數(shù)據(jù)分析的流程,尤其在處理多種數(shù)據(jù)類型和格式時,這一訴求更加明顯。

敏捷的自助服務數(shù)據(jù)預處理工具不僅可以在源處預處理Hadoop數(shù)據(jù),而且還使數(shù)據(jù)作為快照來用,從而進行簡易便捷的進一步處理。

我們已經(jīng)看到了的一大批面向終端用戶的大數(shù)據(jù)預處理創(chuàng)新, Alteryx、Trifacta和Paxata。這些工具降低了后期Hadoop采用者和初學者的進入門檻,并將在2017年體現(xiàn)更大價值。

9.大數(shù)據(jù)成長:Hadoop增加了企業(yè)標準

Hadoop將逐漸成為企業(yè)IT環(huán)境的核心部分。

Hadoop將逐漸成為企業(yè)IT環(huán)境的核心部分。在2017年,我們將看到圍繞企業(yè)系統(tǒng)的安全、管理成為投資熱地的更多投資。ApacheSentry提供了一個系統(tǒng),在這個系統(tǒng)中,我們可以強制對元數(shù)據(jù)進行細致的、按需分配的授權。

作為數(shù)據(jù)管理的一項重大創(chuàng)舉,Apache Atlas,讓企業(yè)可以在繁雜的數(shù)據(jù)生態(tài)系統(tǒng)中實行統(tǒng)一的數(shù)據(jù)分類。Apache Ranger為Hadoop提供集中式安全管理。

客戶開始期望從企業(yè)級RDBMS平臺獲得這些類型的功能。這些功能走在新興大數(shù)據(jù)技術的前沿,從而消除了企業(yè)關于技術迭代而被淘汰方面的擔憂。

Hadoop對數(shù)據(jù)進行細致管理、按需分配的實例

Last.fm創(chuàng)建于2002年,是提供網(wǎng)絡電臺和音樂服務的社交網(wǎng)絡。每個月有2500萬人使用,產(chǎn)生大量數(shù)據(jù)。2006年初,Last.fm開始使用Hadoop。Hadoop是Last.fm基礎平臺的關鍵組件,有2個Hadoop集群,運行數(shù)百種各種日常作業(yè),包括日志文件分析,A/B測試評測,即時處理和圖表生成。

圖表生成:圖表生成是Hadoop在Last.fm的第一個應用。

數(shù)據(jù)從哪里來:Last.fm有兩種收聽信息:用戶播放自己的音樂,如pc或者其他設備mp3,這種信息通過Last.fm的客戶端或者第三方應用發(fā)送到Last.fm,這一類叫scrobble收藏數(shù)據(jù);用戶收聽Last.fm網(wǎng)絡電臺的節(jié)目,以及聽節(jié)目時候的喜愛,跳過,禁止等操作信息,這一類叫radio listen電臺收聽數(shù)據(jù)。

數(shù)據(jù)存儲:收聽數(shù)據(jù)被發(fā)送到Last.fm,經(jīng)歷驗證和轉換,形成一系列有空格分隔的文本文件,包含用戶id-userid,音樂id-trackid,這首音樂被收藏的次數(shù)scrobble,這首音樂在電臺中收聽的次數(shù)radio,被跳過的次數(shù)skip。真實數(shù)據(jù)達到GB級別,有更多屬性字段。

數(shù)據(jù)處理:

Unique Listeners作業(yè):統(tǒng)計收聽某一首歌的不同用戶數(shù),也就說說,有多少個用戶聽過某個歌,如果用戶重復收聽,只算一次。

Sum作業(yè):每首歌的收聽總數(shù),收藏總數(shù),電臺收聽總數(shù),被跳過的總數(shù)。

合作作業(yè):每首歌被多少用戶收聽總數(shù),收聽總數(shù),收藏總數(shù),電臺收聽總數(shù),被跳過的總數(shù)等。

最后,這些數(shù)據(jù)會被作為周排行榜等在Last.fm主站上顯示出來。

Hadoop大數(shù)據(jù)技術案例

讓Hadoop和其他大數(shù)據(jù)技術如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。包括谷歌,F(xiàn)acebook、LinkedIn還在內(nèi)的諸多巨頭,都在幫助Hadoop改善運營效率。具體包括包括:

情感分析: Hadoop與先進的文本分析工具結合,分析社會化媒體和社交網(wǎng)絡發(fā)布的非結構化的文本,包括Tweets和Facebook,以確定用戶對特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細分到個人用戶的情緒。

風險建模: 財務公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風險,模擬市場行為為潛在的“假設”方案做準備,并根據(jù)風險為潛在客戶打分。

欺詐檢測: 金融公司、零售商等使用大數(shù)據(jù)技術將客戶行為與歷史交易數(shù)據(jù)結合來檢測欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術識別可能的被盜卡的交易行為。

客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競爭關系的供應商或服務商。企業(yè)就能采取最有效的措施挽留欲流失客戶。

用戶體驗分析: 面向消費者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術將之前單一 客戶互動渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, 以獲得對客戶體驗的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個客戶生命周期的用戶體驗。

10.元數(shù)據(jù)目錄的建立幫助篩選出具有分析價值的數(shù)據(jù)

很長一段時間以來,公司拋棄了數(shù)據(jù),因為他們認為海量的數(shù)據(jù)處理起來確實無從下手。

很長一段時間以來,公司拋棄了數(shù)據(jù),因為他們認為海量的數(shù)據(jù)處理起來確實無從下手。用Hadoop當然也可以處理大量的數(shù)據(jù),但是這些數(shù)據(jù)仍然沒有一個清晰的分類、易追溯的架構。

元數(shù)據(jù)目錄可以幫助用戶發(fā)現(xiàn)和理解哪些數(shù)據(jù)需要使用自助服務工具進行分析??蛻舻倪@種需求正被Alation和Waterline這樣的公司填補,它們使用機器學習來自動篩選Hadoop需要分析的數(shù)據(jù):

如,使用標簽對文件進行編目,標明數(shù)據(jù)資產(chǎn)之間的關聯(lián),必要時還會提供搜索UI給出的查詢建議。這大大縮短了數(shù)據(jù)使用者和管理者取得信任、查找以及準確查詢數(shù)據(jù)的時間。在2017年,作為自助服務的自然延伸,我們將看到更多企業(yè)意識到自助分析的重要性,以及對其迫切的需求。

責任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關推薦

2015-01-12 09:15:19

DockerRocketSpoon

2019-05-21 09:28:17

谷歌Android開發(fā)者

2011-08-08 11:16:58

艾媒咨詢手機系統(tǒng)

2018-11-20 11:03:48

微軟谷歌云亞馬遜

2017-02-27 16:49:48

大數(shù)據(jù)趨勢

2016-04-21 10:40:17

友盟+大數(shù)據(jù)全域大數(shù)據(jù)報告

2018-09-21 10:35:13

小程序小游戲微信

2023-05-10 09:35:52

芯片AI

2011-03-29 11:21:14

中國網(wǎng)絡經(jīng)濟和商業(yè)模式電子商務

2013-07-08 15:03:03

Bing微軟谷歌

2023-10-08 13:56:00

英偉達芯片AI

2018-04-10 04:58:27

5G運營商網(wǎng)絡

2019-03-20 16:34:46

網(wǎng)易云微光多閃

2013-11-19 16:17:23

2022-06-09 15:27:01

編輯器Github

2021-04-14 06:19:29

PythonPillow圖片處理模塊

2009-09-21 08:53:11

Office Webgoogle doc

2017-08-17 10:31:51

CDN牌照CDN企業(yè)網(wǎng)絡

2017-02-24 09:40:21

互聯(lián)網(wǎng)

2009-11-20 09:05:56

Chrome OS系統(tǒng)格局
點贊
收藏

51CTO技術棧公眾號