大數(shù)據(jù)時代可能影響你的7個商業(yè)趨勢
我們已經(jīng)看到了許多這樣的案例出現(xiàn)企業(yè)愿意分享他們在大數(shù)據(jù)使用上取得的成就。在IT行業(yè)任何的范式轉(zhuǎn)變(paradigmshift),一個特定的主題吸引新聞媒體、投資者和創(chuàng)新人才的大量關(guān)注,這個轉(zhuǎn)變需求很強的商業(yè)價格的支持。這個典型的案例是:客戶服務(wù)、分布式計算和以服務(wù)為導(dǎo)向的架構(gòu)與語言,例如:JAVA.
我們也看到了一個有益的生態(tài)系統(tǒng)的出現(xiàn),迅速的贊美或擴展能力的核心支持技術(shù),在大數(shù)據(jù)案例中,大數(shù)據(jù)生態(tài)系統(tǒng)已經(jīng)迅速集中一批技術(shù)提供者,例如:Hadoop,Cassandra,Accumulo,Oracle,IBM.
那么在大數(shù)據(jù)的生態(tài)系統(tǒng)中我可以看到哪些趨勢會出現(xiàn)?
在Hadoop上對于sql擴展性和一致性。
有一大批的技術(shù)公司努力構(gòu)建一種no-sql技術(shù),從而為大數(shù)據(jù)提供解決方案例如:Hadoop。但是對于sql語言支持的深度與廣度各不相同,然而使用sql專業(yè)分析人員可以使用這些優(yōu)點從而很好的通過sql語言來操作大數(shù)據(jù)。目前案例包括:Hadapt,Impala,TeradataAsterandEMCGreenplumsPivotalHD.
(譯者注:由于目前的大數(shù)據(jù)存儲都不是基于關(guān)系型數(shù)據(jù)庫的,所以傳統(tǒng)通過sql語言來操作數(shù)據(jù)的方式無法直接使用,例如:對于Hadoop存儲的數(shù)據(jù)是無法直接通過sql來查詢的。因而需要把傳統(tǒng)的sql語言進行中間轉(zhuǎn)換從而進行操作,例如:Hadoop中hive,就是相當于將sql轉(zhuǎn)換成MapReduce,從而去讀取、操作Hadoop上的數(shù)據(jù)。)
對于結(jié)構(gòu)化、非結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一支持。
隨時非結(jié)構(gòu)化數(shù)據(jù)的增長,IDC公司預(yù)測了數(shù)據(jù)的數(shù)量,大多數(shù)據(jù)的將以非結(jié)構(gòu)化的形式存儲,每天將增長40%-50%.到2020年,總體的數(shù)據(jù)量將達到40ZB.非結(jié)構(gòu)化的數(shù)據(jù)主要來源于:郵件、論壇、博客、社交網(wǎng)絡(luò)、POS系統(tǒng)和機器生成的數(shù)據(jù)。為了獲取和分析這些大數(shù)據(jù)量的數(shù)據(jù),創(chuàng)新人員必須擴展他們的大數(shù)據(jù)解決方案,而不能僅僅適用于其中一個。
優(yōu)化檢索。
從海量的數(shù)據(jù)中發(fā)現(xiàn)之前用戶的真正搜索需要,在之前就像大海撈針基本上不可能的。但是隨時時間發(fā)展,越來越多把大數(shù)據(jù)的解決方案融入到檢索支持中。在這方面中領(lǐng)先者有:LucidWorks,IBM,Oracle(其通過收購Endeca)AutonomyandMarkLogic。其中LucidWorks結(jié)合了一個開源的堆Lucene和Solr,Hadoop,Mahout和NLP。
ETL的擴展與支持
許多人都認為Hadoop最開始的使用安全是用于ETL因為其批處理的功能。然而,如果你看到基于etl解決方案進行與維護的復(fù)雜Hadoop平臺的所有的基礎(chǔ)設(shè)施,你可以會使用其它的純情etl工具(Informatica,Talend,Syncsort,CloverETL)來解決。多年來這些公司這些公司努力在建立最值組合的ETL解決方案,現(xiàn)在更多我們把其稱作為:數(shù)據(jù)整合解決方案。
純粹的ETL提供商正努力為大數(shù)據(jù)提供解決方案。這些支持不難包括:ETL,而且包括ELT那些從Hadoop內(nèi)部轉(zhuǎn)化為Hadoop。這會使公司使用構(gòu)建這樣的環(huán)境,使用純ETL的解決方案及Hadoop本身強大的功能。隨著時間的發(fā)展,這些純ELT的公司起的支持的大數(shù)據(jù)的解決方案范圍包括從:NewSQL與NoSQL。
另外,我期望許多的大數(shù)據(jù)解決方案公司可以嵌入對于ETL與ELT的支持,就像許多傳統(tǒng)的數(shù)據(jù)庫供應(yīng)商已經(jīng)通過嵌入或收購ETL解決方案。
大數(shù)據(jù)運動趨穩(wěn)
在我之前的文章寫到,以Apache為開源框架的Hadoop已被使用使用在以批處理為導(dǎo)向海量的分布式環(huán)境中,特別是以分析為背景的情況下。隨時企業(yè)開始關(guān)注如何支配和利用海量的數(shù)據(jù)資源用于實時決策,我們預(yù)計會對于'大數(shù)據(jù)運動'影響和增長有重要幫忙。這個“落地”代表的實時的信息流用于處理大數(shù)據(jù)流,在各個行業(yè):包括資本市場、醫(yī)療7、能源和社會化媒體。
增加數(shù)據(jù)挖掘和分析技術(shù)。
在大數(shù)據(jù)領(lǐng)域的行業(yè)領(lǐng)域者知道需要在他們平臺上擴展在數(shù)據(jù)分析與統(tǒng)計功能的需求。除了一般的分析功能還增加非常的數(shù)據(jù)挖掘功能。TeradataAste包括很多的分析功能,具體包括支持統(tǒng)計、文本挖掘、圖像、情感分析等。其它的公司例如IBMNetezza已經(jīng)加入了對于R語言的支持,可以支持R的各類包,例如:并行運算算法包、矩陣相關(guān)包。未來我們可以看到大數(shù)據(jù)解決方案將會不斷的大量增加這種功能。
從R語言中獲利。
毫無疑問R語言將會是越來流行的開源統(tǒng)計語言。RevolutionAnalytics公司在開發(fā)用于“工業(yè)”使用的R版本上,性能上有顯著的增強和滿足其它企業(yè)的特征。更進一下,他們已經(jīng)開發(fā)出了可以適用于Hadoop、PureData的R擴展包。大學里也大量開設(shè)的R語言方面的課程,讓更多的學生擁有使用R語言的能力,也讓他們具備在處理復(fù)雜的統(tǒng)計分析方面的能力??梢灶A(yù)見R會被包括在許多大數(shù)據(jù)的解決方案中,而且會顯著改進該語言從而讓其有更好的性能。
隨時大數(shù)據(jù)生態(tài)系統(tǒng)的發(fā)展,相關(guān)的產(chǎn)業(yè)必然伴隨其發(fā)展。在今天的市場競爭環(huán)境中,那些實施以數(shù)據(jù)驅(qū)動戰(zhàn)略的公司將在競爭中取得優(yōu)勢。