當(dāng)大數(shù)據(jù)遇到敏捷,會(huì)發(fā)生什么
今年九月在紐約的O’Reilly媒體會(huì)議上大數(shù)據(jù)技術(shù)有兩大呼聲:企業(yè)級(jí)和敏捷。我們知道企業(yè)級(jí)的商務(wù)智能產(chǎn)品有Oracle Hyperion、SAP BusinessObjects和IBM Cogonos,而敏捷產(chǎn)品有QlikView、Tableau和TIBCO Spotfire。
如果事實(shí)證明大數(shù)據(jù)必須購(gòu)買企業(yè)級(jí)的產(chǎn)品,那么就意味著大數(shù)據(jù)會(huì)花大本錢。但這并非絕對(duì),通過(guò)使用大數(shù)據(jù)敏捷技術(shù),各種規(guī)模的企業(yè)都可以控制成本,從大數(shù)據(jù)中獲益。至關(guān)重要的是盡可能降低成本并***化的了解大數(shù)據(jù)集,一旦數(shù)據(jù)被轉(zhuǎn)化為可用便具有對(duì)業(yè)務(wù)的洞察力,然后以各種方式將問(wèn)題匯總,并發(fā)揮企業(yè)技術(shù)的優(yōu)勢(shì)解決問(wèn)題。
企業(yè)級(jí) VS 敏捷BI
首先讓我們來(lái)看看BI世界里發(fā)生了什么。企業(yè)級(jí)BI設(shè)計(jì)的意圖是為了滿足大型企業(yè)中許多信息孤島的要求。典型場(chǎng)景如下:信息孤島中的數(shù)據(jù)通過(guò)ETL 的過(guò)程被清洗和規(guī)范化,進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)中,成為一個(gè)可用的版本。然后,通過(guò)報(bào)表和分析技術(shù),數(shù)據(jù)被切片、切塊,并交付給成千上萬(wàn)的人。企業(yè)級(jí)BI是一個(gè)復(fù)雜的過(guò)程,它通過(guò)多種應(yīng)用程序的協(xié)同工作,以滿足企業(yè)中成千上萬(wàn)人的需求。企業(yè)級(jí)BI的問(wèn)題是它的配置需要花費(fèi)很長(zhǎng)時(shí)間,所有大型的復(fù)雜系統(tǒng)都十分難以配置和改動(dòng)。
敏捷BI可以解決企業(yè)BI所面對(duì)的諸多問(wèn)題。敏捷BI可以以高度互動(dòng)的方式為最終用戶排序、篩選和統(tǒng)計(jì)數(shù)據(jù),而不需要BI專家的指導(dǎo)。企業(yè)采用敏捷BI技術(shù),可以更廣泛的享受數(shù)據(jù)所體現(xiàn)的價(jià)值。
企業(yè)級(jí) VS 敏捷的大數(shù)據(jù)
現(xiàn)在是大數(shù)據(jù)技術(shù)出場(chǎng)的時(shí)候了,EMC Greenplum、Teradata Aster Data等是企業(yè)級(jí)的代表,而1010data、Pervasive DataRush等則是敏捷的代表。這兩類廠商都意識(shí)到了企業(yè)級(jí)和敏捷在BI領(lǐng)域的鴻溝,并努力解決這個(gè)問(wèn)題。企業(yè)級(jí)大數(shù)據(jù)供應(yīng)商知道他們需要敏捷,而敏捷的大數(shù)據(jù)廠商知道他們需要提供高質(zhì)量的企業(yè)級(jí)解決方案。
企業(yè)級(jí)大數(shù)據(jù)供應(yīng)商推出了一些靈活性解決方案。Greenplum推出了一個(gè)名為Chorus的產(chǎn)品,以提供一個(gè)協(xié)作環(huán)境,支持?jǐn)?shù)據(jù)分析和查找的過(guò)程。Aster提供了一系列SQL擴(kuò)展,允許Hadoop類型的查詢使用類似與SQL的語(yǔ)法。在實(shí)現(xiàn)敏捷方面,這些產(chǎn)品的擴(kuò)展是很大的進(jìn)步,但對(duì) Greenplum和Aster企業(yè)級(jí)技術(shù)所帶來(lái)的高昂價(jià)格標(biāo)簽,人們更感興趣的問(wèn)題是:能否以敏捷的大數(shù)據(jù)技術(shù)彌補(bǔ)企業(yè)級(jí)技術(shù)的不足,以更少的投資獲得更多的回報(bào)?
敏捷的大數(shù)據(jù)解決企業(yè)級(jí)平臺(tái)的難題
回頭看看我們所提到的三種敏捷的大數(shù)據(jù)技術(shù),首先的問(wèn)題是:它們?yōu)槭裁幢环Q作是敏捷的?
答案其實(shí)很簡(jiǎn)單,它們可以讓用戶獲取非凡的數(shù)據(jù)洞察力,并削減價(jià)格。如下:
- 只需經(jīng)過(guò)些許培訓(xùn),用戶就可以使用Splunk進(jìn)行數(shù)據(jù)的查詢、篩選和顯示
- 1010data以電子表格的形式為用戶提供大數(shù)據(jù)的處理界面
- Pervasive DataRush以圖形界面并行、高效地處理數(shù)據(jù)
一個(gè)敏捷的大數(shù)據(jù)在大批量處理中的案例
David Inbar是Pervasive的市場(chǎng)發(fā)展戰(zhàn)略辦公室的***執(zhí)行官,在價(jià)格低廉的做了一個(gè)實(shí)驗(yàn)演示,處理了足夠龐大的可稱之為大數(shù)據(jù)的數(shù)據(jù)。
DataRush的工具包消除了程序員并行編程的復(fù)雜度。即便是科技狂人,相對(duì)編寫一個(gè)單線程的程序,并行編程也無(wú)異于是火箭科學(xué)。 DataRush為并行編程提供了一種編程模型,以替代艱難的多核函數(shù)編碼。比如,你可以編寫一個(gè)基于組件模型的工作流應(yīng)用程序,該工具包會(huì)自動(dòng)將其轉(zhuǎn)化為該工作流所允許的并行應(yīng)用程序。
大數(shù)據(jù)系統(tǒng)如Hadoop具有橫向擴(kuò)展性。雖然DataRush可以承擔(dān)此類角色,并能在數(shù)千臺(tái)計(jì)算機(jī)中安裝,但是它的不同之處在于它一般在一臺(tái)計(jì)算機(jī)中安裝,用以發(fā)掘多核系統(tǒng)的潛能。
DataRush最有特色的功能是它并不需要你知道計(jì)算機(jī)究竟有多少個(gè)核,當(dāng)編寫一個(gè)DataRush應(yīng)用程序時(shí),它會(huì)自動(dòng)感知計(jì)算機(jī)上核心的數(shù)目,并***限度地利用,以進(jìn)行并行處理。
將敏捷組件集合起來(lái)構(gòu)建企業(yè)級(jí)系統(tǒng)
敏捷技術(shù)在針對(duì)大數(shù)據(jù)創(chuàng)建智能業(yè)務(wù)系統(tǒng)方面具有極大優(yōu)勢(shì),但仍然有相當(dāng)長(zhǎng)的路要走。敏捷BI能夠降低成本,面對(duì)大數(shù)據(jù)的挑戰(zhàn),它將證明它的價(jià)值。