BigQuery谷歌企業(yè)級大數(shù)據(jù)分析平臺初體驗
作者將在本文中介紹一些BigQuery的基本情況,并結(jié)合Paras Doshi最近撰寫的關(guān)于BigQuery的一些使用體會,對BigQuery來一個深入了解。
什么是BigQuery ?
BigQuery是真正為大數(shù)據(jù)而生的企業(yè)級云計算產(chǎn)品,其核心是云平臺的一項基礎(chǔ)服務(wù)(PaaS),用于對TB級別的大數(shù)據(jù)進(jìn)行實時的分析處理。
單純從技術(shù)上來看,BigQuery就是一個在云端的SQL服務(wù)(類SQL),提供對海量數(shù)據(jù)的實時分析;據(jù)Google工程師所說,其處理5個TB數(shù)據(jù),15秒即可返回結(jié)果。
另外,BigQuery是一項付費服務(wù),旨在企業(yè)需要大規(guī)模數(shù)據(jù)分析,又無需承擔(dān)硬件設(shè)備的投資的情況下開展大數(shù)據(jù)業(yè)務(wù)。每月每1GB數(shù)據(jù)的存儲費用是12美分;實時分析服務(wù)每月每處理1GB數(shù)據(jù)收費3.5美分,每月前100GB的實時數(shù)據(jù)分析免費。
Google BigQuery價格表
詳細(xì)價格表請參考:https://developers.google.com/bigquery/docs/pricing
BigQuery初體驗——快!
Paras Doshi在博客中寫到他對BigQuery做了一個簡單的測試,在一個具有115000000行數(shù)據(jù)的實例中分別使用max、mean、avg等進(jìn)行查詢(或計算),BigQuery都會在幾秒內(nèi)返回結(jié)果;并且其中一些包含相對比較復(fù)雜的查詢,比如where、joins或group by。
事實上,查詢所返回結(jié)果的效率還取決于查詢的類型和SQL語句的效率,但無論如何,結(jié)果總是以超乎想象的速度返回。
關(guān)于數(shù)據(jù)源支持——悲催!
BigQuery很快,但還有一個問題,如何將TB級的大數(shù)據(jù)上傳到Google云存儲上面。當(dāng)然,不只是Google,這也是每個基于大數(shù)據(jù)的云存儲服務(wù)所面臨的問題。
更現(xiàn)實的問題是,如果已經(jīng)有數(shù)據(jù)在Amazon S3或微軟的云存儲上,這些數(shù)據(jù)是否可以供BigQuery調(diào)用來進(jìn)行分析?
答案是,呃,還不行(這點Google做的沒微軟好,微軟Azure上的Hadoop允許Amazon S3上的數(shù)據(jù)作為數(shù)據(jù)源)。甚至,如果你有數(shù)據(jù)在GAE上,你也需要單獨的將數(shù)據(jù)上傳到BigQuery,至少目前是這樣。
另外一個悲催的地方在于,BigQuery也無法支持Hadoop高級安裝(比如Hadoop on Azure或Amazon elastic MapReduce)。
還有就是,BigQuery只支持CSV格式。當(dāng)我們談?wù)摯髷?shù)據(jù)時,我們總是把Variability(數(shù)據(jù)多樣化)當(dāng)成最重要的一點來討論,很顯然,BigQuery所支持的數(shù)據(jù)類型還不夠多樣,或者說,非常單一。
總結(jié)
從篇幅上看,貌似BigQuery的缺點多于優(yōu)點。但從大數(shù)據(jù)的處理能力上來看,其TB級數(shù)據(jù)查詢結(jié)果秒出的效率還是讓人驚嘆的。
另外,更重要的一點是,低門檻和低成本。使用類SQL語言進(jìn)行數(shù)據(jù)分析,花上幾美元就得到Google服務(wù)器集群的性能,這些都大大降低了大數(shù)據(jù)業(yè)務(wù)的成本。至少你有一種廉價的方案來回答《關(guān)于大數(shù)據(jù) CEO們需要了解的五個問題》一文中老板們關(guān)于大數(shù)據(jù)成本的擔(dān)憂。
還有一點是關(guān)于數(shù)據(jù)上傳這個老大難問題。Paras Doshi在測試中使用了350GB的CSV數(shù)據(jù)文件(分成10GB每個)上傳到BigQuery,用時幾個小時(感嘆米國的大水管),這說明從本地集群到Google云進(jìn)行數(shù)據(jù)的遷移也不需要多少耐心,我們已經(jīng)習(xí)慣在下班時間上傳大數(shù)據(jù),不是嘛?
原文鏈接:http://inbigdata.com/google-bigquery-first-look-and-try/