谷歌更新BigQuery 允許在其中加入大型數(shù)據(jù)集
據(jù)Gigaom報道,谷歌日前對BigQuery進(jìn)行了更新,加入新的聚合功能。
以下為文章全文:
BigQuery的產(chǎn)品經(jīng)理Ju-kay Kwek在一篇博客中公布了BigQuery的***更新,他表示用戶現(xiàn)在可以加入大型表、導(dǎo)入和查詢時間戳數(shù)據(jù),以及使大量非重復(fù)數(shù)據(jù)的集合進(jìn)行聚合。
BigQuery是一個讓用戶使用類似SQL的查詢來分析TB大小的數(shù)據(jù)集的云服務(wù)。它基于谷歌的Dremel查詢系統(tǒng),可以在其所處的位置(即Google File System或BigTable)上分析數(shù)據(jù),并可在谷歌內(nèi)部使用,分析各種不同的數(shù)據(jù)集。谷歌聲稱在BigQuery運(yùn)行交互式查詢速度,對實(shí)時性和復(fù)雜性的要求完全是MapReduce(上一代處理大型數(shù)據(jù)集的工具)所不能達(dá)到的。當(dāng)然,對于批處理,BigQuery同樣勝任,而且費(fèi)用更低。
因此,從一些類似Dremel和其商業(yè)發(fā)行版BigQuery上可獲得潛在好處——不輸于Hadoop生態(tài)系統(tǒng),Hadoop本身已依賴MapReduce進(jìn)行處理很多年。在過去一年,我們已經(jīng)看到許多初創(chuàng)公司和大型廠商為坐落在HDFS上數(shù)據(jù)發(fā)布自己的類Dremel(或類MPP)技術(shù)。
撇開這個背景不談,在BigQuery中加入連接大型數(shù)據(jù)集的能力可能是最重要的新功能。連接是大多數(shù)環(huán)境中數(shù)據(jù)分析的一個重要方面,因?yàn)楸舜讼嚓P(guān)的數(shù)據(jù)并不總是駐留在同一個表,甚至在同一個集群中。(王旭東/編譯 仲浩/審校)

連接到BigQuery的方法
Kwek說明了為什么加入新的聚合功能是重要的:
當(dāng)我們的App Engine團(tuán)隊需要調(diào)和應(yīng)用程序計費(fèi)和使用信息時,Big JOIN可以讓團(tuán)隊在60秒內(nèi)合并 2TB的使用數(shù)據(jù)和10 GB的配置數(shù)據(jù)。使用集成的Tableau客戶端的團(tuán)隊可以快速的發(fā)現(xiàn)一些意想不到的趨勢。