自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

入門級(jí)大數(shù)據(jù)分析:Google BigQuery

云計(jì)算
BigQuery減少了分析大型數(shù)據(jù)集面臨的一些實(shí)現(xiàn)挑戰(zhàn)。價(jià)格模型促進(jìn)了統(tǒng)計(jì)分析技能的發(fā)掘,因此可以從數(shù)據(jù)樣品中導(dǎo)出有用的信息,而不是針對(duì)全部數(shù)據(jù)集進(jìn)行蠻力分析。

大數(shù)據(jù)項(xiàng)目挺嚇人的,尤其是如果包含了設(shè)置和管理Hadoop集群。如果你更習(xí)慣于SQL,而不是MapReduce,但是發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫不符合分析需求,Google BigQuery值得一看。Google BigQuery提供了大數(shù)據(jù)分析入門級(jí)方法。

BigQuery減少了分析大型數(shù)據(jù)集面臨的一些實(shí)現(xiàn)挑戰(zhàn)。價(jià)格模型促進(jìn)了統(tǒng)計(jì)分析技能的發(fā)掘,因此可以從數(shù)據(jù)樣品中導(dǎo)出有用的信息,而不是針對(duì)全部數(shù)據(jù)集進(jìn)行蠻力分析。

有時(shí),要用大數(shù)據(jù)工作意味著處理速度的精確。比如,如果想要確定操作同一網(wǎng)站的兩個(gè)不同的客戶群組是否不同,應(yīng)該分析網(wǎng)站上與所有這些客戶活動(dòng)相關(guān)每一個(gè)登錄日志。或者,可以取出一部分客戶子集樣例,分析這些樣例之間的不同?;A(chǔ)統(tǒng)計(jì)提供了工具,可以幫助理解這種類型分析的錯(cuò)誤率,只要錯(cuò)誤在可接受范圍內(nèi),結(jié)果對(duì)于決策制定就是有效的。

在TOP功能中可以看到這種交換,通過grouping和sorting操作返回頂行發(fā)現(xiàn)。可能返回近似的結(jié)果,但是這個(gè)函數(shù)通常比使用“group by”、“order by”和“"limit”的組合語句更快速。

Google BigQuery操作特性

BigQuery旨在分析數(shù)十億行近似的數(shù)據(jù),使用類SQL語法。它并不是完全符合SQL數(shù)據(jù)庫的替代,并不適用于交易處理應(yīng)用。BigQuery支持分析交互風(fēng)格。使用SELECT命令構(gòu)建查詢,對(duì)于任何SQL開發(fā)者都應(yīng)該很熟悉。

查詢語言包括支持標(biāo)準(zhǔn)操作,比如joining、sorting和grouping,以及內(nèi)嵌數(shù)據(jù)結(jié)構(gòu)。正如我們所期望的大數(shù)據(jù)分析服務(wù),可以支持統(tǒng)計(jì)函數(shù),比如count、sum、average、variance和standard deviation(標(biāo)準(zhǔn)偏差)。Grouping函數(shù)和描述性統(tǒng)計(jì)的結(jié)合相當(dāng)直接的在兩個(gè)總體中比較平均數(shù)和變異數(shù)。

 

[[72025]]

 

入門級(jí)大數(shù)據(jù)分析:Google BigQuery

聯(lián)接是標(biāo)準(zhǔn)化數(shù)據(jù)模型必要的操作,但是計(jì)算昂貴。BigQuery函數(shù)中的JOIN運(yùn)算符類似于SQL join,但是在聯(lián)接兩個(gè)表時(shí),其中一個(gè)表必須是8MB或者壓縮到更小。這種類型的限制可以進(jìn)行更加有效的聯(lián)接操作,因?yàn)楦〉谋砜梢杂行Ц咚倬彺?,?lián)接到更大的表。如果必須聯(lián)接兩個(gè)大型表,可以使用JOIN EACH操作,但是性能就會(huì)更慢。

可以使用簡單的瀏覽器界面同BigQuery進(jìn)行交互操作。瀏覽器工具保留查詢歷史,提供了構(gòu)造查詢的工作局域。這是一種基本的工具;并不具備SQL開發(fā)者工具中全面的功能,比如MySQL Workbench和DBVisualizer。也可以通過命令行界面工作。

Google BigQuery的價(jià)格模型

通過訪問Google的云資源,你可能想知道為什么你要為查詢樣例或者近似結(jié)果操心,畢竟,你可以在這個(gè)問題上投入更多的硬件不是嗎?對(duì),你可以,但是BigQuery基于你分析了多少數(shù)據(jù)來收費(fèi)。

Google的價(jià)格模型基于存儲(chǔ)和分析的數(shù)據(jù)總量。存儲(chǔ)費(fèi)用是每月0.12GB美元。交互查詢?yōu)槊刻幚?GB 0.035美元,包查詢費(fèi)用為0.02美元/GB。為了限制處理的數(shù)據(jù)量,可以限制分析的行數(shù),包括你實(shí)際需要結(jié)果的列。BigQuery使用柱狀數(shù)據(jù)存儲(chǔ),因此并不是所有的行數(shù)據(jù),在一個(gè)或者更多列查詢時(shí)回復(fù)。

數(shù)據(jù)存入BigQuery,使用負(fù)載工作,可以同Google Cloud Storage的數(shù)據(jù)工作,或者使用POST請(qǐng)求本地文件系統(tǒng)中的數(shù)據(jù)。文件可以格式化成為CSV或者JSON格式。壓縮文件限制到1GB,但是非壓縮文件能到1TB。負(fù)載工作包括多達(dá)一萬個(gè)文件,但是所有文件的大小總和不能超過1TB。由于每天每個(gè)表可以擁有多達(dá)1000個(gè)負(fù)載工作,這些定額對(duì)于大多數(shù)項(xiàng)目不見得有實(shí)際的影響。

關(guān)于作者

Dan Sullivan,理科碩士、作者、系統(tǒng)架構(gòu)師兼咨詢師,用20多年IT經(jīng)驗(yàn)。他在高級(jí)分析、系統(tǒng)架構(gòu)、數(shù)據(jù)庫設(shè)計(jì)、企業(yè)安全和商務(wù)智能方面很有威望。他熟悉很多產(chǎn)業(yè),包括金融服務(wù)、制造業(yè)、制藥、軟件開發(fā)、政府、零售和教育。Dan撰寫文章涉及的范圍廣泛,包括數(shù)據(jù)倉庫、云計(jì)算和高級(jí)分析、安全管理、協(xié)作以及文本挖掘。

責(zé)任編輯:王程程 來源: TechTarget中國
相關(guān)推薦

2021-06-15 14:07:42

Google BigQ大數(shù)據(jù)大數(shù)據(jù)分析

2012-07-10 09:29:44

BigQuery

2012-05-03 10:48:43

Google大數(shù)據(jù)云計(jì)算

2015-11-13 10:06:27

數(shù)據(jù)科學(xué)大數(shù)據(jù)入門

2015-08-24 13:56:10

數(shù)據(jù)分析

2015-08-14 10:28:09

大數(shù)據(jù)

2011-03-25 09:09:29

算法數(shù)據(jù)庫

2011-03-25 09:29:03

算法數(shù)據(jù)庫

2011-03-25 11:01:33

算法數(shù)據(jù)庫

2013-09-02 17:42:28

大數(shù)據(jù)分析FusionInsig華為

2015-08-11 15:52:52

大數(shù)據(jù)數(shù)據(jù)分析

2021-02-08 12:59:12

Git 控制系統(tǒng)

2010-06-23 10:55:10

FreeBSD入門級(jí)命

2010-09-13 13:58:17

HTML DOM

2010-09-08 12:45:16

2021-10-12 15:25:08

大數(shù)據(jù)數(shù)據(jù)分析

2022-03-29 14:49:14

大數(shù)據(jù)數(shù)據(jù)分析

2015-07-23 09:34:57

大數(shù)據(jù)數(shù)據(jù)分析

2013-04-09 09:28:20

大數(shù)據(jù)大數(shù)據(jù)全球技術(shù)峰會(huì)

2021-08-06 11:01:23

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)