自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌工程師Venky Ganti分享:大數(shù)據(jù)的挑戰(zhàn)超越3V

大數(shù)據(jù)
在大數(shù)據(jù)的工作中,有很多的挑戰(zhàn)。3V(Volume(體積大)、Velocity(增速快)、Variety(多樣化))是最受人關(guān)注的。谷歌搜索的許多結(jié)果都值得一讀,幾乎都集中在大數(shù)據(jù)的管理和處理的技術(shù)挑戰(zhàn)方面。在這篇文章中,我想強(qiáng)調(diào)的是,即使是底層的3V基礎(chǔ)設(shè)施處理的相當(dāng)完美的情況下,大數(shù)據(jù)的挑戰(zhàn)性仍然存在。

大數(shù)據(jù)

在大數(shù)據(jù)的工作中,有很多的挑戰(zhàn)。3V(Volume(體積大)、Velocity(增速快)、Variety(多樣化))是最受人關(guān)注的。谷歌搜索的許多結(jié)果都值得一讀,幾乎都集中在大數(shù)據(jù)的管理和處理的技術(shù)挑戰(zhàn)方面。在這篇文章中,我想強(qiáng)調(diào)的是,即使是底層的3V基礎(chǔ)設(shè)施處理的相當(dāng)完美的情況下,大數(shù)據(jù)的挑戰(zhàn)性仍然存在。

在谷歌,我有機(jī)會(huì)在一個(gè)令人羨慕的工程團(tuán)隊(duì)工作。我學(xué)會(huì)了大規(guī)模運(yùn)行各種服務(wù)的多個(gè)方面的能力,以及開(kāi)發(fā)和推出令人信服的數(shù)據(jù)產(chǎn)品。我工作的產(chǎn)品是動(dòng)態(tài)搜索廣告,可以自動(dòng)的進(jìn)行廣告語(yǔ)的搜集設(shè)置和優(yōu)化。給定一個(gè)廣告主的網(wǎng)站,我們的目標(biāo)是挖掘相關(guān)的關(guān)鍵詞,并為每一個(gè)關(guān)鍵字自動(dòng)創(chuàng)建一個(gè)廣告(廣告文本以及廣告頁(yè)面)。我的數(shù)據(jù)來(lái)自各種數(shù)據(jù)源,經(jīng)常用于改進(jìn)我們的產(chǎn)品,有時(shí)用于調(diào)試。

我們都知道,谷歌處理著網(wǎng)絡(luò)上大量信息,并使用戶(hù)能夠快速找到相關(guān)信息。但是,有多少工程師覺(jué)得在谷歌是和數(shù)據(jù)工作?

在一方面,他們感到有能力處理谷歌收集的大量個(gè)人特征行為數(shù)據(jù)。谷歌的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)是最好的。這是一個(gè)存儲(chǔ)和處理“大數(shù)據(jù)”的現(xiàn)代思維的開(kāi)創(chuàng)地。聚集了高水平的工程師,一個(gè)自然的結(jié)果就是創(chuàng)建大量的信息豐富的衍生數(shù)據(jù)集。

在另一方面,我想我們能夠更有效和更專(zhuān)注于找尋和理解數(shù)據(jù)。讓我描述一些促成這些低效率的問(wèn)題。

  • 我何如找到我能夠使用的數(shù)據(jù)?在我找到了一些數(shù)據(jù)之后,我如何掌握這個(gè)數(shù)據(jù)集的內(nèi)容?
  • 關(guān)于這些數(shù)據(jù),我能找到誰(shuí)來(lái)咨詢(xún)一些信息?是不是有其他人做著與我一樣的內(nèi)容?
  • 我如何排除不期望的數(shù)據(jù)問(wèn)題?上游數(shù)據(jù)的變化能夠解釋這個(gè)問(wèn)題嗎?
  • 我如何設(shè)置定期生成的垃圾數(shù)據(jù)收集策略?

現(xiàn)在,我將根據(jù)我過(guò)去的經(jīng)驗(yàn)來(lái)深入討論這些問(wèn)題。

我如何找到和掌握數(shù)據(jù)?

讓我們考慮一個(gè)場(chǎng)景:當(dāng)谷歌內(nèi)的一個(gè)工程師或數(shù)據(jù)分析要找到相關(guān)的數(shù)據(jù),可以說(shuō),在GFS(google file system)中的Dremel表或SSTable。她需要記住表的名稱(chēng),并且在谷歌的無(wú)數(shù)的數(shù)據(jù)存儲(chǔ)中包含它。此外,不同于這些自描述的文件,它是不容易“理解”什么是一個(gè)數(shù)據(jù)集中,以及如何使用它。用戶(hù)需要通過(guò)與指導(dǎo)這個(gè)數(shù)據(jù)的人交談,或者通過(guò)一些其他的替代方式。對(duì)比谷歌內(nèi)的工程師在用于發(fā)現(xiàn)和理解數(shù)據(jù)所花的精力,相對(duì)于外部用戶(hù)在使用谷歌來(lái)查找和了解信息的花費(fèi)。

讓我想起了身邊類(lèi)似的情況我自己的失望經(jīng)歷之一。我在谷歌的AdWords小組工作。我需要找到在谷歌的產(chǎn)品中導(dǎo)致相似用戶(hù)行為的搜索查詢(xún)信息,特別是搜索和廣告。我覺(jué)得在搜索和廣告團(tuán)隊(duì)一定有幾個(gè)數(shù)據(jù)集存在。我找了兩個(gè)廣告團(tuán)隊(duì),因?yàn)槲抑涝谶@個(gè)項(xiàng)目中的幾個(gè)人。但是,事實(shí)證明,經(jīng)過(guò)進(jìn)一步的調(diào)查,我因?yàn)槟繕?biāo)應(yīng)用的差異而不能使用。不過(guò),我運(yùn)氣不錯(cuò)的從搜索團(tuán)隊(duì)找到了類(lèi)似的信息。我試著重建自己的工作,花了幾個(gè)月但并沒(méi)有成功。最近,在我離開(kāi)谷歌,一個(gè)前同事告訴我,他偶然發(fā)現(xiàn)一個(gè)指向正確的數(shù)據(jù),并成功地用它!

當(dāng)然,圍繞著找數(shù)據(jù)和掌握數(shù)據(jù)的問(wèn)題并不是谷歌特有的問(wèn)題,而是任何一個(gè)使用數(shù)據(jù)去加強(qiáng)市場(chǎng)決策或者產(chǎn)品改進(jìn)的組織。當(dāng)然,在谷歌中的工程師有一個(gè)比較好的機(jī)會(huì)通過(guò)令人羨慕的內(nèi)部工具去克服這些問(wèn)題。(例如代碼搜索)

很多相關(guān)的數(shù)據(jù)技術(shù)的重點(diǎn)是處理大量的數(shù)據(jù)和可視化效果變的更好。但是,有沒(méi)有把重點(diǎn)放在授權(quán)用戶(hù)發(fā)現(xiàn)和理解這些數(shù)據(jù)庫(kù)中的數(shù)據(jù),以準(zhǔn)備更可靠和高效的查詢(xún)和計(jì)算。

我認(rèn)為對(duì)這些問(wèn)題缺乏關(guān)注的主要原因是,在查詢(xún)處理效率和可視化能力方面,這是一種更為具體的措施和表現(xiàn)。另一方面,現(xiàn)在很難清楚地闡明幫助數(shù)據(jù)用戶(hù)發(fā)現(xiàn)和理解數(shù)據(jù)的好處。通過(guò)這種方式,這不是真正的搜索在網(wǎng)絡(luò)上,直到谷歌來(lái)了,并說(shuō)明了經(jīng)濟(jì)和生產(chǎn)力的收益,在廣泛的用戶(hù)?我相信我們正處于一場(chǎng)類(lèi)似的數(shù)據(jù)消費(fèi)革命的時(shí)期。

我該請(qǐng)教誰(shuí)?

當(dāng)一個(gè)分析師找到一個(gè)數(shù)據(jù)集之后,她需要通過(guò)其他分析師和應(yīng)用程序理解它的用法。經(jīng)常,要找到如此知識(shí)淵博的人員是非常困難的。有很多次我覺(jué)得很難,即使在谷歌,以確定我找到能談這個(gè)問(wèn)題的人。當(dāng)我找到他們,我感到了那些工程師們的痛苦,他們被打斷很多次,只為回答最簡(jiǎn)單的問(wèn)題。

舉個(gè)例子,我被分派到一個(gè)任務(wù),遷移一個(gè)應(yīng)用的讀取數(shù)據(jù),從一個(gè)引擎到一個(gè)新的高效率的引擎。遷移中最大的部分就是重寫(xiě)查詢(xún)結(jié)構(gòu),從新的圖表中讀取數(shù)據(jù)。我是少數(shù)幾個(gè)在過(guò)去做過(guò)這個(gè)遷移的人,因此類(lèi)似的問(wèn)題必須解決。但是,在維基百科中沒(méi)有我需要的信息。所以,我不得不很勉強(qiáng)地把自己變成一個(gè)非常忙碌的首席工程師,我唯一知道的一個(gè)就是得到幫助。我會(huì)很感激,如果我能很快找到一個(gè)做過(guò)類(lèi)似的遷移工作的人。

在另一方面,我要反復(fù)地回答相同的對(duì)我處理和維護(hù)的數(shù)據(jù)問(wèn)題,我試圖建立一個(gè)維基頁(yè)面,但還是被問(wèn)了很多問(wèn)題。我們都知道,保持維基更新和可用在時(shí)間上也是非常具有挑戰(zhàn)性的?;叵肫饋?lái),如果我和同事可能錯(cuò)過(guò)了幾次更新,我不會(huì)感到驚訝。

花費(fèi)多少時(shí)間?

然而,分析師有多少時(shí)間是花在找數(shù)據(jù)和理解數(shù)據(jù)的活動(dòng)中的?我還沒(méi)試過(guò)測(cè)算,我們只是沒(méi)有方法和工具來(lái)測(cè)算。但是,這取決于你問(wèn)的是誰(shuí),他們需要使用哪些數(shù)據(jù),答案會(huì)有很大的不同。一個(gè)新人處理一個(gè)特定的數(shù)據(jù)集將花費(fèi)超過(guò)80%的時(shí)間在這些任務(wù)上。而專(zhuān)家則少得多。然而,專(zhuān)家們卻花時(shí)間在一遍又一遍的回答其他人的問(wèn)題。

 

責(zé)任編輯:李英杰 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2024-12-06 07:10:00

2017-11-09 14:12:44

大數(shù)據(jù)軟件工程師算法工程師

2021-02-25 11:36:28

大數(shù)據(jù)Gartner

2015-05-19 16:52:13

企業(yè)網(wǎng)D1Net

2012-03-31 16:57:52

工程師創(chuàng)業(yè)團(tuán)隊(duì)

2010-10-14 10:35:24

谷歌工程師

2021-01-20 10:30:04

大數(shù)據(jù)大數(shù)據(jù)開(kāi)發(fā)

2017-05-05 10:45:45

大數(shù)據(jù)動(dòng)向

2018-07-20 16:57:51

大數(shù)據(jù)書(shū)單工程師

2012-10-10 09:42:58

谷歌測(cè)試測(cè)試工程師

2021-01-29 17:26:03

大數(shù)據(jù)開(kāi)發(fā)工程師

2014-06-20 09:16:26

2020-01-17 13:33:42

大數(shù)據(jù)分析師大數(shù)據(jù)工程師

2020-08-05 08:25:58

大數(shù)據(jù)Java技術(shù)

2015-01-28 00:35:00

Coursera大數(shù)據(jù)

2011-04-11 23:34:44

FacebookHBase遷移

2015-02-13 19:52:47

測(cè)試工程師APPTestin云測(cè)

2013-06-26 10:34:56

工程師?谷歌

2013-07-30 09:14:25

2021-06-21 11:22:29

數(shù)據(jù)架構(gòu)實(shí)踐
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)