自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

大數(shù)據(jù)
在使用數(shù)據(jù)獲取業(yè)務(wù)價(jià)值的公司中,盡管您可能不會(huì)一直以數(shù)據(jù)科學(xué)技能為榮,但始終可以很好地管理數(shù)據(jù)基礎(chǔ)架構(gòu)。 每個(gè)人都希望將數(shù)據(jù)存儲(chǔ)在可訪問的位置,妥善清理并定期更新。

 介紹

在使用數(shù)據(jù)獲取業(yè)務(wù)價(jià)值的公司中,盡管您可能不會(huì)一直以數(shù)據(jù)科學(xué)技能為榮,但始終可以很好地管理數(shù)據(jù)基礎(chǔ)架構(gòu)。 每個(gè)人都希望將數(shù)據(jù)存儲(chǔ)在可訪問的位置,妥善清理并定期更新。

在這些低調(diào)但穩(wěn)定的需求的支持下,數(shù)據(jù)架構(gòu)師的薪水與數(shù)據(jù)科學(xué)家的薪資同樣高,甚至更高。 實(shí)際上,根據(jù)PayScale進(jìn)行的薪酬研究(https://www.payscale.com/research/US/Country=United_States/Salary),美國(guó)數(shù)據(jù)架構(gòu)師的平均工資為121,816美元,而數(shù)據(jù)科學(xué)家的平均工資為96,089美元 。

并不是說所有數(shù)據(jù)科學(xué)家都應(yīng)該換工作,至少了解數(shù)據(jù)架構(gòu)的基礎(chǔ)知識(shí)對(duì)我們會(huì)有很多好處。 實(shí)際上,有一個(gè)簡(jiǎn)單(但有意義)的框架可以幫助您了解各種現(xiàn)實(shí)世界的數(shù)據(jù)體系結(jié)構(gòu)。

目錄

  • 數(shù)據(jù)架構(gòu)中的三個(gè)組件:Data Lake-> Data Warehouse-> Data Mart
  • 每個(gè)組件中使用的工具
  • 案例研究—構(gòu)建從BigQuery(數(shù)據(jù)倉庫)到Google Sheets(數(shù)據(jù)集市)的計(jì)劃和自動(dòng)數(shù)據(jù)饋送
  • 尾注

數(shù)據(jù)架構(gòu)中的三個(gè)組件:Data Lake-> Data Warehouse-> Data Mart

"數(shù)據(jù)湖","數(shù)據(jù)倉庫"和"數(shù)據(jù)集市"是數(shù)據(jù)平臺(tái)體系結(jié)構(gòu)中的典型組件。 按照此順序,將處理業(yè)務(wù)中產(chǎn)生的數(shù)據(jù)并將其設(shè)置為創(chuàng)建另一個(gè)數(shù)據(jù)含義。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Diagram the author crafted using materials from Irasuto-ya (https://www.irasutoya.com/)

三個(gè)組件負(fù)責(zé)三種不同的功能,例如:

  • Data Lake:擁有業(yè)務(wù)中產(chǎn)生的數(shù)據(jù)的原始副本。 如果有的話,原始數(shù)據(jù)的處理應(yīng)該最少。 否則,如果最終發(fā)現(xiàn)某些數(shù)據(jù)處理錯(cuò)誤,將無法追溯修復(fù)該錯(cuò)誤。
  • 數(shù)據(jù)倉庫:保存由托管數(shù)據(jù)模型處理和結(jié)構(gòu)化的數(shù)據(jù),反映最終使用數(shù)據(jù)的全局(非特定)方向。 在許多情況下,數(shù)據(jù)采用表格格式。
  • 數(shù)據(jù)集市:保存一個(gè)子部分和/或匯總的數(shù)據(jù)集,以使用特定的業(yè)務(wù)功能,例如 特定業(yè)務(wù)部門或特定地理區(qū)域。 一個(gè)典型的例子是,當(dāng)我們準(zhǔn)備針對(duì)特定業(yè)務(wù)線的KPI摘要時(shí),然后在BI工具中進(jìn)行可視化。 特別是,當(dāng)用戶希望定期并頻繁地更新數(shù)據(jù)集市時(shí),在倉庫之后準(zhǔn)備這種獨(dú)立的組件是值得的。 相反,如果用戶只希望某些數(shù)據(jù)組進(jìn)行一次即席分析,則可以跳過此部分。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Summary of three data architecture components (exhibit created by author)

有關(guān)除僅裸機(jī)描述之外的更多實(shí)際示例,請(qǐng)使用Google搜索"數(shù)據(jù)架構(gòu)"以查找大量數(shù)據(jù)架構(gòu)圖。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> What you see when you image-google with "data architecture". (Image captured by author)

為什么我們需要分為這三個(gè)部分?

因?yàn)檫^程中的不同階段有不同的要求。

在數(shù)據(jù)湖階段,我們希望數(shù)據(jù)接近原始數(shù)據(jù),而數(shù)據(jù)倉庫的目的是通過清晰的維護(hù)計(jì)劃使數(shù)據(jù)集更結(jié)構(gòu)化,可管理并擁有明確的所有權(quán)。 在數(shù)據(jù)倉庫中,我們還希望數(shù)據(jù)庫類型面向分析而不是面向事務(wù)。 另一方面,數(shù)據(jù)集市應(yīng)該可以方便地訪問可能使用數(shù)據(jù)旅程最終輸出的非技術(shù)人員。

不同用途的系統(tǒng)組件往往在不同的時(shí)間進(jìn)行重新設(shè)計(jì)。 然后,配置松散連接的組件在將來的維護(hù)和擴(kuò)大規(guī)模方面具有優(yōu)勢(shì)。

數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家如何處理這三個(gè)組成部分?

粗略地說,數(shù)據(jù)工程師涵蓋了從業(yè)務(wù)中提取的數(shù)據(jù)到數(shù)據(jù)湖,在數(shù)據(jù)倉庫中建立數(shù)據(jù)模型以及建立ETL管道的過程。 而數(shù)據(jù)科學(xué)家則負(fù)責(zé)從數(shù)據(jù)倉庫中提取數(shù)據(jù),構(gòu)建數(shù)據(jù)集市,并導(dǎo)致進(jìn)一步的業(yè)務(wù)應(yīng)用和價(jià)值創(chuàng)造。

當(dāng)然,數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家之間的這種角色分配有些理想,并且許多公司都不只是為了符合這個(gè)定義而聘用這兩個(gè)人。 實(shí)際上,他們的職務(wù)描述往往會(huì)重疊。

三要素法之外的新趨勢(shì)

最后但并非最不重要的一點(diǎn)是,值得注意的是,這種由三部分組成的方法是存在超過二十年的傳統(tǒng)方法,并且新技術(shù)一直在不斷出現(xiàn)。 例如,"數(shù)據(jù)虛擬化"是一種允許針對(duì)數(shù)據(jù)源的一站式數(shù)據(jù)管理和操作界面的想法,而不管其格式和物理位置如何。

每個(gè)組件中使用的工具

現(xiàn)在,我們了解了三個(gè)數(shù)據(jù)平臺(tái)組件的概念。 然后,人們使用什么工具? 根據(jù)此"數(shù)據(jù)平臺(tái)指南"(日語),這里有一些想法:

數(shù)據(jù)湖/倉庫

數(shù)據(jù)湖和數(shù)據(jù)倉庫有以下選項(xiàng)。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Author crafted based on the "Data Platform Guide" (in Japanese)

ETL工具

ETL發(fā)生在數(shù)據(jù)到達(dá)數(shù)據(jù)湖并進(jìn)行處理以適合數(shù)據(jù)倉庫的地方。 數(shù)據(jù)是實(shí)時(shí)到達(dá)的,因此ETL更喜歡事件驅(qū)動(dòng)的消息傳遞工具。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Author crafted based on the "Data Platform Guide" (in Japanese)

工作流程引擎

工作流引擎用于管理數(shù)據(jù)的整體流水線化,例如,通過流程圖可視化流程在何處進(jìn)行,在出現(xiàn)錯(cuò)誤的情況下觸發(fā)自動(dòng)重試等。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Author crafted based on the "Data Platform Guide" (in Japanese)

數(shù)據(jù)集市/ BI工具

以下工具可用作數(shù)據(jù)集市和/或BI解決方案。選擇將取決于業(yè)務(wù)背景,貴公司熟悉哪些工具(例如,您是Tableau人員還是Power BI人員?),聚合數(shù)據(jù)的大小(例如,如果數(shù)據(jù)大小很小,為什么基本不解決方案,例如Excel或Google Sheets等解決方案是否達(dá)到了目標(biāo)?),您使用什么數(shù)據(jù)倉庫解決方案(例如,如果您的數(shù)據(jù)倉庫位于BigQuery上,則Google DataStudio是一個(gè)簡(jiǎn)單的解決方案,因?yàn)樗贕oogle圈子中具有自然的聯(lián)系),等等。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Author crafted based on the "Data Platform Guide" (in Japanese)

案例研究—構(gòu)建從BigQuery(數(shù)據(jù)倉庫)到Google Sheets(數(shù)據(jù)集市)的計(jì)劃和自動(dòng)數(shù)據(jù)饋送

當(dāng)數(shù)據(jù)大小保持在數(shù)十兆字節(jié)左右或小于數(shù)十兆字節(jié)并且不依賴于其他大型數(shù)據(jù)集時(shí),可以堅(jiān)持使用基于電子表格的工具來存儲(chǔ),處理和可視化數(shù)據(jù),因?yàn)樗某杀靖?,而且每個(gè)人 可以使用它。

一旦數(shù)據(jù)變大并開始與其他數(shù)據(jù)表具有數(shù)據(jù)依存關(guān)系,從云存儲(chǔ)作為一站式數(shù)據(jù)倉庫開始是有益的。 (當(dāng)數(shù)據(jù)變得更大到數(shù)十兆字節(jié)時(shí),使用本地解決方案可以提高成本效益和可管理性。)

在本章中,我將演示一種將數(shù)據(jù)作為數(shù)據(jù)倉庫存儲(chǔ)在Google BigQuery中的情況。 BigQuery數(shù)據(jù)可以實(shí)時(shí)或短時(shí)間處理和存儲(chǔ)。 最終用戶仍然希望在高度匯總的基礎(chǔ)上在電子表格中查看每日KPI。 這意味著數(shù)據(jù)集市可能很小,甚至適合電子表格解決方案。 讓我們?cè)谶@里使用Google表格,而不是Excel,因?yàn)樗梢耘cBigQuery中的數(shù)據(jù)源處于同一環(huán)境中。 哦,順便說一句,不要考慮每天手動(dòng)運(yùn)行查詢。 嘗試找到一種解決方案,使所有內(nèi)容自動(dòng)運(yùn)行,而無需您采取任何措施。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Data pipeline in case study (diagram created by author using materials from Irasuto-ya (https://ww

本案例研究中使用的數(shù)據(jù)

在本案例研究中,我將使用一個(gè)樣本表數(shù)據(jù),該數(shù)據(jù)具有每次乘車紐約出租車乘客的記錄,包括以下數(shù)據(jù)字段:

  • 車號(hào)
  • 驅(qū)動(dòng)程序ID
  • 乘車日期
  • 乘客人數(shù)
  • 車費(fèi)金額
  • 等等

樣本數(shù)據(jù)作為數(shù)據(jù)倉庫存儲(chǔ)在BigQuery中。

Google表格可以從BigQuery表中提取數(shù)據(jù)嗎?

從技術(shù)上講是可以的,但是目前只能通過Connected Sheets使用,并且您需要一個(gè)G Suite Enterprise,Enterprise for Education或G Suite Enterprise Essentials帳戶。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Diagram created by author.

Connected Sheets允許用戶操作BigQuery表數(shù)據(jù),就像在電子表格上播放它們一樣。 請(qǐng)參閱本頁面" BenCollins"博客文章上的GIF演示。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Example of the use of Google Sheets connected to BigQuery through Connected Sheets (Captured by au

連接工作表還允許自動(dòng)調(diào)度和刷新工作表,這是數(shù)據(jù)集市的自然需求。

盡管它證明自己是一個(gè)不錯(cuò)的選擇,但一個(gè)可能的問題是,欠缺G Suite帳戶并不常見。

有關(guān)設(shè)置的更多詳細(xì)信息,請(qǐng)參閱" BenCollins"中的此博客文章。

我們?cè)撛趺醋霾拍軐?shù)據(jù)從BigQuery推送到Google表格?

要從BigQuery提取數(shù)據(jù)并將其推送到Google表格,僅靠BigQuery是不夠的,我們需要服務(wù)器功能的幫助來調(diào)用API以將查詢發(fā)布到BigQuery,接收數(shù)據(jù)并將其傳遞給Google表格。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Diagram created by author.

服務(wù)器功能可以位于GCP外部或內(nèi)部的服務(wù)器計(jì)算機(jī)上(例如,GCP上的" Compute Engine"實(shí)例;或AWS上的" EC2"實(shí)例)。 可以使用unix-cron作業(yè)計(jì)劃代碼運(yùn)行。 但是這里的一個(gè)缺點(diǎn)是,它花費(fèi)了實(shí)例的維護(hù)工作和成本,并且對(duì)于一個(gè)小的程序而言,太多了。

" Google Cloud Functions"是所謂的"無服務(wù)器"解決方案,用于在不啟動(dòng)服務(wù)器計(jì)算機(jī)的情況下運(yùn)行代碼。 將代碼放入Cloud Functions并設(shè)置觸發(fā)事件(例如,在本案例研究中為預(yù)定時(shí)間,但也可以是某些互聯(lián)網(wǎng)用戶的HTML請(qǐng)求),GCP會(huì)自動(dòng)管理代碼的運(yùn)行。

我的案例研究中的設(shè)置

使用紐約出租車數(shù)據(jù)配置我的案例研究有兩個(gè)步驟。

步驟1:設(shè)置計(jì)劃-設(shè)置Cloud Scheduler和Pub / Sub以觸發(fā)Cloud Function。

在這里,"發(fā)布/訂閱"是一項(xiàng)消息服務(wù),將由Cloud Functions訂閱,并在每天的特定時(shí)間觸發(fā)其運(yùn)行。 " Cloud Scheduler"是一種功能,它可以根據(jù)unix-cron格式以用戶定義的頻率啟動(dòng)某些程序。 結(jié)合這兩者,我們可以創(chuàng)建常規(guī)消息以供Cloud Function訂閱。 有關(guān)如何執(zhí)行的信息,請(qǐng)參見此官方說明。 這是我的GCP設(shè)置中的屏幕截圖。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Set up in Cloud Scheduler (Captured by author)

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Set up in Pub/Sub (Captured by author)

第2步:設(shè)置代碼-在Cloud Functions上準(zhǔn)備代碼以查詢BigQuery表并將其推送到Google表格。

下一步是設(shè)置云功能。 在Cloud Functions中,您定義1)觸發(fā)器是什么(在本案例研究中,是從Pub / Sub發(fā)送的" cron-topic",鏈接到Cloud Scheduler,該觸發(fā)器每隔早上6點(diǎn)拉動(dòng)觸發(fā)器),并且2)代碼是 要在檢測(cè)到觸發(fā)器時(shí)運(yùn)行。

有關(guān)更多詳細(xì)信息,請(qǐng)參見此官方說明,以下是我設(shè)置的屏幕截圖。

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

> Set up in Cloud Functions (Captured by author)

 

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

 

> Code input in Cloud Functions — here you can also set requirements.txt to use installable librari

要運(yùn)行的代碼必須包含在一個(gè)您喜歡的函數(shù)中(在我的情況下為" nytaxi_pubsub"。)代碼內(nèi)容包括兩部分:第一部分:在BigQuery上運(yùn)行查詢以將原始BigQuery表簡(jiǎn)化為KPI并保存 它作為BigQuery中的另一個(gè)數(shù)據(jù)表,并使其成為Pandas數(shù)據(jù)框架,第2部分將數(shù)據(jù)框架推入Sheets。

這是我實(shí)際使用的代碼。 重要的是,只要BigQuery與Cloud Function位于同一GCP項(xiàng)目中,它就會(huì)自動(dòng)進(jìn)行身份驗(yàn)證(請(qǐng)參閱此頁面以獲取說明。)但是,對(duì)于Google表格而言,情況并非如此,它至少需要一個(gè)過程來共享 服務(wù)帳戶訪問目標(biāo)表。 有關(guān)更多詳細(xì)信息,請(qǐng)參見gspread庫中的描述。

Google表格上的最終數(shù)據(jù)集市

最后,我在Google表格中獲得了匯總數(shù)據(jù),如下所示:

 

 

大數(shù)據(jù)架構(gòu)基礎(chǔ)知識(shí)

 

 

> Automatically updated data mart after a long journey of the setup. (captured by author)

該表每天早晨自動(dòng)更新,并且數(shù)據(jù)倉庫正在通過ETL從數(shù)據(jù)湖接收新數(shù)據(jù)時(shí),我們可以每天第一天輕松地跟蹤NY出租車KPI。

尾注

在一家雇用數(shù)據(jù)工程師和/或數(shù)據(jù)架構(gòu)師以及數(shù)據(jù)科學(xué)家的大公司中,數(shù)據(jù)科學(xué)家的主要作用不一定是準(zhǔn)備數(shù)據(jù)基礎(chǔ)架構(gòu)并將其部署到位,但是至少了解數(shù)據(jù)架構(gòu)要點(diǎn)將是有益的 很了解我們?cè)谌粘9ぷ髦械牧?chǎng)。

Data Lake-> Data Warehouse-> Data Mart是一個(gè)典型的平臺(tái)框架,用于處理從源到用例的數(shù)據(jù)。 將過程分為三個(gè)系統(tǒng)組件對(duì)于維護(hù)和目標(biāo)性有很多好處。

工具的選擇有很多選擇。 應(yīng)根據(jù)數(shù)據(jù)環(huán)境(大小,類型等)和業(yè)務(wù)目標(biāo)明智地選擇它們。

最后,在本文中,我討論了一個(gè)案例研究,我們?cè)贕oogle Sheets上準(zhǔn)備了一個(gè)小型數(shù)據(jù)集市,從BigQuery中提取數(shù)據(jù)作為數(shù)據(jù)倉庫。 通過使用Cloud Scheduler和Pub / Sub,更新已自動(dòng)完成。

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2010-04-15 13:19:29

Oracle架構(gòu)

2015-11-18 17:06:53

風(fēng)控大數(shù)據(jù)挖掘

2020-09-30 09:47:17

架構(gòu)

2023-09-22 14:57:21

2011-05-12 10:18:41

數(shù)據(jù)庫基礎(chǔ)知識(shí)

2015-08-26 14:15:12

數(shù)據(jù)挖掘

2014-04-16 09:12:10

2023-03-20 12:06:44

數(shù)據(jù)中心綜合布線

2010-06-02 13:03:20

MySQL數(shù)據(jù)庫

2009-09-23 11:07:11

Hibernate基礎(chǔ)

2010-07-16 10:53:30

Perl基礎(chǔ)

2015-06-01 13:35:43

數(shù)據(jù)中心DCIM

2009-04-17 14:22:40

XPathXML基礎(chǔ)

2015-06-12 14:20:35

2011-09-16 10:13:02

Emacs

2011-03-29 14:11:20

Cacti基礎(chǔ)知識(shí)

2009-04-10 09:35:00

WCDMA基礎(chǔ)無線網(wǎng)絡(luò)

2023-07-04 07:31:06

MapReduce數(shù)據(jù)處理編程模型

2010-07-16 11:22:31

Perl

2014-08-20 10:15:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)