自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么說(shuō)數(shù)據(jù)治理的下一站是DataOps?

大數(shù)據(jù)
越來(lái)越大的數(shù)據(jù)量,加上數(shù)據(jù)敏感和脆弱等的特點(diǎn),數(shù)據(jù)治理一直都是一個(gè)困擾企業(yè)發(fā)展的問(wèn)題。有開(kāi)發(fā)者表示,每個(gè)人都在談?wù)摂?shù)據(jù)治理,卻沒(méi)有人真正知道該怎么辦。

根據(jù)信通院數(shù)據(jù),2019 年,我國(guó)數(shù)據(jù)產(chǎn)量總規(guī)模為 3.9ZB,同比增加 29.3%,占全球數(shù)據(jù)總產(chǎn)量(42 ZB)的 9.3%。而 IDC 中國(guó)預(yù)測(cè),2025 年中國(guó)大數(shù)據(jù)產(chǎn)生量有望增長(zhǎng)至 48.6 ZB,這已經(jīng)超過(guò)了 2019 年全球數(shù)據(jù)量的水平。這對(duì)大數(shù)據(jù)行業(yè)來(lái)說(shuō),既是機(jī)遇,也是挑戰(zhàn)。

越來(lái)越大的數(shù)據(jù)量,加上數(shù)據(jù)敏感和脆弱等的特點(diǎn),數(shù)據(jù)治理一直都是一個(gè)困擾企業(yè)發(fā)展的問(wèn)題。有開(kāi)發(fā)者表示,每個(gè)人都在談?wù)摂?shù)據(jù)治理,卻沒(méi)有人真正知道該怎么辦。

01 數(shù)據(jù)治理有哪些難點(diǎn)?

Q:在現(xiàn)在的企業(yè)數(shù)據(jù)治理上存在哪些痛點(diǎn)? 為什么會(huì)出現(xiàn)這些問(wèn)題,以及當(dāng)前情況下是怎么解決的?

A:數(shù)據(jù)治理和數(shù)據(jù)開(kāi)發(fā)一直都是困擾著企業(yè)的難題。Google 最近發(fā)了一篇文章表示,雖然 Google 在 AI 算法上非常厲害,但如果大家都只想搞算法,沒(méi)人想去搞數(shù)據(jù),那算法是沒(méi)有用的。比如進(jìn)來(lái)個(gè)臟數(shù)據(jù),算法一點(diǎn)用都沒(méi)有。但搞數(shù)據(jù)的工作,大家都認(rèn)為很“臟”、很費(fèi)神,算法更高大上。

數(shù)據(jù)的治理和數(shù)據(jù)質(zhì)量非常重要,整個(gè)數(shù)據(jù)開(kāi)發(fā)流程也非常重要。算法是最后讓數(shù)據(jù)產(chǎn)生價(jià)值的很重要的一部分,但是如果沒(méi)有前面的準(zhǔn)備工作,那么數(shù)據(jù)質(zhì)量和數(shù)據(jù)開(kāi)發(fā)效率就無(wú)法保證,后面算法也發(fā)揮不了作用。很多公司,包括 Google、Twitter 和 Facebook,他們的算法之所以有那么大的作用,就是因?yàn)樗麄償?shù)據(jù)的基礎(chǔ)架構(gòu)做得好,所以他們才能保證算法的有效性。

那么這個(gè)難度在哪呢?現(xiàn)在,數(shù)據(jù)管理、治理工具和數(shù)據(jù)治理體系暫時(shí)還沒(méi)有一個(gè)成形的體系,所有公司的數(shù)據(jù)質(zhì)量、數(shù)據(jù)開(kāi)發(fā)工具基本都是拿開(kāi)源組件自己臨時(shí)搭建。

整個(gè)數(shù)據(jù)的測(cè)試流程中,大家很少聽(tīng)說(shuō)數(shù)據(jù)有 CI/CD,數(shù)據(jù)有沒(méi)有 CI/CD?數(shù)據(jù)的 ETL 程序有沒(méi)有 CI/CD?數(shù)據(jù)開(kāi)發(fā)完了在哪測(cè)試?能不能在生產(chǎn)數(shù)據(jù)上測(cè)試呢?如果程序是對(duì)的,那數(shù)據(jù)改變后我的程序語(yǔ)義還能夠保證它的正確性嗎?企業(yè)在實(shí)際生產(chǎn)時(shí),這些問(wèn)題都是在大規(guī)模使用數(shù)據(jù)時(shí)會(huì)經(jīng)常碰到。由于數(shù)據(jù)的使用,大家覺(jué)得大數(shù)據(jù)好像搞了很多年,但其實(shí)到現(xiàn)在大數(shù)據(jù)的基礎(chǔ)才逐漸成熟,大家也才意識(shí)到,數(shù)據(jù)組織后的數(shù)據(jù)質(zhì)量是更重要的。

所以,我覺(jué)得現(xiàn)在正是將數(shù)據(jù)質(zhì)量、數(shù)據(jù)治理和整個(gè)數(shù)據(jù)開(kāi)發(fā)體系的工具提到前臺(tái)的好時(shí)機(jī)。以前數(shù)據(jù)基礎(chǔ)還沒(méi)有成熟,提這個(gè)可能有點(diǎn)早,但現(xiàn)在越來(lái)越多的企業(yè),特別是頭部企業(yè)發(fā)現(xiàn)了這個(gè)問(wèn)題。

硅谷的很多公司,包括在國(guó)內(nèi)的頭部公司,他們?cè)缇陀龅搅诉@些問(wèn)題,他們自己內(nèi)部肯定是有解決方案的。產(chǎn)品化的事情也有人在做,大家現(xiàn)在看到的開(kāi)源工具里像 Spark、Kafka 都很成熟,做得都很好。但是,像 DataOps 這種跟企業(yè)的底層數(shù)據(jù)情況和數(shù)據(jù)的基礎(chǔ)架構(gòu)緊密相關(guān)的工具比較少,DataOps 工具剛剛出現(xiàn),現(xiàn)在也才獲得大家的關(guān)注。

02 什么是 DataOps?

Q:現(xiàn)在越來(lái)越多的技術(shù)和廠商都在產(chǎn)品中會(huì)提到 DataOps,但是可能目前大家對(duì) DataOps 定義還沒(méi)有很統(tǒng)一的定義。那么,到底什么是 DataOps?為什么它現(xiàn)在會(huì)被很多企業(yè)青睞?

A:DataOps 是從 DevOps 借鑒的一個(gè)理念。可以理解為 DataOps 是把 DevOps 的一些理念映射到了數(shù)據(jù)開(kāi)發(fā)上,它們的很多觀點(diǎn)是可以一一對(duì)應(yīng)的,如開(kāi)發(fā)及運(yùn)維、云原生、微服務(wù)化、CI/CD,這些都可以在 DataOps 里找到,如果你的 DevOps 里沒(méi)有這些概念,就要考慮下你的開(kāi)發(fā)流程是不是符合最佳實(shí)踐。

但 DataOps 與 DevOps 也有區(qū)別。DataOps 是想處理數(shù)據(jù),而在 DevOps 里是不需要處理數(shù)據(jù)的,它主要是做應(yīng)用的開(kāi)發(fā),應(yīng)用的 CI/CD、發(fā)布及運(yùn)維。但就像剛才說(shuō)的,DataOps 實(shí)際上屬于一個(gè)比較早期的概念,大家對(duì)它的解讀還是會(huì)有不一樣。

在 DataOps 里面有很重要的一點(diǎn),就是要處理數(shù)據(jù)的各種不可預(yù)知性。數(shù)據(jù)語(yǔ)義是一個(gè)難題,它沒(méi)辦法在 CI/CD 里被容易定義,不是沒(méi)有辦法,但很困難。之前大部分原生大數(shù)據(jù)組件開(kāi)發(fā)時(shí)并沒(méi)有考慮到這個(gè)規(guī)范。

DevOps 也經(jīng)過(guò)了很長(zhǎng)一段時(shí)間的演變,像 Git 逐漸成為規(guī)范,微服務(wù)基本上都是標(biāo)準(zhǔn)的組件。大數(shù)據(jù)組件體系架構(gòu)特別多、選擇特別多,發(fā)展也特別快,現(xiàn)在的 Spark、流數(shù)據(jù),F(xiàn)link,卡夫卡,底層基本上也是 K8S、Hadoop 和 Hdefs,這些基本上可以形成標(biāo)準(zhǔn)化。那么,現(xiàn)在就是做 DataOps 一個(gè)比較好的時(shí)候。

DataOps 的工作主要有五個(gè)方向:

第一個(gè)是任務(wù)調(diào)度。主要包括云原生調(diào)度、容器的調(diào)度,這跟 DevOps 是一樣的。

第二個(gè)是數(shù)據(jù)安全。數(shù)據(jù)安全以前基本不在 DataOps 的考慮范圍,也不在數(shù)據(jù)開(kāi)發(fā)的范圍內(nèi),但現(xiàn)在數(shù)據(jù)安全很重要。

第三個(gè)就是數(shù)據(jù)管理和數(shù)據(jù)門(mén)戶。大家可能會(huì)說(shuō)原數(shù)據(jù)管理不都好多年了,但以前的原數(shù)據(jù)管理主要是針對(duì)關(guān)系型數(shù)據(jù)庫(kù),關(guān)系型數(shù)據(jù)庫(kù)對(duì)原數(shù)據(jù)的管理相對(duì)容易,只要到數(shù)據(jù)庫(kù)里把原數(shù)據(jù)爬出來(lái)就可以。但現(xiàn)在有流數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),還有 TaiDB 等,各種各樣的原數(shù)據(jù)怎么樣去管理?血緣管理更復(fù)雜了。之前是幾個(gè) SQL 之間的血緣管理,現(xiàn)在關(guān)系到各種各樣的查詢、各種各樣的系統(tǒng)、數(shù)據(jù)門(mén)戶跟 MapDatas 是一樣的。

第四是數(shù)據(jù)檢測(cè)的可視化。DevOps 里有很多可監(jiān)測(cè)到的指標(biāo),數(shù)據(jù)層面也一樣。用多少資源、花多少時(shí)間、創(chuàng)造了多少價(jià)值,之前都是一個(gè)黑盒子,但 DataOps 的整個(gè)數(shù)據(jù)都是端到端的,相關(guān)指標(biāo)可觀測(cè)、可管理。

第五就是集成開(kāi)發(fā)。所有的工具必須是可集成的,不可能做一個(gè)工具負(fù)責(zé)血緣管理,再做一個(gè)工具負(fù)責(zé)調(diào)度。

我認(rèn)為,DataOPS 里面必須具備這五個(gè)工具體系,如果你的 DataOps 體系里面缺了任何一個(gè),我都覺(jué)得是不完善的。

Q:DataOps 如何做持續(xù)測(cè)試?

A:數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)程序的測(cè)試一直是老大難問(wèn)題,甚至頭部大廠整套流程做下來(lái)也是現(xiàn)在非常困難的?,F(xiàn)在 DevOps 里有一個(gè)很有意思的觀念,就是把集訓(xùn)資源的管理全部用 Code 來(lái)管理,大數(shù)據(jù)也一樣。美國(guó)有一個(gè)很火的公司叫 DTB,它是要把所有的 ETL(數(shù)據(jù)倉(cāng)儲(chǔ)技術(shù))流程做成代碼管理,將 SQL 的所有轉(zhuǎn)換變量化、代碼化,將所有 ETL 程序間的關(guān)系、血緣全部用代碼的形式來(lái)進(jìn)行管理。可以說(shuō),不只 SQL 是代碼,整個(gè)調(diào)度也都是代碼。所以,DBT 的整個(gè) ETL 程序可以被放到 Git 里面。

用戶可以在指定的 data source 的測(cè)試環(huán)境中可以測(cè)試,可以到 Data 生態(tài)環(huán)境中直接切換一個(gè) Data source,將其變成生產(chǎn)環(huán)境,所以它允許支撐 ETL 流程的 CI/CD。將所有 ETL 程序之間的依賴全部代碼化,這就是 DTB 的一個(gè)思路。

除了 ETL 之外,我們現(xiàn)在做的事就是把所有大數(shù)據(jù)組件里面的關(guān)系、程序全部代碼化,這是未來(lái)的必然趨勢(shì)。

03 DataOps 與云原生數(shù)據(jù)中臺(tái)的關(guān)系

Q:DataOps 與云原生數(shù)據(jù)中臺(tái)是什么樣的關(guān)系?他們目前各自的發(fā)展情況如何?

A:國(guó)內(nèi)數(shù)據(jù)中臺(tái)也提了兩三年了,有成功的案例也有失敗的。我們?cè)谶@方面也做了很多探索。我們的觀點(diǎn)是,數(shù)據(jù)中臺(tái)絕對(duì)要做,但 DataOps 是實(shí)現(xiàn)數(shù)據(jù)中臺(tái)的一個(gè)最好的方法論和工具體系。

這跟 DevOps 是一樣的。一個(gè)業(yè)務(wù)系統(tǒng)可以使用 DevOps 方法來(lái)做,也可以使用傳統(tǒng)方法去做,兩種方法最后做成的業(yè)務(wù)系統(tǒng)可能都差不多,但這只是開(kāi)始的時(shí)候差不多,后面的持續(xù)迭代、持續(xù)運(yùn)維的時(shí)候,就能看出來(lái) DevOps 的優(yōu)勢(shì)了。

數(shù)據(jù)中臺(tái)也是一樣,它是給大家提供一個(gè)數(shù)據(jù)開(kāi)發(fā)和運(yùn)營(yíng)的底座,開(kāi)始你可以用各種各樣的方法去做一個(gè)數(shù)據(jù)平臺(tái),但是后續(xù)迭代和不斷發(fā)展的時(shí)候,DataOps 就成為最合適的一種方法。

DevOps 提倡的是賦能和自助,通過(guò) CI/CD 持續(xù)發(fā)布,開(kāi)發(fā)工程師自己來(lái)做運(yùn)維測(cè)試,DataOps 也一樣,也是提供工具讓各個(gè)業(yè)務(wù)部門(mén)等數(shù)據(jù)使用者,能夠在中臺(tái)上拿到自己需要的功能。我們認(rèn)為這是 DataOps 和數(shù)據(jù)中臺(tái)的關(guān)系。

Q:企業(yè)如何去做云原生數(shù)據(jù)平臺(tái)的改造?整個(gè)過(guò)程可能會(huì)面臨哪些問(wèn)題?

A:我覺(jué)得,現(xiàn)在云原生的數(shù)據(jù)中臺(tái)還是一個(gè)比較有挑戰(zhàn)性的課題,但也是個(gè)必然的趨勢(shì)。很多企業(yè)的數(shù)據(jù)平臺(tái)效率非常低,因?yàn)閭鹘y(tǒng)大數(shù)據(jù)平臺(tái)使用的 Hadoop、卡夫卡等都不是在云原生的方式下開(kāi)發(fā),資源使用效率低、管理復(fù)雜,但云原生會(huì)大大降低整個(gè)系統(tǒng)的管理復(fù)雜度,提高系統(tǒng)的使用效率和運(yùn)營(yíng)效率。

這個(gè)過(guò)程中會(huì)面臨的困難,主要是人才問(wèn)題。這個(gè)技能的門(mén)檻比較高,需要研發(fā)既懂云原生又懂新技術(shù),這樣的人才缺口還是挺大的。但這也有個(gè)好處就是,云原生產(chǎn)品的標(biāo)準(zhǔn)化程度比較高,這樣容易做出標(biāo)準(zhǔn)化的產(chǎn)品讓大家使用。

舉個(gè)例子,以前裝一個(gè)大數(shù)據(jù)平臺(tái)需要直接面對(duì)底下的物理及虛擬機(jī),但各種各樣的配置,不同的操作系統(tǒng)、環(huán)境和網(wǎng)絡(luò),所有這些都得去管理。K8S 的出現(xiàn)就讓大家不必再考慮所有的底層組件,只要跟云原生這個(gè)體系對(duì)接就可以了。這是一個(gè)很好的機(jī)會(huì),所有的企業(yè)一定會(huì)看到,但這個(gè)過(guò)程肯定是需要時(shí)間的。

Q:您之前多次提到過(guò)“數(shù)據(jù)中臺(tái)方法論”,這個(gè)方法論具體都包含哪些內(nèi)容?

A:這個(gè)方法論的主要目的就是追求效率。我們國(guó)內(nèi)很多客戶的大數(shù)據(jù)平臺(tái)的資源使用率大概都是 15%-20%,但 Twitter 的自然使用率一般能達(dá)到 50%-60%,而且還有各種各樣的彈性擴(kuò)展、自動(dòng)容錯(cuò)等云原生功能。

了解這個(gè)之后,需要做到以下四點(diǎn):

第一,選擇合適的工具和平臺(tái)。這個(gè)是基礎(chǔ),選不到合適的架構(gòu)工具,也就不存在效率了,所以如何選擇合適的平臺(tái)工具很重要。

第二,要有一個(gè)完善的頂層架構(gòu)設(shè)計(jì)。因?yàn)閿?shù)據(jù)平臺(tái)要把大家的數(shù)據(jù)接進(jìn)來(lái),與業(yè)務(wù)系統(tǒng)對(duì)接起來(lái)才能產(chǎn)生效果。DevOps 分布式的開(kāi)發(fā),集中式的管理,但這個(gè)集中式管理不是靠人,而是靠體系和工具。

第三,業(yè)務(wù)驅(qū)動(dòng)。為了大數(shù)據(jù)而大數(shù)據(jù)一般成功不了,一定是可以解決業(yè)務(wù)問(wèn)題的才能走到最后,解決不了業(yè)務(wù)問(wèn)題的數(shù)據(jù)平臺(tái)是偽命題。解決業(yè)務(wù)痛點(diǎn)之后,還要賦能業(yè)務(wù)。要把業(yè)務(wù)部門(mén)引入進(jìn)來(lái),不斷使用這個(gè)數(shù)據(jù)平臺(tái),獲得業(yè)務(wù)部門(mén)認(rèn)可后這個(gè)東西才能走。

第四,要有價(jià)值衡量體系。如何量化產(chǎn)生的價(jià)值,很困難但是也很重要。我們一般要求決策方、業(yè)務(wù)方,技術(shù)方和數(shù)據(jù)平臺(tái)等各方面職責(zé)明確,避免后面出現(xiàn)越來(lái)越多的問(wèn)題。

04 DataOps 的應(yīng)用

Q:2018 年,高德納把 DataOps 納入了技術(shù)管理成熟體系曲線里面,DataOps 被正式接納和推廣。三年過(guò)去了,目前有什么成熟的應(yīng)用案例出來(lái)嗎?

A:DataOps 在云原生出來(lái)之前就有,但可能沒(méi)有叫這個(gè)名字。頭條、騰訊等大廠們都有自己的一套 DataOps 體系,Twitter 等硅谷公司也有,那為什么現(xiàn)在才提出來(lái)?因?yàn)檫@個(gè)東西要產(chǎn)品化。雖然大廠都有 DataOps 體系,但是將近一百人的數(shù)據(jù)團(tuán)隊(duì),eBay 大概有三百多人,一般企業(yè)很難請(qǐng)得起這么多高薪的人才。

現(xiàn)在 DataOps 火了是因?yàn)榇蠹叶夹枰?,?shù)據(jù)價(jià)值不是大廠獨(dú)有的。但橫梗在前的成本問(wèn)題怎么解決?這就需要 DataOps 工具將數(shù)據(jù)價(jià)值開(kāi)發(fā)平移化。為什么稱為云原生的 DataOps?因?yàn)橹挥性圃夹g(shù)統(tǒng)一了各種各樣的硬件環(huán)境、開(kāi)發(fā)環(huán)境、發(fā)布環(huán)境、運(yùn)維流程等等之后,DataOps 才可以將聚焦在數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)管理、原數(shù)據(jù)和數(shù)據(jù)安全上。

Q:您在 Twitter 的時(shí)候,一個(gè)主要職責(zé)就是讓公司所有的人避免重復(fù)開(kāi)發(fā)數(shù)據(jù)組件。這個(gè)需求是在一個(gè)什么樣的背景下產(chǎn)生的?

A:這個(gè)就是很重要的不要重復(fù)造輪子的問(wèn)題。重新造輪子會(huì)造成資源消耗,然后減慢開(kāi)發(fā)速度。要避免不重新造輪子,那么就必須知道現(xiàn)在有什么“輪子”,但很多企業(yè)并不知道自己有什么“輪子”。DataOps 很重要的一點(diǎn)就是原數(shù)據(jù)管理,它的原數(shù)據(jù)管理比原來(lái)的要更廣泛,它可以知道整個(gè)企業(yè)有什么樣的數(shù)據(jù)功能。

更重要的是,企業(yè)重新造輪子,一旦兩個(gè)輪子造得不一樣,會(huì)把這個(gè)車(chē)開(kāi)垮。我們?cè)瓉?lái)做數(shù)據(jù)門(mén)戶,就要求所有的業(yè)務(wù)部門(mén)和數(shù)據(jù)分析師必須做統(tǒng)一的接口,然后發(fā)現(xiàn)有兩個(gè)部門(mén)就在重復(fù)造輪

Q:DataOps 會(huì)有開(kāi)源生態(tài)嗎?

A:目前是逐漸成熟的過(guò)程中,還沒(méi)有成熟到大家都可以使用的端到端產(chǎn)品。

我們之前公眾號(hào)有篇文章講到,硅谷的大概十幾家公司,每個(gè)公司都有自己的數(shù)據(jù)門(mén)戶和產(chǎn)品,但是沒(méi)有成熟的產(chǎn)品。今年 6 月份左右,Linking 將自己的數(shù)據(jù)門(mén)戶產(chǎn)品開(kāi)源了,也有人在做血緣管理,但都是這兩年才起來(lái)的公司。這個(gè)生態(tài)在逐漸形成,但是遠(yuǎn)遠(yuǎn)沒(méi)有到達(dá)成熟的階段。

Q:現(xiàn)在,DataOps 還解決不了哪些問(wèn)題?

A:我覺(jué)得,當(dāng)前 DataOps 沒(méi)辦法解決業(yè)務(wù)價(jià)值的挖掘問(wèn)題。DataOps 實(shí)際是降低了數(shù)據(jù)使用門(mén)檻,讓更多的業(yè)務(wù)人員可以直接開(kāi)發(fā)他們需要的數(shù)據(jù)并將這個(gè)開(kāi)發(fā)成果給大家使用,這在以前必須要依賴數(shù)據(jù)科學(xué)家或者數(shù)據(jù)工程師。但是,如何把這些數(shù)據(jù)與業(yè)務(wù)結(jié)合起來(lái)、用數(shù)據(jù)去促進(jìn)業(yè)務(wù),這不是 DataOps 能回答的問(wèn)題。我們只是賦能,但是真正怎么樣讓你的數(shù)據(jù)去促進(jìn)企業(yè)的業(yè)務(wù)發(fā)展,那一定需要企業(yè)懂自己的業(yè)務(wù)。

05數(shù)據(jù)行業(yè)人才缺乏

Q:企業(yè)在使用 DataOps 的時(shí)候,應(yīng)該如何組建這樣的一個(gè)團(tuán)隊(duì)呢?

A:DataOps 工具并不是要取代數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家,或者 DBA 和數(shù)據(jù)分析師,它讓他們更有效率,我知道在座的不知道有多少是這個(gè)數(shù)據(jù)科學(xué)家,或者是數(shù)據(jù)工程師。

除了 DBA,數(shù)據(jù)行業(yè)一般有三個(gè)比較重要的角色:數(shù)據(jù)工程師,負(fù)責(zé)搭建數(shù)據(jù)平臺(tái);數(shù)據(jù)科學(xué)家,研究數(shù)據(jù)的潛在價(jià)值,用學(xué)習(xí)模型來(lái)形成用戶畫(huà)像、產(chǎn)品推薦或自動(dòng)異常檢測(cè)等;數(shù)據(jù)分析師,更多從業(yè)務(wù)角度做數(shù)據(jù)分析。但是最近出現(xiàn)了一種職業(yè)叫機(jī)器學(xué)習(xí)工程師,他們的任務(wù)是提高算法效率,把數(shù)據(jù)科學(xué)家們開(kāi)發(fā)的模型以生態(tài)化的形式,更高效地完成。

Q:這些人對(duì) DataOps 是什么態(tài)度呢?

A:他們當(dāng)然歡迎。以前數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師發(fā)布任務(wù)時(shí)要依靠數(shù)據(jù)工程師幫他們寫(xiě) ETL 任務(wù),現(xiàn)在 DataOps 可以幫助他們自動(dòng)完成。我們就是讓大家可以睡個(gè)好覺(jué),讓每個(gè)人的聰明才智可以發(fā)揮在他最能發(fā)揮的地方,而不是整天吐槽后臺(tái)、吐槽系統(tǒng)。

Q:數(shù)據(jù)管理這一類(lèi)的崗位,人才供給情況怎樣?

A:現(xiàn)在很缺,非常缺。這個(gè)行業(yè)需求本來(lái)就比較大,加上要做數(shù)字化轉(zhuǎn)型,同時(shí)門(mén)檻比較高,進(jìn)入這個(gè)行業(yè)基本不愁找不到工作。同時(shí)這個(gè)行業(yè)里,經(jīng)驗(yàn)非常重要,越有經(jīng)驗(yàn)越吃香。中國(guó)美國(guó)都一樣,所有想做數(shù)據(jù)項(xiàng)目的第一個(gè)問(wèn)題就是找不到人。

06 數(shù)據(jù)安全還是要靠規(guī)范

Q:中國(guó)和美國(guó)的大數(shù)據(jù)市場(chǎng)有哪些不同?

A:我覺(jué)得現(xiàn)在的差別已經(jīng)不大了?,F(xiàn)在國(guó)內(nèi)的新型企業(yè)很追求效率的追求,對(duì)先進(jìn)的方法論也很認(rèn)可,這個(gè)跟美國(guó)的公司基本上沒(méi)有太多區(qū)別。雖然我也沒(méi)有太多接觸過(guò)美國(guó)的傳統(tǒng)企業(yè),但是美國(guó)傳統(tǒng)企業(yè)接觸這種理念其實(shí)也都比較緩慢。但國(guó)內(nèi)新興的企業(yè)、企業(yè)家們,都很認(rèn)可數(shù)據(jù)價(jià)值,認(rèn)可云原生理念,也認(rèn)可專業(yè)的企業(yè)服務(wù)。

要說(shuō)區(qū)別的話,主要還是體現(xiàn)在兩邊的商務(wù)模式上。在美國(guó),數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家有很大的采購(gòu)權(quán),幾萬(wàn)美元、十幾萬(wàn)美元產(chǎn)品都是實(shí)際做事的人來(lái)采購(gòu)。但在中國(guó),采購(gòu)的決定權(quán)是從上往下的。這也是為什么美國(guó)的開(kāi)源比中國(guó)的更賺錢(qián),開(kāi)源打的就是中間這層真正使用的人,他們可以直接報(bào)告說(shuō)需要這個(gè)開(kāi)源公司來(lái)提供服務(wù),上面一批就完了。但中國(guó)企業(yè)要申請(qǐng)個(gè)幾十萬(wàn)的項(xiàng)目,就得從上往下批。

Q:國(guó)內(nèi)市場(chǎng)發(fā)生了哪些變化?

A:以前大家做大數(shù)據(jù)好像是因?yàn)檫@個(gè)是一個(gè)風(fēng)口,現(xiàn)在沒(méi)人是為了大數(shù)據(jù)而大數(shù)據(jù),大家都認(rèn)可了大數(shù)據(jù)真的能夠產(chǎn)生價(jià)值,沒(méi)有人會(huì)懷疑大數(shù)據(jù)的價(jià)值。但是大家對(duì)大數(shù)據(jù)怎么落地還不是很清楚。所以,我覺(jué)得如何做出更好的工具降低門(mén)檻,更快地產(chǎn)生數(shù)據(jù)價(jià)值是現(xiàn)在企業(yè)面臨的一個(gè)挑戰(zhàn)。

這幾年,因?yàn)榇蠹覍?duì)云原生技術(shù)的認(rèn)可、對(duì)開(kāi)源體系的擁抱,國(guó)內(nèi)的技術(shù)生態(tài)比以前更加有活力。大家尤其認(rèn)識(shí)到了開(kāi)源對(duì)整個(gè)行業(yè)的推動(dòng)作用,很多開(kāi)源公司也取得了很好的成績(jī)。我們雖然現(xiàn)在沒(méi)有產(chǎn)品開(kāi)源,但我們也有開(kāi)源計(jì)劃,希望能夠?yàn)檎麄€(gè)技術(shù)發(fā)展做一些貢獻(xiàn)。

Q:去年的大數(shù)據(jù)藍(lán)皮書(shū)也顯示了一個(gè)數(shù)據(jù),中國(guó)的數(shù)字經(jīng)濟(jì)指數(shù)在 G20 國(guó)家中排名第一,但安全指數(shù)排到了 14。據(jù)您的觀察,目前國(guó)內(nèi)在數(shù)據(jù)安全治理方面存在哪些問(wèn)題?

A:數(shù)據(jù)安全費(fèi)錢(qián),不產(chǎn)生直接價(jià)值,一般企業(yè)都不愿意做這個(gè)事。比如要把幾千臺(tái)機(jī)器里面所有關(guān)系到用戶私有信息的數(shù)據(jù)集全部找出來(lái),這件事產(chǎn)生不了任何積極價(jià)值,但它是非常重要的。Twitter 上市的時(shí)候,我負(fù)責(zé)做數(shù)據(jù)合規(guī)時(shí),整個(gè)團(tuán)隊(duì)花半年多的時(shí)間做數(shù)據(jù)治理,投入相當(dāng)大。

這就一定需要用規(guī)范來(lái)要求企業(yè)數(shù)據(jù)必須合規(guī),這也是行業(yè)發(fā)展到一定階段需要處理的事情。數(shù)據(jù)不規(guī)范可能無(wú)法出國(guó)做生意,老百姓也就沒(méi)有安全感。

對(duì) DataOps 來(lái)說(shuō),企業(yè)可以直接把合規(guī)的規(guī)則實(shí)現(xiàn)在 DataOps 體系里,讓數(shù)據(jù)質(zhì)量等工具幫助企業(yè)完成一些合規(guī)檢查。但合規(guī)是與行業(yè)緊密相關(guān)的,比如銀行的數(shù)據(jù)要合規(guī),那么就會(huì)有專業(yè)團(tuán)隊(duì)把銀監(jiān)會(huì)合規(guī)的標(biāo)準(zhǔn)轉(zhuǎn)換成 ETL 查詢工具,再轉(zhuǎn)成合規(guī)報(bào)告。所以,合規(guī)會(huì)納入到 DataOps 這個(gè)體系里面來(lái),但是需要專業(yè)的團(tuán)隊(duì)來(lái)做。

Q:最近發(fā)布的《數(shù)據(jù)安全法》對(duì)大數(shù)據(jù)企業(yè)有什么影響?企業(yè)如何加固數(shù)據(jù)安全?

A:我覺(jué)得是好事。所有的企業(yè)必須要注重自己的數(shù)據(jù)合規(guī)和數(shù)據(jù)使用方式。這對(duì)大數(shù)據(jù)企業(yè)來(lái)說(shuō)是好事。

傳統(tǒng)方式做數(shù)據(jù)合規(guī)管理比較困難。我們觀察到,很多企業(yè)使用的 Hadoop 是不安全的,因?yàn)橐坏┯昧税踩?Hadoop,還得用安全的卡夫卡、安全的 Spark 等,所有的組件都要是安全化的,那么管理的復(fù)雜度要高很多。企業(yè)在建設(shè)之前,就應(yīng)該把數(shù)據(jù)安全、數(shù)據(jù)合規(guī)問(wèn)題考慮進(jìn)去,后面補(bǔ)課是比較困難的。

Q:大數(shù)據(jù)行業(yè)現(xiàn)在面臨著哪些挑戰(zhàn)?未來(lái)的發(fā)展形勢(shì)如何?

A:大數(shù)據(jù)還是需要規(guī)范,需要一把手的認(rèn)可和支持?,F(xiàn)在很多企業(yè)的一把手知道數(shù)據(jù)的價(jià)值,但是不知道該招什么樣的人,該怎么樣去推進(jìn)數(shù)據(jù)項(xiàng)目的落地,使其真正產(chǎn)生價(jià)值。國(guó)內(nèi)現(xiàn)在對(duì)數(shù)據(jù)平臺(tái)價(jià)值的衡量還是一個(gè)黑盒子,一個(gè)大數(shù)據(jù)平臺(tái)到底產(chǎn)生了多少價(jià)值沒(méi)有辦法衡量。所以一把手的思路和對(duì)整個(gè)數(shù)據(jù)架構(gòu)的規(guī)范體系建設(shè),決定了很多大數(shù)據(jù)平臺(tái)的發(fā)展。

未來(lái)是 AI 的世界,AI 的底層就是數(shù)據(jù)。不管是個(gè)人成長(zhǎng)還是公司的成長(zhǎng)、企業(yè)的成長(zhǎng),基本上都是數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)驅(qū)動(dòng)讓生活更高效、生產(chǎn)更高效,放大個(gè)人價(jià)值。這是一個(gè)很值得投入的行業(yè)。

責(zé)任編輯:未麗燕 來(lái)源: ITPUB
相關(guān)推薦

2016-01-18 10:40:04

VRMR

2015-08-13 10:04:13

數(shù)據(jù)中心LSO

2015-05-29 09:56:11

慧聰電子網(wǎng)

2018-08-15 15:45:14

2013-09-25 09:58:17

虛擬化網(wǎng)絡(luò)

2020-05-26 19:31:09

人工智能AI實(shí)時(shí)服務(wù)

2016-12-21 13:30:49

超融合SAN

2012-02-07 09:25:43

移動(dòng)市場(chǎng)Facebook

2022-11-24 08:00:00

2013-05-29 09:51:16

BYODBYOD管理IT應(yīng)用

2020-03-11 15:00:46

AI人工智能智能

2015-02-05 17:22:12

年終獎(jiǎng)程序員

2010-08-11 11:40:06

云計(jì)算

2019-06-22 16:03:28

托管云計(jì)算企業(yè)

2022-12-23 09:04:33

字節(jié)跳動(dòng)數(shù)據(jù)治理架構(gòu)

2021-06-11 13:56:27

大數(shù)據(jù)DataWorks數(shù)據(jù)開(kāi)發(fā)

2014-01-10 16:33:17

2015-07-06 10:38:20

超融合架構(gòu)VM分布式存儲(chǔ)

2016-06-13 17:22:27

火炬數(shù)據(jù)楊大海
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)