自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

企業(yè)在2021年將面臨的5大數(shù)據(jù)分析挑戰(zhàn)

大數(shù)據(jù) 數(shù)據(jù)分析
事實(shí)證明,將數(shù)據(jù)集成到戰(zhàn)略中是各種規(guī)模企業(yè)的差異化因素。俗稱“數(shù)據(jù)驅(qū)動(dòng)”不僅僅指價(jià)值十億美元的科技公司。

 借助實(shí)際解決方案

 

[[381613]]

事實(shí)證明,將數(shù)據(jù)集成到戰(zhàn)略中是各種規(guī)模企業(yè)的差異化因素。俗稱“數(shù)據(jù)驅(qū)動(dòng)”不僅僅指價(jià)值十億美元的科技公司。

DiscoverOrg和MVF等公司正在使用數(shù)據(jù)來(lái)幫助制定決策和創(chuàng)建更好的產(chǎn)品。

借助數(shù)據(jù),甚至更小的公司也在左右尋找節(jié)省和新收入的機(jī)會(huì)。

但是,這說起來(lái)容易做起來(lái)難。

僅從您所有不同數(shù)據(jù)源中提取數(shù)據(jù)并不總是足夠的。開發(fā)數(shù)據(jù)策略和產(chǎn)品可能會(huì)遇到很多問題。

在本文中,我將概述您可能會(huì)在使用數(shù)據(jù)時(shí)遇到的一些問題,包括增加數(shù)據(jù)大小,具有一致的數(shù)據(jù)和定義以及減少將數(shù)據(jù)從第三方系統(tǒng)獲取到數(shù)據(jù)倉(cāng)庫(kù)所需的時(shí)間。

我還將提供一些解決方案。

太多數(shù)據(jù)導(dǎo)致性能不佳

 

 

大數(shù)據(jù)。它解決了您所有糟糕的算法問題,對(duì)嗎?好吧,有點(diǎn)。

實(shí)際上,大數(shù)據(jù)可能會(huì)導(dǎo)致許多新問題。特別是具有性能。

大數(shù)據(jù)意味著如果您沒有可以處理這些數(shù)據(jù)的系統(tǒng),那么您很快就會(huì)遇到問題。

甚至最大的公司都遇到了這個(gè)問題。數(shù)據(jù)不斷增長(zhǎng),反過來(lái)又減慢了儀表盤,模型和報(bào)告的速度。等待兩分鐘以使用Tableau儀表板是不可行的。沒有高管,董事或經(jīng)理想要等待那么長(zhǎng)時(shí)間。

因此,盡管大數(shù)據(jù)可以提供盡可能多的見識(shí),但它很快就會(huì)成為負(fù)擔(dān)(而且我甚至沒有提到修剪不必要的數(shù)據(jù)的問題)。

那么,我們?nèi)绾胃纳拼髷?shù)據(jù)系統(tǒng)的性能呢?

解決方案1:支付更多計(jì)算費(fèi)用

解決問題的一種方法就是花更多的錢-在集群上購(gòu)買更多的計(jì)算機(jī)或購(gòu)買更大的計(jì)算機(jī)。但是總會(huì)有一個(gè)限制。

我與許多客戶合作,他們迅速計(jì)算出,通過更多的計(jì)算途徑來(lái)提高性能會(huì)花費(fèi)太多。這看起來(lái)似乎很容易,但是可以說這并不是最好的解決方案。

有時(shí),與計(jì)算無(wú)關(guān),而與設(shè)計(jì)以及底層系統(tǒng)有關(guān)。

解決方案2:遷移到專為速度而設(shè)計(jì)的云數(shù)據(jù)倉(cāng)庫(kù)

通過技術(shù)債務(wù)和時(shí)間的結(jié)合,系統(tǒng)開始變慢。有幾種改善方法,而不僅僅是購(gòu)買更大的機(jī)器。

例如,如果您的團(tuán)隊(duì)為數(shù)據(jù)倉(cāng)庫(kù)使用Postgres或標(biāo)準(zhǔn)SQL Server之類的數(shù)據(jù)庫(kù),那么可能是時(shí)候遷移到專為分析查詢?cè)O(shè)計(jì)的云數(shù)據(jù)倉(cāng)庫(kù)了。

您可以研究諸如Azure Synapse,Redshift或BigQuery之類的云數(shù)據(jù)倉(cāng)庫(kù)。這些可以幫助提高性能,具體取決于您設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的方式。

解決方案3:改進(jìn)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

如果您已經(jīng)在云數(shù)據(jù)倉(cāng)庫(kù)中,則可以研究其他可能的解決方案,例如更好的設(shè)計(jì),匯總表或索引。

這些都是需要查看您的設(shè)計(jì),查看瓶頸并評(píng)估最佳解決方案的解決方案。

改善整體設(shè)計(jì)是一個(gè)更加困難的話題。我很樂意通過免費(fèi)咨詢電話或在我每周開放的辦公時(shí)間內(nèi)討論此問題。

您還可以查看其中一些有關(guān)擴(kuò)展的文章,因?yàn)橛泻芏喾椒梢越鉀Q該問題。

  • 如何在應(yīng)用變慢之前提高其性能
  • 改善數(shù)據(jù)倉(cāng)庫(kù)性能

在Excel中管理復(fù)雜的業(yè)務(wù)決策

 


Excel和電子表格繼續(xù)在全球公司中推動(dòng)數(shù)十億美元的決策。對(duì)Excel的依賴也導(dǎo)致了即使是最聰明的公司也犯了數(shù)百萬(wàn)甚至數(shù)十億美元的錯(cuò)誤。

例如,2008年,巴克萊銀行同意購(gòu)買雷曼兄弟,但由于電子表格的錯(cuò)誤,他們蒙受了他們不打算購(gòu)買的合同的損失。雷曼兄弟資產(chǎn)的詳細(xì)電子表格包含大約1,000行,需要轉(zhuǎn)換為PDF。但是,原始的Excel版本具有巴克萊不想要的包含179個(gè)項(xiàng)目的隱藏行。他們不希望這些合同的注釋沒有轉(zhuǎn)移到PDF,但是隱藏的行卻轉(zhuǎn)移了。結(jié)果,他們不得不購(gòu)買179份他們不想要的合同。

而在2012年,JP Morgan損失了近60億美元,這主要?dú)w因于Excel錯(cuò)誤。

Excel是一種非常通用的數(shù)據(jù)工具,可以幫助團(tuán)隊(duì)管理很多工作流程。但是,由于設(shè)計(jì)復(fù)雜,人為錯(cuò)誤以及Excel通常的操作方式,它們也很容易出錯(cuò)。

為了避免這些錯(cuò)誤,您的團(tuán)隊(duì)可以采取一些策略。

解決方案1:像對(duì)待工程師一樣對(duì)待Excel

如果使用Excel來(lái)做出較大的決定,則應(yīng)像對(duì)待工程師一樣對(duì)待它。

這意味著應(yīng)該有Excel復(fù)審和測(cè)試用例??赡芸雌饋?lái)有些矯枉過正,但是Excel非常類似于代碼。甚至有人認(rèn)為它是第四代編碼語(yǔ)言。這意味著它很容易因邏輯,流程和提供的輸入而引起錯(cuò)誤。

因此,Excel應(yīng)該被視為代碼。

不要僅僅相信分析師,無(wú)論他們多么聰明,都可以制作出完美的Excel工作表。出色的程序員和出色的分析師也會(huì)犯錯(cuò)誤。

應(yīng)當(dāng)進(jìn)行邏輯審查,測(cè)試用例和健全性檢查,以減少這些錯(cuò)誤。在貴公司由于不良信息而損失大量資金之前,這一切似乎都是不必要的。

解決方案2:使用Python和SQL自動(dòng)化Excel

為定義明確的業(yè)務(wù)流程自動(dòng)化并開發(fā)干凈的數(shù)據(jù)工作流,這些業(yè)務(wù)流程可以轉(zhuǎn)換為SQL和代碼。

許多報(bào)告需要從報(bào)告或數(shù)據(jù)庫(kù)表中復(fù)制粘貼數(shù)據(jù)。除了復(fù)制粘貼外,還有一些方法可以自動(dòng)提供數(shù)據(jù)輸出。

可以通過有限的操作將SQL,代碼和電子表格結(jié)合使用。代碼仍然容易出錯(cuò),但是,通??梢酝ㄟ^限制錯(cuò)誤和輸入數(shù)量的方式來(lái)編寫代碼。Excel并非如此。Excel的靈活性使它易于出錯(cuò)。

哪種解決方案最佳取決于流程的復(fù)雜性,其重復(fù)性以及基于數(shù)據(jù)解決方案做出的決策有多大。

將數(shù)據(jù)快速放入數(shù)據(jù)倉(cāng)庫(kù)

我現(xiàn)在已經(jīng)與美國(guó)多家公司的數(shù)據(jù)科學(xué)家和分析師進(jìn)行了交談,他們都有一個(gè)主要的抱怨:他們無(wú)法足夠快地獲取數(shù)據(jù)。

這通常是因?yàn)闆]有足夠的數(shù)據(jù)工程師空閑時(shí)間來(lái)提取每個(gè)新數(shù)據(jù)集。這極大地減慢了數(shù)據(jù)科學(xué)家和分析師回答問題的能力,這些問題可能為企業(yè)節(jié)省成千上萬(wàn)(甚至數(shù)百萬(wàn)美元)的費(fèi)用。

在創(chuàng)建管理完善的數(shù)據(jù)系統(tǒng)與快速提供數(shù)據(jù)之間可以找到一個(gè)恒定的平衡,以便業(yè)務(wù)主管可以做出決定。

但是到添加數(shù)據(jù)時(shí),可能為時(shí)已晚。

解決方案1:使用ELT代替ETL進(jìn)行臨時(shí)工作

事實(shí)是,在某種程度上,考慮到現(xiàn)代公司需要快速發(fā)展,有時(shí)使用足夠好的數(shù)據(jù)比等待使用完美的數(shù)據(jù)要好。

需要澄清的是-我確實(shí)相信進(jìn)入中央數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)應(yīng)盡可能準(zhǔn)確和可靠。但是,由于有了備用的中央數(shù)據(jù)存儲(chǔ)系統(tǒng),數(shù)據(jù)科學(xué)家和分析人員可以開始更快地訪問新數(shù)據(jù)集,而不必等待數(shù)據(jù)被100%設(shè)置-告誡您數(shù)據(jù)可能很時(shí)髦。

這是ELT出現(xiàn)的地方。

對(duì)于那些不熟悉ELT和ETL的人。這些是提取,轉(zhuǎn)換數(shù)據(jù)并將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)的方法。請(qǐng)注意,該過程的首字母組成ETL。

過去,我已經(jīng)討論過ETL。問題在于,由于轉(zhuǎn)換通常會(huì)占用大量代碼,因此ETL的開發(fā)速度很慢。這樣做有優(yōu)點(diǎn)也有缺點(diǎn),但我現(xiàn)在不再討論。

ELT將轉(zhuǎn)換移到過程的最后,這使數(shù)據(jù)分析人員和科學(xué)家可以在數(shù)據(jù)完全處理之前開始處理數(shù)據(jù)。就數(shù)據(jù)治理而言,這確實(shí)帶來(lái)了一些風(fēng)險(xiǎn)。

但是,我認(rèn)為ELT在臨時(shí)分析以及試圖找出要為核心數(shù)據(jù)層建模的數(shù)據(jù)集方面發(fā)揮了作用。

ELT有很多解決方案和工具-其中一些是:

  • Airbyte
  • Fivetran
  • Talend

解決方案2:僅導(dǎo)入您需要的數(shù)據(jù)

人們遇到的主要問題之一是要提取太多的數(shù)據(jù)源。

您的團(tuán)隊(duì)?wèi)?yīng)該專注于僅提取符合業(yè)務(wù)目標(biāo)的數(shù)據(jù),而不是提取所有數(shù)據(jù)。

例如,Salesforce和Workday可以具有數(shù)百個(gè)表,具體取決于團(tuán)隊(duì)流程的自定義方式。因此,不要為每個(gè)可能的表創(chuàng)建管道,而只能提取所需的數(shù)據(jù)。

這有助于分配資源并確保您快速獲取數(shù)據(jù)。

一致的數(shù)據(jù)值和定義

 


各個(gè)團(tuán)隊(duì)的數(shù)據(jù)定義和值不一致可能會(huì)導(dǎo)致重大問題。

在許多方面,此問題與我上面提供的解決方案相沖突。但是我僅將重點(diǎn)更多地放在業(yè)務(wù)的核心數(shù)據(jù)模型上,因此我相信這個(gè)問題會(huì)稍有不同。

對(duì)于那些不熟悉此問題的人,讓我提供一個(gè)簡(jiǎn)單的示例。

假設(shè)您要?jiǎng)?chuàng)建一個(gè)衡量多日活動(dòng)與單日活動(dòng)的指標(biāo)。

什么定義了多日活動(dòng)?它是持續(xù)超過24小時(shí)的事件,還是跨越2天或更長(zhǎng)時(shí)間的事件?

定義企業(yè)日常使用的關(guān)鍵概念很重要-每個(gè)業(yè)務(wù)團(tuán)隊(duì)都有可能使用該術(shù)語(yǔ),KPI和定義。如果各個(gè)團(tuán)隊(duì)之間的定義不一致,那么您可能會(huì)看到不一致的報(bào)告:一個(gè)團(tuán)隊(duì)會(huì)說有100天的多日游,而另一個(gè)團(tuán)隊(duì)會(huì)說有90天的多日游。

我已經(jīng)在會(huì)議上看到這引起混亂。突然,而不是專注于某種形式的戰(zhàn)略變革的實(shí)際背景和影響。經(jīng)理和董事正試圖找出造成十次差價(jià)的原因。完全破壞會(huì)議的任何形式的實(shí)際戰(zhàn)略目的,并將其浪費(fèi)在時(shí)間上,因?yàn)檫壿嫼腿藗冊(cè)噲D匹配數(shù)字。

同樣,發(fā)生的另一個(gè)問題是所有各種集成系統(tǒng),例如Workday和Salesforce。各個(gè)字段可能變得不同步。例如,公司的Salesforce實(shí)例可能每周從Workday為員工拉出職位。這是為了減少人工干預(yù),但存在報(bào)告和獲取準(zhǔn)確信息的風(fēng)險(xiǎn)。如果數(shù)據(jù)分析師從Salesforce撤出并認(rèn)為數(shù)據(jù)始終是最新的,則可能是錯(cuò)誤的。

缺乏明確的定義和明確的真理來(lái)源有很多風(fēng)險(xiǎn)。

解決方案1:實(shí)施數(shù)據(jù)治理策略

一個(gè)很好的解決方案是建立數(shù)據(jù)治理流程。

數(shù)據(jù)治理是基于內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)和策略(還控制數(shù)據(jù)使用)來(lái)管理企業(yè)系統(tǒng)中數(shù)據(jù)的可用性,可用性,完整性和安全性的過程。

數(shù)據(jù)治理并非絕無(wú)僅有:它不是數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)。但是有效的數(shù)據(jù)治理可確保數(shù)據(jù)一致且可信賴,并且不會(huì)被濫用。

讓我們特別看一下最后一部分-確保數(shù)據(jù)一致且可信賴。

顧名思義,數(shù)據(jù)治理不可避免地會(huì)為數(shù)據(jù)移動(dòng)增加更多的流程和官僚作風(fēng)。公司設(shè)立了數(shù)據(jù)治理委員會(huì),以確保存在和報(bào)告的數(shù)據(jù)是一致的。

現(xiàn)代公司中的數(shù)據(jù)通常高度集成,并自動(dòng)填充各種第三方資源。我在上面給出了Workday和Salesforce集成的示例。

數(shù)據(jù)治理有助于定義哪些字段應(yīng)來(lái)自哪些來(lái)源,因此您不會(huì)從不同的來(lái)源提取相同的數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)不匹配的風(fēng)險(xiǎn)。

換句話說,數(shù)據(jù)治理是一個(gè)人為的過程。

解決方案2:選擇數(shù)據(jù)沿襲工具

其他更自動(dòng)化的流程可以幫助您的團(tuán)隊(duì)跟蹤數(shù)據(jù)源以及數(shù)據(jù)如何從點(diǎn)a到達(dá)點(diǎn)b。

例如,TreeSchema,Octopai和Kylo之類的工具會(huì)自動(dòng)抓取您團(tuán)隊(duì)的數(shù)據(jù)源以幫助跟蹤元數(shù)據(jù)-元數(shù)據(jù)的所有者,表,數(shù)據(jù)的模式以及數(shù)據(jù)的來(lái)源。

這些工具不僅有助于跟蹤數(shù)據(jù)的來(lái)源,還有助于跟蹤數(shù)據(jù)的更改和不良的數(shù)據(jù)做法。

例如,TreeSchema提供了一些功能,例如添加新數(shù)據(jù)源或字段時(shí)發(fā)出警報(bào)。在普通公司中,將創(chuàng)建一個(gè)新的數(shù)據(jù)對(duì)象,但是可能沒有任何文檔可以告訴用戶該數(shù)據(jù)是什么。如果它具有文檔,則可能在某些共享文件夾或SharePoint網(wǎng)站中。相反,使用TreeSchema,您可以集中化數(shù)據(jù)文檔并在其中有漏洞時(shí)獲取更新。

擁有一種跟蹤所有元數(shù)據(jù)的方法可以簡(jiǎn)化事情并消除對(duì)數(shù)據(jù)的混淆。它還創(chuàng)建了更可靠的核心數(shù)據(jù)層。

缺乏清晰的數(shù)據(jù)策略

大多數(shù)公司面臨的最大挑戰(zhàn)之一是缺乏明確的方向。要使用,分析,構(gòu)建和集成數(shù)據(jù)產(chǎn)品的數(shù)據(jù)太多,因此很難知道從哪里開始。

建立清晰的數(shù)據(jù)策略通常是第一步。

這意味著要查看您的總體業(yè)務(wù)目標(biāo),然后查看可以將其與數(shù)據(jù)目標(biāo)保持一致的方法,而不是相反。

我曾與旨在將AI集成到其服務(wù)中的客戶合作,但他們并沒有真正想到AI在其整體業(yè)務(wù)戰(zhàn)略中將扮演的角色。

解決方案1:首先確定您的業(yè)務(wù)目標(biāo)

在您花數(shù)千美元(如果不是數(shù)十萬(wàn)美元)購(gòu)買某種新的機(jī)器學(xué)習(xí)模型或數(shù)據(jù)倉(cāng)庫(kù)之前,請(qǐng)確保對(duì)您的業(yè)務(wù)有所幫助。需要對(duì)齊。

首先,計(jì)劃您的業(yè)務(wù)目標(biāo),然后查看您擁有哪些可以幫助實(shí)現(xiàn)這些業(yè)務(wù)目標(biāo)的數(shù)據(jù)。

第一步是通過基本數(shù)據(jù)分析策略清單。

您今天將如何改善數(shù)據(jù)分析流程?

利用數(shù)據(jù)做出更好的決策可以為公司帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)。但是,這取決于數(shù)據(jù)的質(zhì)量和設(shè)置的數(shù)據(jù)過程的健壯性。

僅創(chuàng)建儀表板,數(shù)據(jù)倉(cāng)庫(kù)和機(jī)器學(xué)習(xí)模型不足以做出由數(shù)據(jù)驅(qū)動(dòng)的決策。在開發(fā)未來(lái)的數(shù)據(jù)產(chǎn)品時(shí),有很多障礙可以吸引您的團(tuán)隊(duì)。

希望這份包含五個(gè)挑戰(zhàn)和解決方案的清單可以幫助您的團(tuán)隊(duì)就如何改善數(shù)據(jù)分析策略做出明智的決定。

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2021-01-26 11:12:57

數(shù)據(jù)分析大數(shù)據(jù)大數(shù)據(jù)分析

2021-01-21 11:01:49

IT領(lǐng)導(dǎo)者數(shù)字化轉(zhuǎn)型首席信息官

2019-10-14 15:57:36

數(shù)據(jù)分析多維度二八法

2015-08-26 10:46:16

大數(shù)據(jù)

2022-08-08 10:20:19

數(shù)據(jù)安全首席信息安全官

2023-02-03 14:28:12

數(shù)據(jù)中心服務(wù)器

2013-11-12 09:35:16

大數(shù)據(jù)

2020-02-09 17:22:27

5大數(shù)據(jù)分析預(yù)測(cè)

2018-06-20 09:24:29

2021-01-22 10:26:27

IT領(lǐng)導(dǎo)者技術(shù)領(lǐng)導(dǎo)者CIO

2020-12-27 08:39:06

物聯(lián)網(wǎng)人工智能物聯(lián)網(wǎng)安全

2020-03-02 16:52:24

大數(shù)據(jù)大數(shù)據(jù)產(chǎn)業(yè)數(shù)據(jù)

2012-08-09 11:10:05

大數(shù)據(jù)數(shù)據(jù)中心

2020-06-09 12:12:34

大數(shù)據(jù)安全數(shù)據(jù)泄露數(shù)據(jù)安全

2023-01-13 10:44:15

2019-10-09 10:07:52

數(shù)據(jù)安全數(shù)據(jù)泄露網(wǎng)絡(luò)釣魚

2022-07-25 15:10:31

數(shù)據(jù)治理管理IT

2021-05-19 18:35:35

Gartner數(shù)據(jù)分析大數(shù)據(jù)

2021-07-01 14:23:16

智能安防智慧城市物聯(lián)網(wǎng)

2019-03-06 15:04:31

互聯(lián)網(wǎng)大數(shù)據(jù)無(wú)服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)