自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

破財不免“災”:摧毀數(shù)據(jù)驅(qū)動戰(zhàn)略的5個錯誤

大數(shù)據(jù) 數(shù)據(jù)分析
在本文中,我們將討論其中的一些問題以及可以實施的解決方案,以改進整體數(shù)據(jù)生命周期。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。

數(shù)據(jù)化是大勢所趨,各種規(guī)模的公司都開始利用數(shù)據(jù)來進行決策。但根據(jù)高盛2019年的一份報告,企業(yè)實際上很難通過數(shù)據(jù)來建立可持續(xù)的競爭優(yōu)勢。

我們團隊曾與各行各業(yè)的公司合作并為其提供服務,見識過數(shù)據(jù)策略優(yōu)點和缺陷。我曾見到有團隊成功建立了數(shù)據(jù)生命周期、儀表板、機器學習模型和指標,但最后不得不解開、刪除、遷移和升級整個數(shù)據(jù)系統(tǒng)。

在這些項目中,我們看到了幾個反復出現(xiàn)的問題:數(shù)據(jù)治理不足;不良數(shù)據(jù);復雜的Excel文檔;數(shù)據(jù)團隊與業(yè)務之間缺乏協(xié)調(diào);以及過多的儀表板,導致決策混亂。隨著發(fā)展,這些數(shù)據(jù)問題都會逐漸復雜化,并逐漸削弱團隊或公司對數(shù)據(jù)的信任和使用能力。

在本文中,我們將討論其中的一些問題以及可以實施的解決方案,以改進整體數(shù)據(jù)生命周期。

1. 數(shù)據(jù)和事實來源不一致

對于各種業(yè)務不同的工作流程,我們不可避免地要在多個地方輸入相同的數(shù)據(jù)。一個團隊可能對一個業(yè)務流程使用Salesforce,而另一個團隊可能使用Workday。這會導致在每個步驟輸入不一致的數(shù)據(jù)。其原因可能是時機錯誤或者人為錯誤。一旦這些不一致數(shù)據(jù)進入公司的各個數(shù)據(jù)庫,就會對報告造成嚴重的破壞。

只要問問那些向主管提交報告的BI工程師或分析師,他們就會發(fā)現(xiàn)幾份報告間的數(shù)據(jù)略有不同。無論公司規(guī)模如何、數(shù)據(jù)成熟度如何,他們都將遭受這一困擾。我們的團隊曾在多家公司工作過,也為各個行業(yè)提供咨詢,他們都面臨著這個問題。

解決方案1:制定數(shù)據(jù)治理策略

這通常可以通過數(shù)據(jù)治理策略來解決。數(shù)據(jù)治理涉及管理數(shù)據(jù)的有效性、可用性、完整性和安全性。

如何部署該數(shù)據(jù)治理策略取決于你是希望擁有一個緊密的、集中的數(shù)據(jù)流程,還是想要一個分散的、獨立的流程,流程偶有重合,以避免核心數(shù)據(jù)模型重疊。

數(shù)據(jù)治理不是一個性感的名詞。它不是數(shù)據(jù)科學或機器學習,但它是數(shù)據(jù)科學和機器學習部門的基礎(chǔ)。如果不能把握核心事實的來源,會導致許多相互矛盾的策略。

解決方案2:組建中央數(shù)據(jù)團隊以快速做出決策

另一種策略——培養(yǎng)一個核心數(shù)據(jù)團隊——對于想要快速發(fā)展的大公司來說不太推薦。該策略僅關(guān)注開發(fā)和管理數(shù)據(jù)集。當公司規(guī)模較小時,數(shù)據(jù)團隊本身也會很小,這個策略就能發(fā)揮作用。

當需要對事實來源和數(shù)據(jù)完整性做出決定時,這種策略能讓我們很快得出結(jié)果。沒有必要管理多個團隊或每個月召開一次集中會議。

2. 用Excel管理復雜的商務決策

[[354844]]

圖源:unsplash

Excel和電子表格持續(xù)推動著全球公司總值數(shù)十億美元的決策。即使是最聰明的公司,對Excel的依賴也會導致數(shù)百萬甚至數(shù)十億美元的錯誤。

例如,2008年,巴克萊銀行同意收購雷曼兄弟,但Excel的錯誤導致他們在并不打算購買的合同上吃了虧。

雷曼資產(chǎn)的詳細電子表格包含大約1000行,需要轉(zhuǎn)換為PDF格式。但在最初的Excel版本中,隱藏了179條巴克萊不想要的條目。他們備注的不購買的條目沒有被轉(zhuǎn)移到PDF文件中,但隱藏的行被轉(zhuǎn)移到了PDF文件中。結(jié)果,他們不得不購買179份自己不想要的合同。

無獨有偶,2012年,由于Excel錯誤,摩根大通損失了近60億美元。

Excel文檔是一種非常通用的數(shù)據(jù)工具,可以幫助團隊管理很多工作流程。但是,由于復雜的設(shè)計、人為錯誤以及Excel的常規(guī)操作方式,這些文檔也很容易出錯。

解決方案1:像工程師對待代碼一樣對待Excel

如果你使用Excel來做重大決策,則應像工程師對待代碼一樣對待它。也就是說,應該有Excel檢查和測試用例。這看起來可能有點矯枉過正,但Excel非常像代碼。事實上,有些人甚至認為它是第四代編碼語言。這意味著它很容易因邏輯、過程和輸入而產(chǎn)生錯誤。反過來,它也應該被這樣對待。

不要只相信分析師,不管他們有多聰明,能做出多完美的Excel表。優(yōu)秀的程序員可能會制造bug,聰明的分析師也是如此。

因此,應該進行邏輯審查、測試用例和健全檢查,以減少這類錯誤。這一切看起來似乎沒有必要,除非你的公司因為不良信息而損失了大筆資金。

解決方案2:使用Python和SQL實現(xiàn)Excel自動化

為業(yè)務流程自動化開發(fā)干凈的數(shù)據(jù)工作流,這些業(yè)務流程定義明確且可以轉(zhuǎn)換為SQL和代碼。許多報告都需要從報告或數(shù)據(jù)庫表中復制和粘貼數(shù)據(jù)。除了復制和粘貼外,你還可以使用一些其它方法來開發(fā)可自動提供數(shù)據(jù)輸出的解決方案。

可以使用SQL、代碼和Excel相結(jié)合的方式來進行有限的操作。盡管代碼依然容易出錯,但它通??梢酝ㄟ^限制錯誤和輸入數(shù)量的方式來編寫。Excel并非如此,Excel的靈活性是它易于出錯的原因。最佳解決方案取決于流程的復雜性、重復性以及根據(jù)數(shù)據(jù)解決方案做出的決策量。

3. 商業(yè)智能儀表盤過多,目的性不足

[[354845]]

商業(yè)智能儀表盤是非常強大的工具,可以幫助提取信息并提供見解和指導。然而,由于其易開發(fā)性和普及的便捷性,導致公司經(jīng)常被儀表盤淹沒。這些儀表盤并不總是與公司的優(yōu)先事項保持一致,它們本身可能不夠簡潔,無法做出決策,有時只是一些浮于表面的指標。

儀表盤易于制造,但這并不意味著團隊應該快速推出它們。每個儀表盤都應該具有實用意義。儀表板應該驅(qū)動某種動作并發(fā)出通知。

解決方案1:問自己到底為什么要建立儀表板

為了避免開發(fā)過多的儀表盤,團隊應該制定一個流程,弄清楚為什么要建立儀表盤。我們經(jīng)常發(fā)現(xiàn)儀表只是在經(jīng)理或主管的要求下建成,并沒有經(jīng)過深思熟慮。這些儀表板最終會被扔進儀表盤“墓地”。它們僅被使用一次,或者可能幾個月。然后突然被遺忘。在這種情況下,Excel報告可能會更好。

4. 試圖分析大量數(shù)據(jù)而沒有足夠的行動

我們注意到的一種較常見的模式是,大多數(shù)公司在達到一定規(guī)模和復雜度后,數(shù)據(jù)會多到不知如何處理。

這可能導致幾個問題。一些公司嘗試在大型數(shù)據(jù)倉庫項目中一次性從每個數(shù)據(jù)源中提取所有數(shù)據(jù)。這成本昂貴,耗費時間并且結(jié)果可能令人沮喪。公司最終會花費數(shù)十萬至數(shù)百萬美元來開發(fā)數(shù)據(jù)倉庫,卻發(fā)現(xiàn)這將花費兩年時間,并且耗費的資金是他們預算的兩倍。

解決方案1:進行小規(guī)模、快速的數(shù)據(jù)戰(zhàn)役

不要試圖一次獲取所有數(shù)據(jù),而是找出公司想了解更多信息的幾個關(guān)鍵領(lǐng)域。團隊應該制定一個計劃,以解決這些問題。它是儀表板,報告還是類似的東西?然后,這將推動許多數(shù)據(jù)倉庫的第一個版本。

公司應該花費大量的時間來規(guī)劃數(shù)據(jù)倉庫的設(shè)計、主要實體、數(shù)據(jù)治理等等。但是,如果花了太多的時間來規(guī)劃,卻只是建立框架,那么最終企業(yè)所有者會感到焦躁不安。因此,在前進的道路上取得一些小的成功可以保持人們的積極性。

[[354846]]

圖源:unsplash

5. 使用低質(zhì)量和不完整的數(shù)據(jù)

胡亂輸入,胡亂輸出。如果你在數(shù)據(jù)行業(yè)工作過一段時間,就會習慣聽到這句話。更啰嗦的說法是:根據(jù)錯誤的數(shù)據(jù)做出正確的決定,實際上還是錯誤的決定。將不良數(shù)據(jù)放入儀表板,報告和模型中只會提供無效的結(jié)果。

我們已經(jīng)看到,公司花費數(shù)月甚至數(shù)年的時間使用數(shù)據(jù),大家都認為這些數(shù)據(jù)是正確的且無人質(zhì)疑。但只要稍加挖掘,他們就會發(fā)現(xiàn)數(shù)據(jù)不完整、不準確、不可信。每個公司都有不良數(shù)據(jù)。唯一的問題是:他們是否會使用這些數(shù)據(jù)來做出價值數(shù)百萬美元的決策?

解決方案1:創(chuàng)建自動質(zhì)量檢查系統(tǒng)

數(shù)據(jù)通常由人輸入,因此很容易出錯。團隊需要開發(fā)某種形式的自動數(shù)據(jù)質(zhì)量檢查系統(tǒng)來管理這些錯誤。

在大多數(shù)系統(tǒng)中,數(shù)據(jù)量過大而無法手動檢查,這種情況下,有一個解決方案。用戶所做的大部分數(shù)據(jù)質(zhì)量檢查都可以記下來,并放入自動質(zhì)量檢查系統(tǒng)中。這樣可以為整個公司節(jié)省數(shù)百至數(shù)千小時,并提高準確性。

這些檢查可以是直接的數(shù)據(jù)檢查,即要確保輸入的所有國家都是真實的,也可以更多的動態(tài)檢查,例如進行測試以確保每個月的總支出保持在特定范圍內(nèi)。總體而言,進行這些初始的列級檢查和匯總檢查會非常有幫助。

解決方案2:始終使用集成測試

建立儀表盤時,尤其是具有計算字段、混合數(shù)據(jù)集和過濾器的儀表盤時,團隊應創(chuàng)建集成測試,以確保儀表盤工具內(nèi)的邏輯不會更改初始數(shù)據(jù)。

個人認為應該將盡可能地將邏輯限制在一個地方,例如查詢本身。由于通常不會發(fā)生這種情況,因此團隊應確保他們在儀表盤上看到的數(shù)據(jù)與他們輸入的數(shù)據(jù)匹配。

有許多簡單的集成測試可供使用。例如,也許你知道數(shù)據(jù)集應包含1000個人。那么,建立一個基本的集成儀表盤,統(tǒng)計數(shù)據(jù)集中有多少人。這一點在使用Tableau中的混合功能時尤為重要。如果不仔細考慮最終數(shù)據(jù),可能會導致很多問題。為避免這些問題,最好考慮一些基本的集成測試。

[[354847]]

圖源:unsplash

利用數(shù)據(jù)做出更好的決策可以為企業(yè)提供競爭優(yōu)勢。但是,數(shù)據(jù)質(zhì)量和數(shù)據(jù)流程的穩(wěn)健性確實會影響數(shù)據(jù)策略的成功與否。

僅創(chuàng)建儀表盤、數(shù)據(jù)倉庫和機器學習模型并不足以做出以數(shù)據(jù)為依據(jù)的決策。團隊需要考慮其數(shù)據(jù)生命周期以及用于管理每個步驟的流程。這意味著創(chuàng)建測試用例、明確的目標和流程,以幫助改善團隊的績效和策略。

沒有人愿意被繁瑣的流程和官僚主義所困擾,但如果沒有團隊數(shù)據(jù)生命周期的計劃或策略,就會讓陷入失敗,請?zhí)崆氨苊膺@個問題。

 

責任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2024-01-25 11:28:18

CIO數(shù)據(jù)戰(zhàn)略IT領(lǐng)導者

2017-11-23 11:56:00

2017-11-21 10:15:00

2024-03-20 11:29:57

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)

2017-08-14 16:30:38

數(shù)據(jù)庫常犯錯誤

2020-09-17 11:20:08

云計算

2012-06-21 09:56:50

VMware大數(shù)據(jù)

2019-06-27 18:16:30

云計算成本云平臺

2023-07-05 10:30:03

2019-12-04 12:16:04

CIO數(shù)據(jù)驅(qū)動人工智能

2012-05-17 10:08:52

智慧的分析洞察BAO大數(shù)據(jù)

2013-05-02 15:11:56

2014-02-25 10:25:52

單元測試測試

2024-09-22 11:00:35

2019-01-21 08:41:07

物聯(lián)網(wǎng)物聯(lián)網(wǎng)戰(zhàn)略IOT

2019-01-31 10:46:37

2018-05-16 13:28:33

多云云計算公共云

2022-12-08 09:31:28

2023-11-29 20:20:14

2015-08-20 15:21:17

數(shù)據(jù)安全數(shù)據(jù)中心
點贊
收藏

51CTO技術(shù)棧公眾號