破財不免“災”:摧毀數(shù)據(jù)驅(qū)動戰(zhàn)略的5個錯誤
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。
數(shù)據(jù)化是大勢所趨,各種規(guī)模的公司都開始利用數(shù)據(jù)來進行決策。但根據(jù)高盛2019年的一份報告,企業(yè)實際上很難通過數(shù)據(jù)來建立可持續(xù)的競爭優(yōu)勢。
我們團隊曾與各行各業(yè)的公司合作并為其提供服務,見識過數(shù)據(jù)策略優(yōu)點和缺陷。我曾見到有團隊成功建立了數(shù)據(jù)生命周期、儀表板、機器學習模型和指標,但最后不得不解開、刪除、遷移和升級整個數(shù)據(jù)系統(tǒng)。
在這些項目中,我們看到了幾個反復出現(xiàn)的問題:數(shù)據(jù)治理不足;不良數(shù)據(jù);復雜的Excel文檔;數(shù)據(jù)團隊與業(yè)務之間缺乏協(xié)調(diào);以及過多的儀表板,導致決策混亂。隨著發(fā)展,這些數(shù)據(jù)問題都會逐漸復雜化,并逐漸削弱團隊或公司對數(shù)據(jù)的信任和使用能力。
在本文中,我們將討論其中的一些問題以及可以實施的解決方案,以改進整體數(shù)據(jù)生命周期。
1. 數(shù)據(jù)和事實來源不一致
對于各種業(yè)務不同的工作流程,我們不可避免地要在多個地方輸入相同的數(shù)據(jù)。一個團隊可能對一個業(yè)務流程使用Salesforce,而另一個團隊可能使用Workday。這會導致在每個步驟輸入不一致的數(shù)據(jù)。其原因可能是時機錯誤或者人為錯誤。一旦這些不一致數(shù)據(jù)進入公司的各個數(shù)據(jù)庫,就會對報告造成嚴重的破壞。
只要問問那些向主管提交報告的BI工程師或分析師,他們就會發(fā)現(xiàn)幾份報告間的數(shù)據(jù)略有不同。無論公司規(guī)模如何、數(shù)據(jù)成熟度如何,他們都將遭受這一困擾。我們的團隊曾在多家公司工作過,也為各個行業(yè)提供咨詢,他們都面臨著這個問題。
解決方案1:制定數(shù)據(jù)治理策略
這通常可以通過數(shù)據(jù)治理策略來解決。數(shù)據(jù)治理涉及管理數(shù)據(jù)的有效性、可用性、完整性和安全性。
如何部署該數(shù)據(jù)治理策略取決于你是希望擁有一個緊密的、集中的數(shù)據(jù)流程,還是想要一個分散的、獨立的流程,流程偶有重合,以避免核心數(shù)據(jù)模型重疊。
數(shù)據(jù)治理不是一個性感的名詞。它不是數(shù)據(jù)科學或機器學習,但它是數(shù)據(jù)科學和機器學習部門的基礎(chǔ)。如果不能把握核心事實的來源,會導致許多相互矛盾的策略。
解決方案2:組建中央數(shù)據(jù)團隊以快速做出決策
另一種策略——培養(yǎng)一個核心數(shù)據(jù)團隊——對于想要快速發(fā)展的大公司來說不太推薦。該策略僅關(guān)注開發(fā)和管理數(shù)據(jù)集。當公司規(guī)模較小時,數(shù)據(jù)團隊本身也會很小,這個策略就能發(fā)揮作用。
當需要對事實來源和數(shù)據(jù)完整性做出決定時,這種策略能讓我們很快得出結(jié)果。沒有必要管理多個團隊或每個月召開一次集中會議。
2. 用Excel管理復雜的商務決策
圖源:unsplash
Excel和電子表格持續(xù)推動著全球公司總值數(shù)十億美元的決策。即使是最聰明的公司,對Excel的依賴也會導致數(shù)百萬甚至數(shù)十億美元的錯誤。
例如,2008年,巴克萊銀行同意收購雷曼兄弟,但Excel的錯誤導致他們在并不打算購買的合同上吃了虧。
雷曼資產(chǎn)的詳細電子表格包含大約1000行,需要轉(zhuǎn)換為PDF格式。但在最初的Excel版本中,隱藏了179條巴克萊不想要的條目。他們備注的不購買的條目沒有被轉(zhuǎn)移到PDF文件中,但隱藏的行被轉(zhuǎn)移到了PDF文件中。結(jié)果,他們不得不購買179份自己不想要的合同。
無獨有偶,2012年,由于Excel錯誤,摩根大通損失了近60億美元。
Excel文檔是一種非常通用的數(shù)據(jù)工具,可以幫助團隊管理很多工作流程。但是,由于復雜的設(shè)計、人為錯誤以及Excel的常規(guī)操作方式,這些文檔也很容易出錯。
解決方案1:像工程師對待代碼一樣對待Excel
如果你使用Excel來做重大決策,則應像工程師對待代碼一樣對待它。也就是說,應該有Excel檢查和測試用例。這看起來可能有點矯枉過正,但Excel非常像代碼。事實上,有些人甚至認為它是第四代編碼語言。這意味著它很容易因邏輯、過程和輸入而產(chǎn)生錯誤。反過來,它也應該被這樣對待。
不要只相信分析師,不管他們有多聰明,能做出多完美的Excel表。優(yōu)秀的程序員可能會制造bug,聰明的分析師也是如此。
因此,應該進行邏輯審查、測試用例和健全檢查,以減少這類錯誤。這一切看起來似乎沒有必要,除非你的公司因為不良信息而損失了大筆資金。
解決方案2:使用Python和SQL實現(xiàn)Excel自動化
為業(yè)務流程自動化開發(fā)干凈的數(shù)據(jù)工作流,這些業(yè)務流程定義明確且可以轉(zhuǎn)換為SQL和代碼。許多報告都需要從報告或數(shù)據(jù)庫表中復制和粘貼數(shù)據(jù)。除了復制和粘貼外,你還可以使用一些其它方法來開發(fā)可自動提供數(shù)據(jù)輸出的解決方案。
可以使用SQL、代碼和Excel相結(jié)合的方式來進行有限的操作。盡管代碼依然容易出錯,但它通??梢酝ㄟ^限制錯誤和輸入數(shù)量的方式來編寫。Excel并非如此,Excel的靈活性是它易于出錯的原因。最佳解決方案取決于流程的復雜性、重復性以及根據(jù)數(shù)據(jù)解決方案做出的決策量。
3. 商業(yè)智能儀表盤過多,目的性不足
商業(yè)智能儀表盤是非常強大的工具,可以幫助提取信息并提供見解和指導。然而,由于其易開發(fā)性和普及的便捷性,導致公司經(jīng)常被儀表盤淹沒。這些儀表盤并不總是與公司的優(yōu)先事項保持一致,它們本身可能不夠簡潔,無法做出決策,有時只是一些浮于表面的指標。
儀表盤易于制造,但這并不意味著團隊應該快速推出它們。每個儀表盤都應該具有實用意義。儀表板應該驅(qū)動某種動作并發(fā)出通知。
解決方案1:問自己到底為什么要建立儀表板
為了避免開發(fā)過多的儀表盤,團隊應該制定一個流程,弄清楚為什么要建立儀表盤。我們經(jīng)常發(fā)現(xiàn)儀表只是在經(jīng)理或主管的要求下建成,并沒有經(jīng)過深思熟慮。這些儀表板最終會被扔進儀表盤“墓地”。它們僅被使用一次,或者可能幾個月。然后突然被遺忘。在這種情況下,Excel報告可能會更好。
4. 試圖分析大量數(shù)據(jù)而沒有足夠的行動
我們注意到的一種較常見的模式是,大多數(shù)公司在達到一定規(guī)模和復雜度后,數(shù)據(jù)會多到不知如何處理。
這可能導致幾個問題。一些公司嘗試在大型數(shù)據(jù)倉庫項目中一次性從每個數(shù)據(jù)源中提取所有數(shù)據(jù)。這成本昂貴,耗費時間并且結(jié)果可能令人沮喪。公司最終會花費數(shù)十萬至數(shù)百萬美元來開發(fā)數(shù)據(jù)倉庫,卻發(fā)現(xiàn)這將花費兩年時間,并且耗費的資金是他們預算的兩倍。
解決方案1:進行小規(guī)模、快速的數(shù)據(jù)戰(zhàn)役
不要試圖一次獲取所有數(shù)據(jù),而是找出公司想了解更多信息的幾個關(guān)鍵領(lǐng)域。團隊應該制定一個計劃,以解決這些問題。它是儀表板,報告還是類似的東西?然后,這將推動許多數(shù)據(jù)倉庫的第一個版本。
公司應該花費大量的時間來規(guī)劃數(shù)據(jù)倉庫的設(shè)計、主要實體、數(shù)據(jù)治理等等。但是,如果花了太多的時間來規(guī)劃,卻只是建立框架,那么最終企業(yè)所有者會感到焦躁不安。因此,在前進的道路上取得一些小的成功可以保持人們的積極性。
圖源:unsplash
5. 使用低質(zhì)量和不完整的數(shù)據(jù)
胡亂輸入,胡亂輸出。如果你在數(shù)據(jù)行業(yè)工作過一段時間,就會習慣聽到這句話。更啰嗦的說法是:根據(jù)錯誤的數(shù)據(jù)做出正確的決定,實際上還是錯誤的決定。將不良數(shù)據(jù)放入儀表板,報告和模型中只會提供無效的結(jié)果。
我們已經(jīng)看到,公司花費數(shù)月甚至數(shù)年的時間使用數(shù)據(jù),大家都認為這些數(shù)據(jù)是正確的且無人質(zhì)疑。但只要稍加挖掘,他們就會發(fā)現(xiàn)數(shù)據(jù)不完整、不準確、不可信。每個公司都有不良數(shù)據(jù)。唯一的問題是:他們是否會使用這些數(shù)據(jù)來做出價值數(shù)百萬美元的決策?
解決方案1:創(chuàng)建自動質(zhì)量檢查系統(tǒng)
數(shù)據(jù)通常由人輸入,因此很容易出錯。團隊需要開發(fā)某種形式的自動數(shù)據(jù)質(zhì)量檢查系統(tǒng)來管理這些錯誤。
在大多數(shù)系統(tǒng)中,數(shù)據(jù)量過大而無法手動檢查,這種情況下,有一個解決方案。用戶所做的大部分數(shù)據(jù)質(zhì)量檢查都可以記下來,并放入自動質(zhì)量檢查系統(tǒng)中。這樣可以為整個公司節(jié)省數(shù)百至數(shù)千小時,并提高準確性。
這些檢查可以是直接的數(shù)據(jù)檢查,即要確保輸入的所有國家都是真實的,也可以更多的動態(tài)檢查,例如進行測試以確保每個月的總支出保持在特定范圍內(nèi)。總體而言,進行這些初始的列級檢查和匯總檢查會非常有幫助。
解決方案2:始終使用集成測試
建立儀表盤時,尤其是具有計算字段、混合數(shù)據(jù)集和過濾器的儀表盤時,團隊應創(chuàng)建集成測試,以確保儀表盤工具內(nèi)的邏輯不會更改初始數(shù)據(jù)。
個人認為應該將盡可能地將邏輯限制在一個地方,例如查詢本身。由于通常不會發(fā)生這種情況,因此團隊應確保他們在儀表盤上看到的數(shù)據(jù)與他們輸入的數(shù)據(jù)匹配。
有許多簡單的集成測試可供使用。例如,也許你知道數(shù)據(jù)集應包含1000個人。那么,建立一個基本的集成儀表盤,統(tǒng)計數(shù)據(jù)集中有多少人。這一點在使用Tableau中的混合功能時尤為重要。如果不仔細考慮最終數(shù)據(jù),可能會導致很多問題。為避免這些問題,最好考慮一些基本的集成測試。
圖源:unsplash
利用數(shù)據(jù)做出更好的決策可以為企業(yè)提供競爭優(yōu)勢。但是,數(shù)據(jù)質(zhì)量和數(shù)據(jù)流程的穩(wěn)健性確實會影響數(shù)據(jù)策略的成功與否。
僅創(chuàng)建儀表盤、數(shù)據(jù)倉庫和機器學習模型并不足以做出以數(shù)據(jù)為依據(jù)的決策。團隊需要考慮其數(shù)據(jù)生命周期以及用于管理每個步驟的流程。這意味著創(chuàng)建測試用例、明確的目標和流程,以幫助改善團隊的績效和策略。
沒有人愿意被繁瑣的流程和官僚主義所困擾,但如果沒有團隊數(shù)據(jù)生命周期的計劃或策略,就會讓陷入失敗,請?zhí)崆氨苊膺@個問題。