避免數(shù)據(jù)分析災難發(fā)生的6個技巧
數(shù)據(jù)分析對公司來說是非常有價值的,它可以提供對數(shù)據(jù)的深刻見解,而這些見解原本可能是不可見的。
正因為如此,數(shù)據(jù)分析也繼續(xù)吞噬著IT預算的很大一部分。據(jù)2020年的CIO狀況調查顯示,37%的IT主管表示,數(shù)據(jù)分析也將繼續(xù)推動公司今年的IT投資,是最高的單一類別。
但即使如此也不能保證數(shù)據(jù)分析的投資一定會有回報。事實上,這門學科可能已經(jīng)充滿了問題,這些問題可能暫時會使這些項目脫軌,或者讓它們走向失敗。
但避免負面結果是任何想要利用數(shù)據(jù)分析的公司都能做到的--只要他們投入必要的準備和工作。以下是一些組織可以采取的步驟,以避免數(shù)據(jù)分析災難的發(fā)生和帶來失望。
制定全面的數(shù)據(jù)管理策略
公司應該采取的第一步是建立一個全面的數(shù)據(jù)管理策略,以定義數(shù)據(jù)的收集、處理和分析,IT專業(yè)組織CompTIA的技術分析高級主管Seth Robinson說。
“企業(yè)已經(jīng)采取了類似的措施,將網(wǎng)絡安全作為了IT的關鍵業(yè)務組件,但數(shù)據(jù)管理也應該遵循同樣的路徑,因為數(shù)據(jù)對企業(yè)運營來說已變得如此重要。”Robinson表示。
CompTIA最近發(fā)布了一份名為“數(shù)據(jù)管理趨勢”的報告,該報告是基于對美國400名IT專業(yè)人士在2019年12月進行的一項在線調查。報告顯示,許多企業(yè)都處于制定數(shù)據(jù)管理戰(zhàn)略的早期階段。
在接受調查的組織中,只有25%的人認為他們在公司數(shù)據(jù)管理方面正處于理想狀態(tài)。報告稱,盡管數(shù)據(jù)長期以來一直就是IT運營的一部分,但在工作角色或已定義的組件方面并沒有受到太多關注。
該戰(zhàn)略的一個重要組成部分是擁有正確的數(shù)據(jù)分析技能,以滿足公司的需求。
“數(shù)據(jù)相關的技能差距是企業(yè)在制定數(shù)據(jù)管理計劃時必須面臨的(第三大)挑戰(zhàn),它們需要一系列不同的數(shù)據(jù)技能。”Robinson表示。其中包括了數(shù)據(jù)庫管理、數(shù)據(jù)分析和數(shù)據(jù)可視化。“其中的一些技能可以傳授給現(xiàn)有的員工,而其他技能則可能需要新的招聘或合作。”他說。
根據(jù)CompTIA的數(shù)據(jù),只有44%的公司表示,他們內部已經(jīng)有了專門從事數(shù)據(jù)管理或數(shù)據(jù)分析的IT員工。雖然人們關注的是像數(shù)據(jù)科學家這樣的新職位,但依然會有更多傳統(tǒng)角色的機會,包括數(shù)據(jù)庫管理員。
“你必須咨詢或培訓你的業(yè)務員工,使其具備數(shù)據(jù)素養(yǎng),否則你的團隊中可能沒有人知道可以如何開始關于數(shù)據(jù)分析的討論。”咨詢公司W(wǎng)est Monroe技術實踐的高級架構師Jeremy Wortz補充道。
“不是每個人都需要成為數(shù)據(jù)科學家,但所有的商業(yè)領袖都需要對分析如何驅動價值有一個基本的理解。”
優(yōu)先考慮數(shù)據(jù)集成
與數(shù)據(jù)分析相關的最常見的問題實際上是出現(xiàn)在整個數(shù)據(jù)流過程的早期,缺乏數(shù)據(jù)集成,Robinson說。“如果沒有將所有的公司數(shù)據(jù)聯(lián)系在一起,數(shù)據(jù)分析就將在尋找聯(lián)系和洞察力方面受到限制。”他說。
CompTIA的研究發(fā)現(xiàn),整合數(shù)據(jù)將會是解決問題的關鍵。公司在其數(shù)據(jù)管理戰(zhàn)略中列舉了兩個挑戰(zhàn)。只有加快數(shù)據(jù)分析的步伐才能在挑戰(zhàn)中名列前茅。
幾年來,CompTIA research發(fā)現(xiàn),在技術計劃上獨立工作的業(yè)務部門最終會面臨集成方面的挑戰(zhàn)。因此,組織正在試圖避免影子IT,轉而采用協(xié)作性的方法,這種方法可以在保持對所有業(yè)務系統(tǒng)的包容性視圖的同時,仍然給業(yè)務部門一些自由。
CompTIA的報告說,將數(shù)據(jù)收集到一個單一的存儲庫中將會是這種方法的一部分,另外,對于能夠在盡可能廣泛的數(shù)據(jù)集上運行AI計劃也是至關重要的。該研究指出,盡管數(shù)據(jù)集成可能會是最大的挑戰(zhàn),但在被調查者中,數(shù)據(jù)孤島問題依舊沒有被廣泛認為是一個問題。
考慮到82%的公司表示他們有一個高度的或中等程度的數(shù)據(jù)孤島,“在數(shù)據(jù)孤島方面究竟有多大的問題,以及如何將它們準確地集成到一個公共數(shù)據(jù)集上,存在明顯的脫節(jié)。”報告說。
除了數(shù)據(jù)源的技術集成之外,企業(yè)還需要在各個業(yè)務部門和IT職能部門之間建立數(shù)據(jù)共享流程。
“就像其他的許多方面一樣,這些組織之間的合作需求也在不斷的增長。”Robinson說。“業(yè)務部門帶來的知識將是最有幫助的見解,而IT團隊則擁有交付技術解決方案的專業(yè)知識。定期溝通將有助于建立適當?shù)姆答佈h(huán),以優(yōu)化數(shù)據(jù)分析,為業(yè)務提供最佳的服務。”
進行有效的DataOps實踐
DataOps(data operations)是一種自動化的、面向流程的方法,數(shù)據(jù)分析團隊可以使用它來提高分析質量和縮短分析周期。它最初只是一組最佳實踐,而現(xiàn)在已經(jīng)成熟為了一種新的、獨立的數(shù)據(jù)分析方法。
該方法適用于從數(shù)據(jù)準備到報告的整個數(shù)據(jù)生命周期,并承認了數(shù)據(jù)分析團隊和IT運營之間的內在聯(lián)系。
與DevOps類似,DataOps整合了敏捷方法,以縮短分析開發(fā)的周期,使之能夠與業(yè)務目標保持一致。DevOps可以通過利用IT資源和自動化測試和部署來持續(xù)交付高質量的軟件,而DataOps的目標也是為數(shù)據(jù)分析帶來同樣的改進。
跨國生物制藥公司Amgen的數(shù)據(jù)戰(zhàn)略與運營高級總監(jiān)James Royster表示,如果企業(yè)想要改善分析結果,“全面實施DataOps是至關重要的”。
該公司已經(jīng)從DataKitchen部署了一個DataOps平臺,并取得了“巨大的成功”,Royster說。“DataOps涉及到需要設計一個帶有內置錯誤處理的數(shù)據(jù)分析,”他說。“數(shù)據(jù)分析需要使用自動化的方法來測試和控制數(shù)據(jù)的質量,以便減少錯誤并避免數(shù)據(jù)的完整性問題。”
組織經(jīng)常會遇到數(shù)據(jù)錯誤的問題,這些問題可能會危及項目本身,Royster說。這些錯誤包括了底層數(shù)據(jù)集的錯誤。“所以你必須對原始數(shù)據(jù)進行清理和預處理,”他表示。“錯誤在任何大型數(shù)據(jù)集中都是很常見的。”
此外,從具有不同業(yè)務規(guī)則的不同位置獲取相同的數(shù)據(jù)也可能會產(chǎn)生錯誤。“同一企業(yè)中的不同組織可能會使用不同的算法、工作流或假設來處理相同的數(shù)據(jù)。”Royster說。
許多公司還不能快速連接和轉換數(shù)據(jù)以滿足當前的需求。“市場在迅速發(fā)展,業(yè)務需求也在變化,”Royster說。“數(shù)據(jù)團隊必須能夠更新數(shù)據(jù)轉換,以跟上用戶和利益相關者的請求。”
提出正確的數(shù)據(jù)分析問題
組織需要堅持不懈地關注那些能夠通過數(shù)據(jù)分析傳遞價值的關鍵問題,West Monroe的Wortz說。
“事實是,無論你的工具和技術有多先進,你的數(shù)據(jù)本身都不會帶來任何價值,除非你能獲得驅動戰(zhàn)略結果的洞察力,”Wortz說。所有的分析,包括人工智能和機器學習,都應該產(chǎn)生深刻的見解,他補充道。
實現(xiàn)這一目標的關鍵是能夠提出與價值創(chuàng)造相關的有影響力的問題,Wortz說。“潛在客戶需要多長時間才能成為真正的客戶?為什么客戶會流失?他們什么時候會帶來變化?”他說。“一旦你有了基本的答案,你就可以提出與業(yè)務相關的假設,然后用新的、更簡單的問題重新開始這個過程。”
West Monroe最近在與一個客戶合作,進行了一個以銷售為中心的人工智能和機器學習項目。
“機器學習模型為組織帶來了大量的收入,但是我們在為算法做準備的整個過程中都保持著對數(shù)據(jù)集的洞察力,”Wortz說。“我們中的許多人都認為,通過在數(shù)據(jù)中發(fā)現(xiàn)普遍適用的洞見(例如基于特定產(chǎn)品的特定地區(qū)的特定客戶問題),ML的工作所產(chǎn)生的價值與向AI算法所輸入的數(shù)據(jù)一樣多。
這給了該組織一個快速增值的機會,因為West Monroe建立了ML系統(tǒng)的長期價值,“同時這也為算法提供了更高質量的數(shù)據(jù)集,”Wortz說。
只分析干凈、準確的數(shù)據(jù)
這種做法可能是屬于構建和執(zhí)行總體數(shù)據(jù)管理戰(zhàn)略的范疇。但它本身作為一種最佳實踐仍然值得一提。如果分析的數(shù)據(jù)不準確,結果和見解就會受到污染。
“在我看來,最重要的步驟是,在提供任何見解之前,數(shù)據(jù)必須是可辯護的、可理解的和可接受的,”技術研究和咨詢公司ISG的首席數(shù)據(jù)和分析官Kathy Rudy表示。
“這意味著數(shù)據(jù)需要是干凈的、最新的、有效的,并且來自可信的記錄系統(tǒng),”Rudy說。“干凈的數(shù)據(jù)意味著在進行任何分析之前,你可能已經(jīng)花了大量時間來檢查和清理數(shù)據(jù)。”這通常會花費相當多的時間,尤其是在跨數(shù)據(jù)庫交付報告的情況下。”
Rudy表示,這會是一個關鍵的步驟,通常被稱為主數(shù)據(jù)管理。
“管理層必須確認數(shù)據(jù)的來源、流通和準確性,否則他們就不會接受結果,而你將需要花更多的時間來捍衛(wèi)數(shù)據(jù),而不是交付價值,”Rudy說。“它還會給數(shù)據(jù)團隊帶來不必要的周期,可能會讓你失去可信度。”
在線學生服務提供商Kaplan Higher Education的首席信息官Pratyush Rai表示,擁有堅實的技術基礎非常重要,“尤其是在數(shù)據(jù)準備方面,而在許多組織中,對底層架構的關注顯然不夠。”這會導致重復記錄和臟數(shù)據(jù)的產(chǎn)生,使得數(shù)據(jù)分析更具有挑戰(zhàn)性。”
創(chuàng)建一個有凝聚力的協(xié)作分析團隊
成功的分析以及避免失望需要團隊的合作,這通常也意味著必須消除部門的孤立。
“組織通常很難創(chuàng)建和共享數(shù)據(jù)體驗,因為數(shù)據(jù)往往是存儲在多個孤島上的,并且缺乏用于治理、數(shù)據(jù)發(fā)現(xiàn)、編目的工具,以及工程、分析和業(yè)務團隊之間的協(xié)作,”為能源行業(yè)提供分析服務的公司Vortexa的首席技術官Maksym Schipka表示。
“你需要把你的團隊組織成多功能的團隊,在一個團隊中平衡業(yè)務分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學家、軟件工程師和質量保證,”Schipka說。“要避免陷入擁有一個單獨的數(shù)據(jù)科學團隊的陷阱。因為這肯定會導致項目的失敗。”
Vortex確保了分析團隊能夠完全掌握它所使用的分析工具的選擇,比如來自Lenses.io的數(shù)據(jù)操作平臺和來自Amazon Web services的云服務。
但Schipka表示,無論使用何種分析工具,組織都應該期望在數(shù)據(jù)分析團隊中擁有數(shù)據(jù)科學家和數(shù)據(jù)工程師的組合。“確切的比例將取決于需要回答的業(yè)務問題的復雜性,以及實現(xiàn)這一目標所需技術的復雜性。”她說。