數(shù)據(jù)管理的11個秘密
有人稱數(shù)據(jù)為“新石油”,也有人稱其為“新黃金”。拋去這些比喻的合理性不論,毫無疑問,對于任何希望兌現(xiàn)數(shù)據(jù)驅(qū)動決策承諾的企業(yè)來說,組織和分析數(shù)據(jù)都是一項至關(guān)重要的工作。
為此,可靠的數(shù)據(jù)管理策略便成為關(guān)鍵所在。這包括數(shù)據(jù)治理、數(shù)據(jù)運營、數(shù)據(jù)倉庫、數(shù)據(jù)工程、數(shù)據(jù)分析、數(shù)據(jù)科學(xué)等,數(shù)據(jù)管理如果做得好,可以為每個行業(yè)的企業(yè)提供競爭優(yōu)勢。
好消息是,基于幾十年來發(fā)展的合理原則,數(shù)據(jù)管理的許多方面都得到了很好的理解。例如,它們可能不易應(yīng)用或理解,但多虧了基準(zhǔn)科學(xué)家和數(shù)學(xué)家,公司現(xiàn)在擁有一系列用于分析數(shù)據(jù)和得出結(jié)論的回歸框架(logistical frameworks)。更重要的是,我們還有統(tǒng)計模型,可以繪制誤差線來描述我們的分析范圍。
不過,盡管研究和推動數(shù)據(jù)科學(xué)的各類學(xué)科帶來了諸多好處,但有時我們?nèi)匀幻恢^腦。企業(yè)經(jīng)常會遇到各種難題:一些悖論與收集和組織如此多數(shù)據(jù)的實際挑戰(zhàn)有關(guān);一些涉及哲學(xué)問題,測試我們推理抽象性質(zhì)的能力;更有甚者圍繞收集大量數(shù)據(jù)的隱私問題正日益加劇。
以下是數(shù)據(jù)管理的11個秘密:
1、非結(jié)構(gòu)化數(shù)據(jù)難以分析
企業(yè)中有80%-90%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),隨著數(shù)字化轉(zhuǎn)型逐漸步入深水區(qū),非結(jié)構(gòu)化數(shù)據(jù)量正在飛速增長。這些數(shù)據(jù)以文檔、圖片、音視頻等形式散落在企業(yè)內(nèi)部,由于部門、應(yīng)用、架構(gòu)、多云環(huán)境等原因形成非結(jié)構(gòu)化數(shù)據(jù)孤島,難以進行共享和利用,挖掘出內(nèi)容價值,嚴(yán)重阻礙企業(yè)的數(shù)字化轉(zhuǎn)型進程。
舉個例子,我有一個朋友渴望使用人工智能來搜索其銀行呼叫中心工作人員記錄的文字,因為這些文字可能包含有助于改善銀行貸款和服務(wù)的見解。但是,這些筆記是由數(shù)百名不同的人記錄的,他們對于如何寫下給定電話的內(nèi)容有不同的想法。此外,每個工作人員也有不同的寫作風(fēng)格和能力。有些人根本沒有記錄下太多信息;有些人則記錄了太多自己解讀的內(nèi)容。這些文本本身就沒有太多結(jié)構(gòu)可言,當(dāng)你有成百上千名員工幾十年來記錄的一堆文字時,任何結(jié)構(gòu)都可能變得更弱。
2、即便是結(jié)構(gòu)化數(shù)據(jù)也常常是非結(jié)構(gòu)化的
優(yōu)秀的科學(xué)家和數(shù)據(jù)庫管理員通過指定每個字段的類型和結(jié)構(gòu)來指導(dǎo)數(shù)據(jù)庫。有時,以更多結(jié)構(gòu)的名義,他們將給定字段中的值限制為特定范圍內(nèi)的整數(shù)或預(yù)定義的選擇。即便如此,填寫數(shù)據(jù)庫存儲表格的人還是會想方設(shè)法地增加難度。當(dāng)他們認(rèn)為某個問題不適用時,有時以字段為空表示;其他人則會輸入破折號或首字母“n.a.”來表示。優(yōu)秀的開發(fā)人員可以通過驗證發(fā)現(xiàn)其中一些問題。優(yōu)秀的數(shù)據(jù)科學(xué)家還可以通過清理來減少這種不確定性。但令人抓狂的是,即使是最結(jié)構(gòu)化的表格也有可疑條目——這些可疑條目可能會在分析中引入未知數(shù)甚至錯誤。
3、數(shù)據(jù)模式(schema)要么太嚴(yán)格要么太寬松
無論數(shù)據(jù)團隊如何努力闡明模式約束(schema constraint),用于定義各種數(shù)據(jù)字段中值的最終模式還是要么太嚴(yán)格,要么太寬松。如果數(shù)據(jù)團隊添加了嚴(yán)格的約束,用戶會抱怨他們的答案在有限的可接受值列表中找不到。如果數(shù)據(jù)模式過于寬松,用戶可以添加幾乎沒有一致性的奇怪值。
4、數(shù)據(jù)法非常嚴(yán)格
關(guān)于隱私和數(shù)據(jù)保護的法律很強大,而且只會越來越強大。在GDPR、HIPPA等十多個法規(guī)的約束下,收集數(shù)據(jù)可能非常困難,而且一旦遭遇黑客入侵將會更加危險。在許多情況下,請律師的錢會比雇傭程序員或數(shù)據(jù)科學(xué)家的錢多得多。這些令人頭疼的問題就是一些公司會在處理完數(shù)據(jù)后立即將其處理掉的原因所在。
5、數(shù)據(jù)清洗成本巨大
數(shù)據(jù)清洗也叫數(shù)據(jù)清理,是指從數(shù)據(jù)庫或數(shù)據(jù)表中更正和刪除不準(zhǔn)確數(shù)據(jù)記錄的過程。廣義地說,數(shù)據(jù)清洗包括識別和替換不完整、不準(zhǔn)確、不相關(guān)或有問題的數(shù)據(jù)和記錄。
許多數(shù)據(jù)科學(xué)家承認(rèn),90%的工作只是收集數(shù)據(jù),將其以一致的形式呈現(xiàn),并處理無窮無盡的漏洞或錯誤。擁有數(shù)據(jù)的人總是會說,“一切都在CSV(逗號分隔值,一種通用的、相對簡單的文件格式)中,可以隨時使用?!钡麄儧]有提到空白字段或錯誤描述。相較于在R或Python中啟動例程以實際執(zhí)行統(tǒng)計分析,清洗用于數(shù)據(jù)科學(xué)項目的數(shù)據(jù)所需的時間要高達10倍之多。
6、用戶越來越懷疑你的數(shù)據(jù)實踐
最終用戶和客戶對公司的數(shù)據(jù)管理實踐越來越懷疑,人工智能算法及其使用只會加劇恐懼,讓越來越多的人對捕獲其數(shù)據(jù)的行為深感不安。這些擔(dān)憂正在推動監(jiān)管進程,并經(jīng)常使公司陷入公共關(guān)系危機。不僅如此,人們還故意用虛假值或錯誤答案干擾數(shù)據(jù)收集。有時一半的工作是與惡意合作伙伴和客戶打交道。
7、整合外部數(shù)據(jù)可以獲得回報,也會帶來災(zāi)難
公司擁有所收集數(shù)據(jù)的所有權(quán)是一回事,但是他們想要將自己的本地信息與第三方數(shù)據(jù)以及互聯(lián)網(wǎng)上存在的海量個性化信息整合起來又是另一回事。一些工具公開承諾會收集每個客戶的數(shù)據(jù),以便在每次購買時建立個性化檔案。沒錯,它們正在使用與追蹤恐怖分子的間諜機構(gòu)相同的詞來跟蹤你的快餐購買和信用評分。難怪人們會感到擔(dān)心和恐慌!
8、監(jiān)管機構(gòu)正在打擊數(shù)據(jù)使用
沒人知道精明的數(shù)據(jù)分析何時會越界,但一旦越界,監(jiān)管機構(gòu)就會出動。在最近發(fā)生在加拿大的一個案例中,政府調(diào)查發(fā)現(xiàn)一些甜甜圈店會跟蹤也在競爭對手那里購物的顧客。據(jù)最新發(fā)布的一份新聞稿稱,“調(diào)查發(fā)現(xiàn),Tim Hortons與一家美國第三方定位服務(wù)供應(yīng)商的合同包含的語言非常模糊和寬容,以至于允許該公司為自己的目的出售‘去識別化’的定位數(shù)據(jù)?!睘榱耸裁?賣更多的甜甜圈?無論如何,事實證明監(jiān)管機構(gòu)正越來越關(guān)注涉及個人信息的任何事情。
9、你的數(shù)據(jù)方案可能不值得
我們想象一個出色的算法可以讓一切變得更加高效和有利可圖。有時這樣的算法實際上是可能的,但價格也可能太高。例如,消費者(甚至公司)正越來越多地質(zhì)疑來自精心設(shè)計的數(shù)據(jù)管理方案的定向營銷的價值。有些人指出,我們經(jīng)??吹揭奄徺I的東西的廣告,因為廣告跟蹤器還沒有發(fā)現(xiàn)我們已經(jīng)不需要它了。同樣的命運經(jīng)常會降臨到其他計劃上。有時,嚴(yán)格的數(shù)據(jù)分析會確定表現(xiàn)最差的工廠,但這無所謂,因為該公司簽署了一份為期30年的大樓租約。公司需要為這種可能性做好準(zhǔn)備,即所有數(shù)據(jù)科學(xué)天才可能會產(chǎn)生一個不可接受的答案。
10、最后,數(shù)據(jù)決策通常只是主觀判斷
數(shù)字可以提供足夠的精確度,但人類如何解釋它們往往是最重要的。在所有的數(shù)據(jù)分析和人工智能操作后,大多數(shù)算法都需要決定某個值是超過還是低于閾值。有時,科學(xué)家希望p值低于0.05;有時,警察會為超速20%的汽車開出罰單。這些閾值通常只是任意值。對于可以應(yīng)用于數(shù)據(jù)的所有科學(xué)和數(shù)學(xué),許多“數(shù)據(jù)驅(qū)動”流程中的灰色區(qū)域比我們想象的要多,盡管公司可能在其數(shù)據(jù)管理實踐中投入了所有資源,但決策更多的還是取決于直覺和主觀判斷。
11、數(shù)據(jù)存儲成本呈爆炸式增長
磁盤驅(qū)動器的容量越來越大,且每TB的價格不斷下降,但程序員收集數(shù)據(jù)的速度明顯快于價格下降的速度。來自物聯(lián)網(wǎng)(IoT)的設(shè)備不斷上傳數(shù)據(jù),用戶希望能夠永遠瀏覽這些字節(jié)的豐富集合。與此同時,合規(guī)官員和監(jiān)管機構(gòu)不斷要求提供越來越多的數(shù)據(jù),以防將來進行審計。如果有人真的看過其中的一些數(shù)據(jù),那將是一回事,但我們一天只有這么多時間。實際再次訪問的數(shù)據(jù)百分比越來越低。然而,存儲擴展包的價格一直在上漲。