不良數(shù)據(jù)會(huì)造成更嚴(yán)重后果的八個(gè)原因
數(shù)據(jù)宕機(jī)是指數(shù)據(jù)丟失、錯(cuò)誤或不準(zhǔn)確的情況。它可能讓人回憶起互聯(lián)網(wǎng)的早期階段,當(dāng)時(shí)的網(wǎng)站會(huì)以令人震驚的頻率出現(xiàn)故障。
現(xiàn)在回想起來,這是有道理的。當(dāng)時(shí)不僅存在基礎(chǔ)設(shè)施方面的挑戰(zhàn),而且使用網(wǎng)絡(luò)的人并不多,網(wǎng)站也沒有那么有價(jià)值。隨著云計(jì)算、電子商務(wù)和SaaS的興起,這種情況發(fā)生了變化,確??煽啃猿蔀槠髽I(yè)的關(guān)鍵任務(wù),站點(diǎn)可靠性工程(SRE)應(yīng)運(yùn)而生。
數(shù)據(jù)如今處于相似的時(shí)刻。技術(shù)在進(jìn)步,企業(yè)的業(yè)務(wù)正在向云遷移,數(shù)據(jù)變得比以往任何時(shí)候都更加廣泛和更具價(jià)值。
由此得出的結(jié)論是,隨著數(shù)據(jù)變得更有價(jià)值,數(shù)據(jù)質(zhì)量差的后果變得更加嚴(yán)重。在一兩年前還適用的最佳實(shí)踐、技術(shù)和投資現(xiàn)在可能影響企業(yè)的競(jìng)爭(zhēng)能力。
根據(jù)調(diào)研機(jī)構(gòu)Gartner公司的預(yù)計(jì),到2025年,80%尋求擴(kuò)展數(shù)字業(yè)務(wù)的企業(yè)將會(huì)失敗,因?yàn)樗麄儧]有采用現(xiàn)代方法進(jìn)行數(shù)據(jù)和分析治理。
以下是不良數(shù)據(jù)導(dǎo)致成本上升的8個(gè)原因:
1.數(shù)據(jù)正在向下游移動(dòng)
不良數(shù)據(jù)的成本取決于誰發(fā)現(xiàn)了問題。如果數(shù)據(jù)工程師發(fā)現(xiàn)了錯(cuò)誤的數(shù)據(jù),他們就會(huì)得到獎(jiǎng)勵(lì)。如果公眾發(fā)現(xiàn)不良數(shù)據(jù),那么可能會(huì)根據(jù)情況產(chǎn)生聲譽(yù)或法律影響。
每個(gè)階段還充當(dāng)過濾器,防止不良數(shù)據(jù)向下游移動(dòng)。目前的挑戰(zhàn)在于,目前數(shù)據(jù)存在多種趨勢(shì),這些趨勢(shì)正在加快數(shù)據(jù)從數(shù)據(jù)民主化、數(shù)據(jù)產(chǎn)品、反向ETL等向下游移動(dòng)的步伐。
2.數(shù)據(jù)堆棧變得越來越復(fù)雜
不良數(shù)據(jù)越往下游傳播,修復(fù)成本就越高。讓數(shù)據(jù)工程師對(duì)ETL管道進(jìn)行故障排除,這比讓數(shù)據(jù)科學(xué)家重新訓(xùn)練已輸入錯(cuò)誤數(shù)據(jù)的機(jī)器學(xué)習(xí)模型要容易和快捷得多。
數(shù)據(jù)的修復(fù)成本高昂。隨著企業(yè)越來越依賴復(fù)雜的數(shù)據(jù)資產(chǎn)來幫助執(zhí)行業(yè)務(wù)決策,不良數(shù)據(jù)的機(jī)會(huì)成本也隨之上升。
例如,一家擁有機(jī)器學(xué)習(xí)模型的投資公司就遇到這樣的情況,該模型可以在債券符合特定標(biāo)準(zhǔn)時(shí)自動(dòng)購(gòu)買債券。模式錯(cuò)誤會(huì)使模型離線數(shù)天或數(shù)周,其結(jié)果導(dǎo)致這部分業(yè)務(wù)陷入停頓。
隨著數(shù)據(jù)堆棧變得越來越復(fù)雜,也有更多的數(shù)據(jù)“交接”,從而為更多問題帶來了機(jī)會(huì)。例如,一家游戲開發(fā)商就注意到他們的新用戶在獲取數(shù)據(jù)時(shí)出現(xiàn)了偏差。
他們投放廣告的社交媒體平臺(tái)改變了數(shù)據(jù)時(shí)間表,因此他們每12小時(shí)而不是24小時(shí)發(fā)送一次數(shù)據(jù)。該公司的ETL設(shè)置為每天只提取一次數(shù)據(jù),因此這意味著在突然之間,發(fā)送給他們的一半活動(dòng)數(shù)據(jù)沒有得到處理或傳遞到下游。
3.增加數(shù)據(jù)采用率
隨著數(shù)據(jù)宕機(jī),現(xiàn)在有更多的人在等待,企業(yè)可能擁有更多的數(shù)據(jù)消費(fèi)者,這些消費(fèi)者比一年前更加依賴數(shù)據(jù)。企業(yè)已經(jīng)認(rèn)識(shí)到數(shù)據(jù)民主化的力量,并正在迅速采取行動(dòng),使他們的企業(yè)更加以數(shù)據(jù)為驅(qū)動(dòng)力。
根據(jù)谷歌云和哈佛商業(yè)評(píng)論發(fā)布的一份調(diào)查報(bào)告,?97%的接受調(diào)查的行業(yè)領(lǐng)導(dǎo)者認(rèn)為,在企業(yè)范圍內(nèi)訪問數(shù)據(jù)和分析對(duì)于他們的業(yè)務(wù)成功至關(guān)重要。事實(shí)上,英國(guó)最大的汽車交易網(wǎng)站Auto Trader UK一半以上的員工每月至少一次定期在Looker儀表板上處理數(shù)據(jù)。
這是一個(gè)令人敬畏的趨勢(shì)。然而,更多的數(shù)據(jù)消費(fèi)者和更多的數(shù)據(jù)分析師意味著當(dāng)數(shù)據(jù)宕機(jī)時(shí)會(huì)擔(dān)負(fù)更多的責(zé)任。
4.數(shù)據(jù)消費(fèi)者的期望不斷提高
數(shù)據(jù)消費(fèi)者的期望比以往任何時(shí)候都高。他們習(xí)慣于利用SaaS產(chǎn)品來保證5個(gè)9的可用性,這意味著他們每年的停機(jī)時(shí)間不到12分鐘。事實(shí)上,不知道有哪個(gè)數(shù)據(jù)團(tuán)隊(duì)能夠達(dá)到這個(gè)目標(biāo)。
不幸的是,大多數(shù)數(shù)據(jù)團(tuán)隊(duì)都是根據(jù)感覺進(jìn)行評(píng)估的。數(shù)據(jù)消費(fèi)者和企業(yè)高管都“感覺”團(tuán)隊(duì)做得好或者不好。據(jù)Gartner稱,這是因?yàn)閷⒔?0%的企業(yè)沒有衡量不良數(shù)據(jù)的年度財(cái)務(wù)成本。
由于消費(fèi)者對(duì)數(shù)據(jù)的期望很高,而衡量性能的定性數(shù)據(jù)很少,數(shù)據(jù)宕機(jī)不僅對(duì)企業(yè),而且對(duì)數(shù)據(jù)團(tuán)隊(duì)都有嚴(yán)重的影響。
5.數(shù)據(jù)工程師難以尋求
招聘數(shù)據(jù)工程師可能需要一段時(shí)間,而從數(shù)據(jù)團(tuán)隊(duì)那里聽到的最常見的抱怨之一是,在當(dāng)今競(jìng)爭(zhēng)激烈的勞動(dòng)力市場(chǎng)上招聘是多么困難。他們的沮喪是顯而易見的,因?yàn)榻?jīng)歷了漫長(zhǎng)而艱巨的人員招聘過程,但找不到任何數(shù)據(jù)工程師來擔(dān)任這份工作。
根據(jù)生物制藥商Dice公司的2020年技術(shù)工作報(bào)告,數(shù)據(jù)工程師是技術(shù)領(lǐng)域需求增長(zhǎng)最快的工作,空缺職位數(shù)量同比增長(zhǎng)50%,2022年報(bào)告的數(shù)據(jù)工程師平均年薪為117295美元。
數(shù)據(jù)工程師正迅速成為最有價(jià)值的資產(chǎn)之一。讓他們放下自己的工作以修復(fù)數(shù)據(jù)宕機(jī)成本高昂,并且反復(fù)這樣做可能會(huì)讓他們決定離職。
6.數(shù)據(jù)質(zhì)量責(zé)任正在變得分散
數(shù)據(jù)網(wǎng)格或分散的團(tuán)隊(duì)模型分配數(shù)據(jù)質(zhì)量責(zé)任。目前數(shù)據(jù)中最熱門的概念之一是數(shù)據(jù)網(wǎng)格,它將數(shù)據(jù)所有權(quán)在域數(shù)據(jù)所有者之間聯(lián)合起來,這些所有者負(fù)責(zé)將數(shù)據(jù)作為產(chǎn)品提供,同時(shí)促進(jìn)不同位置的分布式數(shù)據(jù)之間的通信。
這樣做的好處是讓數(shù)據(jù)團(tuán)隊(duì)更接近業(yè)務(wù),并了解所有相關(guān)數(shù)據(jù)操作的目的。然而,就其性質(zhì)而言,也分散了責(zé)任。
分散的設(shè)置給清晰的溝通和清晰的流程帶來了更大的負(fù)擔(dān)。如果沒有強(qiáng)大的流程,責(zé)任分散可能會(huì)延長(zhǎng)解決不良數(shù)據(jù)所需的時(shí)間或這些問題跨域時(shí)的數(shù)據(jù)宕機(jī)時(shí)間。
7.cookie的困境
由于GDPR等法規(guī)更加嚴(yán)格以及行業(yè)不再使用cookie,企業(yè)將更加依賴第一方數(shù)據(jù)和第三方數(shù)據(jù)。
這意味著他們將需要收集更多數(shù)據(jù),這將變得更有價(jià)值,因?yàn)樗麄儾辉僖蕾嚬雀杷惴▉韼椭麄兊膹V告找到合適的消費(fèi)者。因此,數(shù)據(jù)宕機(jī)時(shí)間開始對(duì)企業(yè)營(yíng)銷和運(yùn)營(yíng)產(chǎn)生更大的影響,不良數(shù)據(jù)的成本正在上升。
8.數(shù)據(jù)正在成為一種產(chǎn)品,并且具有超強(qiáng)競(jìng)爭(zhēng)力
數(shù)據(jù)團(tuán)隊(duì)正在創(chuàng)建復(fù)雜的數(shù)據(jù)產(chǎn)品,這些產(chǎn)品正迅速成為客戶產(chǎn)品的一部分,并為他們的公司釋放新的價(jià)值。
這在某些行業(yè)已經(jīng)成為超級(jí)競(jìng)爭(zhēng)。如果企業(yè)的團(tuán)隊(duì)沒有產(chǎn)生可操作的見解,那么很快就會(huì)被其他人超越。
在媒體領(lǐng)域經(jīng)??吹竭@種情況,數(shù)據(jù)已成為一場(chǎng)軍備競(jìng)賽。數(shù)據(jù)團(tuán)隊(duì)的規(guī)模和對(duì)他們的投資是天文數(shù)字。這些公司從每小時(shí)一次批處理到縮短到15分鐘,再到每5分鐘一次,現(xiàn)在開始實(shí)現(xiàn)流式傳輸,真是令人嘆為觀止。
在這種環(huán)境下,沒有不良數(shù)據(jù)的余地。在某一媒體的數(shù)據(jù)宕機(jī)期間,其他媒體正在發(fā)布獨(dú)家新聞、獲得點(diǎn)擊并獲得對(duì)其受眾的寶貴見解。
預(yù)防勝于治療
考慮到不良數(shù)據(jù)的成本不斷增加以及大多數(shù)企業(yè)的數(shù)據(jù)質(zhì)量問題比他們想象的要多時(shí),增加對(duì)數(shù)據(jù)質(zhì)量或數(shù)據(jù)可觀察性的投資似乎是明智之舉。
一些數(shù)據(jù)團(tuán)隊(duì)在內(nèi)部信號(hào)方面非常敏銳,這表明是投資數(shù)據(jù)質(zhì)量的時(shí)候了(從遷移到像Snowflake或Redshift這樣的云數(shù)據(jù)倉(cāng)庫(kù)),但像以上提到的外部驅(qū)動(dòng)因素可能會(huì)讓企業(yè)迷失方向。
建議采取積極主動(dòng)的方法??紤]如何在人員、流程和技術(shù)方面進(jìn)行投資,以降低不良數(shù)據(jù)不斷上升的成本。