這12個(gè)數(shù)據(jù)分析領(lǐng)域的誤區(qū),你有踩雷嗎?
對(duì)于IT來說,夸大其功效的炒作越多,外界對(duì)其的誤解也會(huì)越大,數(shù)據(jù)分析當(dāng)然也不例外。數(shù)據(jù)分析是當(dāng)今信息技術(shù)最熱門的領(lǐng)域之一,可以為企業(yè)帶來顯著的業(yè)務(wù)收益,但這些誤解可能將妨礙分析過程的及時(shí)、順利交付,并影響業(yè)務(wù)用戶和最終客戶。
隨著企業(yè)創(chuàng)建或擴(kuò)展其分析策略,這里有12個(gè)他們需要格外注意的關(guān)于數(shù)據(jù)分析的誤解。
誤區(qū)1:數(shù)據(jù)分析需要大量投資
如今,似乎對(duì)每一項(xiàng)新技術(shù)的投入都必須通過嚴(yán)格的財(cái)務(wù)支出的篩選過程。“它需要多少費(fèi)用?”——是IT和業(yè)務(wù)經(jīng)理在提議啟動(dòng)項(xiàng)目或部署新工具時(shí)需要首先考慮的問題之一。
有些人認(rèn)為數(shù)據(jù)分析本質(zhì)上是一項(xiàng)代價(jià)高昂的工作,因此僅限于擁有大量預(yù)算或大量內(nèi)部資源的企業(yè)機(jī)構(gòu)。但是事實(shí)并非如此,現(xiàn)在市場(chǎng)上有很多開源工具和其他工具能夠幫助展示數(shù)據(jù)分析的價(jià)值;并且基于云系統(tǒng)的大數(shù)據(jù)架構(gòu),也會(huì)比傳統(tǒng)的數(shù)據(jù)倉庫便宜得多。你只需要明確內(nèi)部數(shù)據(jù)存儲(chǔ)以及要解決的問題,就可以輕松的在云上使用分析來解決業(yè)務(wù)問題。
此外,數(shù)據(jù)分析通常用于實(shí)現(xiàn)三個(gè)結(jié)果:提高流程效率、實(shí)現(xiàn)收入增長和主動(dòng)進(jìn)行風(fēng)險(xiǎn)管理,總的來說,數(shù)據(jù)分析在任何公司的應(yīng)用中都帶來了巨大的成本效益。
誤區(qū)2:你需要“大數(shù)據(jù)”才能執(zhí)行分析
對(duì)于許多人來說,大數(shù)據(jù)和分析的概念是相輔相成的,企業(yè)需要在執(zhí)行分析之前收集大量數(shù)據(jù),以便生成業(yè)務(wù)洞察,改進(jìn)決策制定等。
當(dāng)然,大數(shù)據(jù)分析的優(yōu)勢(shì)也很明確,擁有這些資源的公司利用大數(shù)據(jù)存儲(chǔ)作為促進(jìn)分析工作的一部分,獲得了顯著的競(jìng)爭優(yōu)勢(shì)。但是大數(shù)據(jù)卻并不是分析必不可少的搭配。
分析師需要特定的數(shù)據(jù),而不是更多的數(shù)據(jù)。要想更好地支持決策和提高績效,企業(yè)必須更多的考慮業(yè)務(wù)用戶,確定他們需要訪問哪些數(shù)據(jù),如何呈現(xiàn)數(shù)據(jù),而不是關(guān)注更多的數(shù)據(jù)。95%以上的用戶會(huì)尋找和他們工作相關(guān)的信息來支持他們進(jìn)行決策,來提高業(yè)務(wù)表現(xiàn),所以企業(yè)需要以最簡單的格式向他們提供這些信息,幫助他們快速定位重要信息。
誤區(qū)3:分析消除了人類的偏見
自動(dòng)化系統(tǒng)執(zhí)行的方式不應(yīng)該存在偏見,但技術(shù)是由人類建立的,因此消除所有偏見幾乎是不可能的。
有些人認(rèn)為分析和機(jī)器學(xué)習(xí)消除了人類的偏見,不幸的是,這并沒有實(shí)現(xiàn)。算法和分析使用“訓(xùn)練數(shù)據(jù)”進(jìn)行調(diào)整,并將重現(xiàn)“訓(xùn)練數(shù)據(jù)”所具有的任何特征,在某些情況下,這會(huì)在分析過程中引入良性偏見,但也有可能帶來更嚴(yán)重的偏見——因?yàn)?ldquo;算法這么說”并不意味著答案是公平的或者有用的。
誤區(qū)4:最好的算法意味著絕對(duì)的勝利
事實(shí)證明,有了足夠的數(shù)據(jù),有時(shí)算法無關(guān)緊要。谷歌的工程師認(rèn)為,數(shù)據(jù)有著不合理有效性 ,簡單的統(tǒng)計(jì)模型,加上極大量的數(shù)據(jù),比包含大量特征和總結(jié)的“智能優(yōu)越模型”能輸出更優(yōu)質(zhì)的結(jié)果。
因此,在某些情況下,只需處理更大量的數(shù)據(jù)就可以獲得優(yōu)質(zhì)效果。
誤區(qū)5:算法是安全的
人們固執(zhí)地信任統(tǒng)計(jì)模型和算法,并且隨著分析程序的組織構(gòu)建,他們會(huì)越來越依賴復(fù)雜的模型來支持決策。這或許是因?yàn)橛脩舨⒉挥X得他們有能力挑戰(zhàn)模型,因此他們必須相信構(gòu)建它們的“聰明人”。
比如,在過去的50到60年里,我們反復(fù)聽到“人工智能將在20年內(nèi)接管人類工作”的言論,現(xiàn)在也還是有人反復(fù)強(qiáng)調(diào)這種觀點(diǎn)。在我們可以完全信任機(jī)器學(xué)習(xí)和它們輸出的結(jié)果之前,還有很多事情要做。在那之前,我們需要挑戰(zhàn)構(gòu)建算法和模型的人,讓他們解釋如何得到答案。這并不是說我們不能依賴于結(jié)果,而是說我們需要透明度,這樣我們才可以信任和驗(yàn)證分析結(jié)果。
誤區(qū)6:數(shù)據(jù)科學(xué)是一種神秘的“黑色藝術(shù)”
近年來,數(shù)據(jù)科學(xué)學(xué)科受到了很多關(guān)注,有時(shí)甚至?xí)c其他學(xué)科產(chǎn)生混淆?;旧蟻碚f,數(shù)據(jù)科學(xué)涉及了數(shù)據(jù)查找模式中所有算法的使用。
數(shù)據(jù)科學(xué)似乎很神秘,因?yàn)檫@些算法能夠分析比人類能夠理解的范圍內(nèi)更多變量和更大的數(shù)據(jù)集。但是隨著近年來計(jì)算能力和內(nèi)存的擴(kuò)大,我們現(xiàn)在能夠快速解決10年前任何技術(shù)都無法解決的問題,人們也隨之明白,數(shù)據(jù)科學(xué)是統(tǒng)計(jì)推斷技術(shù)的自然演變。但一旦你理解了數(shù)學(xué),數(shù)據(jù)科學(xué)就沒有了神秘感。
誤區(qū)7:需要越多的數(shù)據(jù)科學(xué)家,才能做更多的數(shù)據(jù)科學(xué)工作
如今,數(shù)據(jù)科學(xué)家是所有技術(shù)專業(yè)人員中最緊缺的。但如果他們重新定位他們正在進(jìn)行的工作,組織機(jī)構(gòu)可能會(huì)減少這些專業(yè)人員的數(shù)量。
許多數(shù)據(jù)科學(xué)家的時(shí)間花費(fèi)在非增值活動(dòng)上,比如查找數(shù)據(jù)集,將數(shù)據(jù)發(fā)送到可以處理的地方,以及轉(zhuǎn)換和清理數(shù)據(jù)等。考慮到聘請(qǐng)數(shù)據(jù)科學(xué)家的困難程度,這些低價(jià)值的任務(wù)并不是企業(yè)想要的。
數(shù)據(jù)科學(xué)家需要專注于特征工程,提取和分析,而不是圍著數(shù)據(jù)打轉(zhuǎn),這樣才能大大提高他們的工作效率和產(chǎn)出。
誤區(qū)8:分析需要花費(fèi)很長時(shí)間
如今,快速完成工作——無論是將產(chǎn)品或服務(wù)推向市場(chǎng),還是近乎實(shí)時(shí)地響應(yīng)客戶咨詢,對(duì)于任何企業(yè)來說都是影響核心競(jìng)爭力的重要因素。
分析聽起來似乎需要很長時(shí)間才能執(zhí)行,與實(shí)現(xiàn)速度和敏捷性的目標(biāo)背道而馳,但這仍然是一個(gè)誤區(qū)。歸根究底,一切都與人才有關(guān)。有了正確的技能組合和敏捷方法論的應(yīng)用,大型問題也可以在幾天或幾周內(nèi)得到回答,而不是幾個(gè)月。
誤區(qū)9:技術(shù)是最困難的部分
隨著當(dāng)今可用技術(shù)的不斷增加,選擇合適的工具組合進(jìn)行部署和集成,可以
更好從分析團(tuán)隊(duì)獲得所需的結(jié)果,
然而,真正困難的部分是“整合組織結(jié)構(gòu)和運(yùn)營模式,將人員、流程、技術(shù)視角所需的全部內(nèi)容整合在一起。假如你認(rèn)為只有技術(shù)才能解決任何商業(yè)問題,那么在此認(rèn)知之上建立的數(shù)據(jù)架構(gòu),最終會(huì)將企業(yè)帶入“沼澤地”中,或者是產(chǎn)出任何人都難以理解的信息。
技術(shù)無法解決分析問題,正確的流程是:先確定一個(gè)業(yè)務(wù)問題,然后問,“我需要什么數(shù)據(jù)來解決這個(gè)問題?”這將幫有效幫助您識(shí)別企業(yè)內(nèi)數(shù)據(jù)的差距。
誤區(qū)10:數(shù)據(jù)分析應(yīng)該是一個(gè)單獨(dú)的部門
在一些組織中,數(shù)據(jù)分析被劃入一個(gè)單獨(dú)的部門,而另一些組織則將數(shù)據(jù)分析深深地融入了跨職能團(tuán)隊(duì)。
然而事實(shí)證明,以所有業(yè)務(wù)領(lǐng)域的數(shù)據(jù)爆炸和變化發(fā)生的速度,以單獨(dú)部門存在的數(shù)據(jù)分析開始不起作用了。另一方面,隨著企業(yè)變得更加以客戶為中心,應(yīng)該讓數(shù)據(jù)分析專家成為業(yè)務(wù)部門的核心,而不是將其獨(dú)立于作為業(yè)務(wù)支持的部門。
當(dāng)今企業(yè)面臨的許多復(fù)雜問題都存在于業(yè)務(wù)部門內(nèi),而且這些問題的許多解決方案都隱藏在數(shù)據(jù)中。數(shù)據(jù)科學(xué)家和技術(shù)專家,與這些業(yè)務(wù)部門密切合作,使用大型數(shù)據(jù)集和人工智能,將成為孵化下一代產(chǎn)品、服務(wù)和客戶體驗(yàn)的關(guān)鍵。
誤區(qū)11:分析工作只適用于博士
很高興我們?cè)诜治鰣F(tuán)隊(duì)中擁有了許多受過良好教育的人,但這并不是分析成功的必要條件。
企業(yè)傾向于認(rèn)為,如果數(shù)據(jù)分析師沒有博士學(xué)位,他們將無法進(jìn)行優(yōu)質(zhì)的分析。然而現(xiàn)代分析需要各種技能——建立具有不同技能的“分離艙”,包括那些精通新興技術(shù)和開源軟件的人、大數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)可視化專家等等,才是最重要的。
誤區(qū)12:人工智能會(huì)摧毀工作并破壞經(jīng)濟(jì)
歷史上新技術(shù)的引入擾亂了許多工作和行業(yè),人們同樣擔(dān)心人工智能會(huì)消除人們執(zhí)行某些任務(wù)的必要。
雖然AI解決方案比解決某些問題的人要好得多,比如AI可以更快地閱讀,記住更多,并且比任何人都能更好地進(jìn)行復(fù)雜數(shù)學(xué)關(guān)系的計(jì)算。但是,AI也無法應(yīng)對(duì)真正全新的變化,這是人類擅長的地方。
可以肯定的是,某些工作已經(jīng)因AI的興起而消失或減少,與此同時(shí)這種趨勢(shì)還在增長。盡管如此,我們理解和解決“完全不可預(yù)見的情況”的優(yōu)勢(shì)不會(huì)被任何目前的AI技術(shù)所取代。在可預(yù)見的未來,最有效的方法是通過AI系統(tǒng)來增強(qiáng)人類的能力,取代人工的“繁重”。雖然人工智能正導(dǎo)致許多工作崗位發(fā)生變化,但是人們會(huì)將成為這一商業(yè)生態(tài)系統(tǒng)的重要組成部分。