大數(shù)據(jù)項目可能出錯的五種方式
?大數(shù)據(jù)項目的低成功率是過去10年中一個持續(xù)存在的問題,與之類似的是:人工智能項目中也出現(xiàn)了相同類型的問題。雖然100%的成功率不是一個可以實現(xiàn)的目標(biāo),但用戶可以進行一些調(diào)整以從數(shù)據(jù)投資中獲得更多收益。
隨著世界產(chǎn)生更多數(shù)據(jù),它也越來越依賴數(shù)據(jù),不接受數(shù)據(jù)驅(qū)動決策的公司可能會進一步落后。幸運的是,數(shù)據(jù)收集、存儲、管理和分析的復(fù)雜性在過去10年中大幅提高,研究表明,擁有最先進數(shù)據(jù)能力的公司比同行產(chǎn)生更高的收入。
同樣,某些數(shù)據(jù)故障模式會一遍又一遍地重復(fù)。以下是影響大數(shù)據(jù)項目的五個常見陷阱,以及一些使您的大數(shù)據(jù)項目保持正常運行的潛在解決方案。
將其全部放入數(shù)據(jù)湖中
谷歌云數(shù)據(jù)庫、數(shù)據(jù)分析副總裁兼總經(jīng)理GerritKazmaier引用的一項研究顯示,超過三分之二的公司表示,他們沒有從數(shù)據(jù)投資中獲得“持久價值”。
“這非常有趣,”Kazmaier在上個月的新聞發(fā)布會上說。“每個人都認(rèn)識到他們將與數(shù)據(jù)競爭……而另一方面,我們認(rèn)識到只有少數(shù)公司在數(shù)據(jù)方面真正取得了成功。所以問題是:到底是什么阻礙了這些公司進行數(shù)據(jù)轉(zhuǎn)型?”
一個重要原因是缺乏數(shù)據(jù)集中化,這抑制了公司從數(shù)據(jù)中獲取價值的能力。大多數(shù)任何規(guī)模的公司的數(shù)據(jù)都分布在大量孤島——數(shù)據(jù)庫、文件系統(tǒng)、應(yīng)用程序和其他位置。公司通過將盡可能多的數(shù)據(jù)放入數(shù)據(jù)湖中來應(yīng)對這種數(shù)據(jù)困境,例如Hadoop或(最近)在云中運行的對象系統(tǒng)。除了提供數(shù)據(jù)駐留的中心位置之外,它還降低了與存儲PB級數(shù)據(jù)相關(guān)的成本。
然而,Kazmaier說,雖然它解決了一個問題,但數(shù)據(jù)湖本身也引入了一系列全新的問題,特別是在確保數(shù)據(jù)的一致性、純度和可管理性方面。“所有這些組織都試圖在數(shù)據(jù)湖之上進行創(chuàng)新,但最終發(fā)現(xiàn)它只是一個數(shù)據(jù)沼澤,”他說。
GoogleCloud針對這一困境的最新解決方案是Lakehouse架構(gòu),這個架構(gòu)將數(shù)據(jù)湖方法的開放性與數(shù)據(jù)倉庫的可管理性、治理和質(zhì)量相結(jié)合。
公司可以將他們的數(shù)據(jù)保存在GoogleCloud存儲中,這是一個與S3兼容的對象存儲系統(tǒng),支持Parquet和Iceberg等開放數(shù)據(jù)格式,以及Presto、Trino和BigQuery等查詢引擎,但不會犧牲數(shù)據(jù)倉庫的治理。
沒有集中查看數(shù)據(jù)
在過去的幾十年里,許多公司一直在努力將數(shù)據(jù)集中在數(shù)據(jù)湖中,但是與此同時,數(shù)據(jù)孤島還是一樣存在,而目標(biāo)則變成了消除用戶訪問數(shù)據(jù)的障礙。
在CapitalOne,大數(shù)據(jù)的目標(biāo)是使用戶訪問民主化,作為數(shù)據(jù)生態(tài)系統(tǒng)整體現(xiàn)代化的一部分?!斑@實際上更多的是讓我們所有的用戶都可以使用數(shù)據(jù),無論他們是分析師,他們是工程師,還是機器學(xué)習(xí)數(shù)據(jù)科學(xué)家等,以釋放他們可以用數(shù)據(jù)做的潛力,”CapitalOne企業(yè)數(shù)據(jù)平臺和風(fēng)險管理技術(shù)高級副總裁BibaHelou表示。
CapitalOne數(shù)據(jù)民主化工作的一個關(guān)鍵要素是一個集中的數(shù)據(jù)目錄,它提供了各種數(shù)據(jù)資產(chǎn)的視圖,同時跟蹤訪問權(quán)限和治理。
“它確保我們是以一種管理良好的方式來做這件事的,但要確保人們有能力看到外面的東西,并獲得他們需要的東西,以便能夠創(chuàng)新性地為我們的客戶提供產(chǎn)品,”Helou在最近的一次采訪中強調(diào)。
該公司決定建立自己的數(shù)據(jù)目錄。原因之一是目錄還允許用戶創(chuàng)建數(shù)據(jù)管道?!八运且粋€目錄,另?外。它與我們所有的其他系統(tǒng)緊密相連,”她說?!跋啾全@得大量第三方產(chǎn)品并自己將它們串起來,我們發(fā)現(xiàn)為自己構(gòu)建集成解決方案要容易得多?!?/p>
變得太大、太快
在Hadoop時代的鼎盛期,許多公司斥巨資來構(gòu)建大型集群來為其數(shù)據(jù)湖提供動力。由于使用了標(biāo)準(zhǔn)X86處理器和硬盤,這些本地系統(tǒng)中的許多都比它們所取代的數(shù)據(jù)倉庫大大降低了成本(至少在每TB的基礎(chǔ)上是這樣)。然而這些大型系統(tǒng)帶來了額外的復(fù)雜性,從而推高了成本。
現(xiàn)在我們已經(jīng)處于云時代,我們可以回顧這些投資,看看我們在哪些方面出了問題。去年加入Snowflake擔(dān)任首席數(shù)據(jù)策略師的前Forrester分析師Jennifer Belissent表示,由于基于云的數(shù)據(jù)倉庫和數(shù)據(jù)湖產(chǎn)品的可用性,客戶可以從小額投資開始并從那里升級。
“我認(rèn)為這是我們面臨的挑戰(zhàn)之一,我們需要預(yù)先進行大量投資,”Belissent說?!叭绻阏诓渴鹪苹A(chǔ)設(shè)施,那么可以從填充數(shù)據(jù)湖或數(shù)據(jù)倉庫的單個項目開始,以交付結(jié)果為起點,然后逐步添加更多用例、添加更多數(shù)據(jù)、添加更多結(jié)果。”
Belissent說,與其在一個冒險的大數(shù)據(jù)項目中一蹴而就,客戶最好從一個成功可能性更高的較小項目開始,然后隨著時間的推移在此基礎(chǔ)上再接再厲。
“從歷史上看,整個行業(yè)在談?wù)摯髷?shù)據(jù)并期望人們接受大數(shù)據(jù)時,根據(jù)定義[這意味著這是一個大型基礎(chǔ)設(shè)施]這讓人們倒退了,”她說?!岸绻阆霃男√幹?,逐步構(gòu)建,并利用云基礎(chǔ)設(shè)施,這更容易使用,而且你不必有前期資本支出來將其部署到位,那么你就能夠展示結(jié)果,你也許正在消除我們在前幾代人中看到的一些幻滅感?!?/span>
Belissent指出,Gartner最近開始強調(diào)“小而寬數(shù)據(jù)”的優(yōu)勢。在談到人工智能項目時,AndrewNg一直在演講中提出這一點。
“這不僅關(guān)乎大數(shù)據(jù),還關(guān)乎調(diào)整數(shù)據(jù)規(guī)模,”Belissent在上周接受采訪時表示?!八槐睾艽蟆N覀兛梢詮男√幹植U大規(guī)模,或者我們可以使數(shù)據(jù)源多樣化并擴大范圍,這使我們能夠豐富我們擁有的有關(guān)客戶的數(shù)據(jù),并更好地了解他們的需求和想要的東西,并更加了解相關(guān)情況我們?yōu)樗麄兎?wù)的方式?!?/span>
?即使大數(shù)據(jù)項目不是很大,用戶仍然應(yīng)該考慮未來擴展的可能性。
沒有為大增長提前計劃
大數(shù)據(jù)中反復(fù)出現(xiàn)的主題之一是用戶將如何接受新解決方案的不可預(yù)測性。你有多少次讀到一些大數(shù)據(jù)項目被認(rèn)為是肯定的賭注,結(jié)果卻是巨大的失???同時,許多對成功期望不大的副項目最終成為了巨大的贏家。
從大數(shù)據(jù)開始,并在成功的基礎(chǔ)上再接再厲,通常是明智的。但是,在選擇您的大數(shù)據(jù)架構(gòu)時,您要小心,不要因為選擇會成為縮減生產(chǎn)線的障礙的技術(shù)而束縛自己。
NoSQL數(shù)據(jù)庫公司Aerospike的首席戰(zhàn)略官LenleyHensarling表示:“無論是服務(wù)和基礎(chǔ)設(shè)施業(yè)務(wù)、人工智能還是其他業(yè)務(wù)——如果成功,它的擴張速度將非????!薄八鼤兊煤艽?。您將使用大數(shù)據(jù)集。就正在進行的操作數(shù)量而言,您將擁有超高的吞吐量?!?/p>
Aerospike的人稱其為“理想規(guī)模”,這是一種在互聯(lián)網(wǎng)公司中普遍存在的現(xiàn)象。由于云消除了對硬件投資的需求,公司可以將計算能力提高到n級。
但是,除非您的數(shù)據(jù)庫或文件系統(tǒng)也可以擴展和處理吞吐量,否則您將無法利用公共云上的性能。雖然現(xiàn)代NoSQL數(shù)據(jù)庫很容易適應(yīng)不斷變化的業(yè)務(wù),但它們可以提供的功能有限。數(shù)據(jù)庫遷移絕非易事。
大數(shù)據(jù)中有很多已知的故障模式——毫無疑問也有一些未知的。熟悉常見的很重要。但也許最重要的是,很高興知道失敗不僅是意料之中的,而且應(yīng)該作為過程的一部分受到歡迎。
不適應(yīng)失敗
在使用大數(shù)據(jù)洞察力修改業(yè)務(wù)戰(zhàn)略時,可能會突然出現(xiàn)未知因素,從而導(dǎo)致實驗失敗,甚至意外成功。在這個令人擔(dān)憂的過程中保持理智是長期成功與短期大數(shù)據(jù)失敗之間的關(guān)鍵區(qū)別。
數(shù)據(jù)目錄公司Alation的首席執(zhí)行官兼聯(lián)合創(chuàng)始人SatyenSangani表示,科學(xué)本質(zhì)上是一種推測性的東西,你應(yīng)該接受這一點。“我們假設(shè),有時假設(shè)是正確的,有時它們是錯誤的,”他說?!坝袝r我們會進行實驗,有時我們可以預(yù)測它,有時我們不能?!?/p>
Sangani鼓勵公司擁有“探索性思維”,并像風(fēng)險投資家一樣思考。一方面,您可以通過在聘請新的銷售人員或擴大總部等方面進行保守的投資來獲得低但可靠的回報?;蛘?,您可以采取更具投機性的方法,這種方法不太可能獲得回報,但可以以驚人的方式獲得回報。
Sangani說:“人們很難接受這種探索性的心態(tài)?!薄叭绻阋顿Y于數(shù)據(jù)資產(chǎn)和人工智能投資組合,你可能不會為每一項單獨的投資獲得100%的投資回報,但其中一項投資可能是10倍的投資?!?/p>
歸根結(jié)底,公司在賭他們將從數(shù)據(jù)投資中獲得10倍回報之一。當(dāng)然,獲得數(shù)據(jù)黃金的機會需要做很多正確的小事。有很多事情可能會出錯,但是通過反復(fù)試驗,您可以了解哪些有效,哪些無效。并且希望當(dāng)您實現(xiàn)10倍的?回報時,您將與我們其他人分享這些經(jīng)驗。