數(shù)據(jù)湖對初創(chuàng)公司分析工作至關(guān)重要的五個原因
與更成熟的公司相比,早期的初創(chuàng)公司有著截然不同的分析需求。數(shù)據(jù)湖基礎(chǔ)設(shè)施可以使工作變得更容易。
你可能對“數(shù)據(jù)湖”這個術(shù)語并不熟悉,但如果你在早期階段的初創(chuàng)公司中,你可能很快就會熟悉。
雖然數(shù)據(jù)倉庫和數(shù)據(jù)集市往往迫使企業(yè)進(jìn)入狹隘的數(shù)據(jù)范式和孤島,但數(shù)據(jù)湖則側(cè)重了更全面和更廣泛的分析視角。數(shù)據(jù)湖為分析數(shù)據(jù)提供了更具適應(yīng)性的方法,并強(qiáng)調(diào)所有信息的價值,而不是被預(yù)先篩選的零散信息。
在大數(shù)據(jù)行業(yè)圍繞數(shù)據(jù)湖的爭議往往集中在他們認(rèn)為的缺點(diǎn)上。數(shù)據(jù)湖非常沒有結(jié)構(gòu)化、太寬泛和太難管理。無論如何,數(shù)據(jù)湖具備了使其有獨(dú)特價值的關(guān)鍵特征,盡管這些特征相對較新,但對初創(chuàng)公司尤其有用。
這是因為對于初創(chuàng)公司而言,丟棄他們所擁有的大量數(shù)據(jù)可能會導(dǎo)致對市場的了解更少,并可能忽略一些關(guān)鍵趨勢。這五個原因凸顯了為什么數(shù)據(jù)湖是初創(chuàng)公司分析范式的重要組成部分,而不是將自己鎖定在嚴(yán)格的數(shù)據(jù)管理實(shí)踐中。
數(shù)據(jù)湖將與規(guī)模相關(guān)的成本保持在較低水平
初創(chuàng)公司開始可能會有較少的數(shù)據(jù)流和較小的需求,但是當(dāng)它們開始發(fā)展時,這種情況會迅速改變。數(shù)據(jù)倉庫是高度結(jié)構(gòu)的,需要由專業(yè)的數(shù)據(jù)工程師和架構(gòu)師進(jìn)行高程度的維護(hù)和持續(xù)監(jiān)控。其中包括構(gòu)建適當(dāng)?shù)哪J揭赃M(jìn)行分析,更改分析模型,甚至構(gòu)建正確的結(jié)構(gòu)來存儲清理數(shù)據(jù)。
例如,Meta Networks等公司為企業(yè)提供“網(wǎng)絡(luò)即服務(wù)”(Network-as-a-Service)工具,每秒可收集數(shù)百萬個數(shù)據(jù)點(diǎn),隨著新客戶的加入,數(shù)據(jù)量呈指數(shù)級增長。通過使用Upsolver平臺(它可以依賴于更容易擴(kuò)展的系統(tǒng),例如AWS的S3云服務(wù)器)來構(gòu)建數(shù)據(jù)湖,該公司已經(jīng)能夠收集所需的所有數(shù)據(jù),而無需預(yù)先構(gòu)建模式和倉庫結(jié)構(gòu)。
數(shù)據(jù)湖消除了數(shù)據(jù)孤島
在一家新成立的公司,快速共享數(shù)據(jù)和執(zhí)行各種橫向分析可以提供洞察力以及新的、意想不到的前進(jìn)道路。然而,許多早期初創(chuàng)公司為了方便而錯誤地創(chuàng)建了數(shù)據(jù)孤島。信息嚴(yán)重地被分割開,通信和傳輸數(shù)據(jù)變得更加困難。
在企業(yè)層面,普華永道公司在加州大學(xué)歐文分校醫(yī)療中心(UC Irvine Medical Center)實(shí)施了一個數(shù)據(jù)湖系統(tǒng),這極大改善了運(yùn)營工作。與初創(chuàng)公司相比,醫(yī)療機(jī)構(gòu)甚至可能更容易出現(xiàn)數(shù)據(jù)孤島,但普華永道公司表示,數(shù)據(jù)湖可以提供更敏捷的方法。由于數(shù)據(jù)沒有被強(qiáng)制劃分為不同模式,該醫(yī)院已經(jīng)能夠提供更好的分析、更廣泛的研究和更快的溝通。
數(shù)據(jù)湖減少了排序和查詢的時間
無論初創(chuàng)公司選擇何種數(shù)據(jù)結(jié)構(gòu),他們都必須投入一些資源來管理和優(yōu)化。通常,這意味著花費(fèi)數(shù)小時來設(shè)置儀表板、分析算法和數(shù)據(jù)模式,并要始終對所有這些工作進(jìn)行管理。這意味著要配備一名全職工作人員,如果他不是專職于這項工作,則他就會放棄其他工作任務(wù)來花時間處理數(shù)據(jù)倉庫工作。
由于數(shù)據(jù)湖具有非結(jié)構(gòu)化特性和原始數(shù)據(jù)流,因此需要維護(hù)的工作量要少得多。與需要配備一名全職人員不同(這是大多數(shù)初創(chuàng)公司根本無法負(fù)擔(dān)的),數(shù)據(jù)湖可以讓任何團(tuán)隊成員自己執(zhí)行臨時性的分析,而無需預(yù)先進(jìn)行復(fù)雜的清理和結(jié)構(gòu)化過程。最重要的是,它還可以顯著縮短查詢時間。
數(shù)據(jù)湖包含所有數(shù)據(jù)
大數(shù)據(jù)的關(guān)鍵是盡可能多地提供信息來解析和處理,但大多數(shù)數(shù)據(jù)倉庫都與這種范式背道而馳。數(shù)據(jù)倉庫通常會過濾掉不符合預(yù)定結(jié)構(gòu)的重要數(shù)據(jù)塊,通常會刪除掉一些數(shù)據(jù)點(diǎn),而這些數(shù)據(jù)點(diǎn)在不同視角下觀察時可能包含關(guān)鍵見解。數(shù)據(jù)湖提供的***價值的源泉之一是,它龐大的數(shù)據(jù)存儲庫有不同來源,并提供了獨(dú)特的方法來進(jìn)行組合。這種上下文無關(guān)的模型在執(zhí)行預(yù)測分析或只是尋找一些所關(guān)注的趨勢時非常有價值。
EMC是***的數(shù)據(jù)湖解決方案之一,已成功應(yīng)用于醫(yī)療服務(wù)領(lǐng)域,以改善預(yù)測性護(hù)理和趨勢發(fā)現(xiàn)。然而,其如此成功,是因為它可以在不同的配置下研究更廣泛的橫向數(shù)據(jù)。與數(shù)據(jù)倉庫(將預(yù)定分析算法強(qiáng)加于數(shù)據(jù))不同,數(shù)據(jù)湖擁有全套原始數(shù)據(jù),這使初創(chuàng)公司能夠根據(jù)需求而非技術(shù)來執(zhí)行自己的分析。
數(shù)據(jù)湖讓初創(chuàng)公司通過分析獲得創(chuàng)意
最重要的是,數(shù)據(jù)湖可能并不會將企業(yè)鎖定在分析和見解的特定范式中。數(shù)據(jù)倉庫通常具有重要的用途,但由于其固定性結(jié)構(gòu),使其應(yīng)用范圍較窄。因為數(shù)據(jù)倉庫需要仔細(xì)規(guī)劃數(shù)據(jù)流和結(jié)構(gòu),所以初創(chuàng)公司必須在看到數(shù)據(jù)之前就決定它的使用方式。
對于一家了解其數(shù)據(jù)和渠道的公司而言,建立限制性習(xí)慣最終可能會對分析大局產(chǎn)生不利影響。另一方面,數(shù)據(jù)湖能夠忽略有關(guān)數(shù)據(jù)的先入之見,同時能夠以獨(dú)特方式探索信息。
數(shù)據(jù)湖有利于工作取得成功
對于通常以顛覆和創(chuàng)新而自豪的初創(chuàng)公司而言,擁有一個數(shù)據(jù)的整體觀以及擁有基于需求而非限制來執(zhí)行臨時分析的能力,這是一個至關(guān)重要的區(qū)別。
您的初創(chuàng)公司根本無法準(zhǔn)確預(yù)測在組織生命周期中最重要的一些特定而有限的指標(biāo)、信息源和用例。通過利用數(shù)據(jù)湖基礎(chǔ)設(shè)施,您的公司及其利益相關(guān)者可以重新審視這些決策,并在未來幾年開啟新的價值層面。