如何構建物聯(lián)網數(shù)據(jù)精煉廠
物聯(lián)網數(shù)據(jù)的精煉應用是跨越數(shù)字化轉型鴻溝的基礎
隨著公司根據(jù)從物聯(lián)網設備獲得的數(shù)據(jù)實施更多的用例,甚至完成業(yè)務模式轉型,需要一種對這些數(shù)據(jù)進行數(shù)據(jù)質量管理的結構化方法變得至關重要。太多的公司試圖在質量低劣的數(shù)據(jù)基礎上擴大數(shù)字化轉型,這會導致很多挫敗感,并且?guī)缀鯖]有實際的商業(yè)利益。
我有時會用著名的“跨越鴻溝”圖進行類比。事實上,初創(chuàng)公司從早期創(chuàng)新者轉向被大多數(shù)市場采用所面臨的挑戰(zhàn)有相似之處。當應用于數(shù)字化轉型時,挑戰(zhàn)在于跨越從成功的數(shù)字化試點項目到全面實施的鴻溝。
許多公司無法在試點階段之后擴大數(shù)字化轉型計劃。
行業(yè)公司最近的研究證實,數(shù)據(jù)質量是擴展工業(yè)分析的主要障礙之一。換句話說,眾所周知的“垃圾進——垃圾出”的口號仍然很盛行。
了解數(shù)據(jù)質量
現(xiàn)在,盡管數(shù)據(jù)質量對我們大多數(shù)人來說具有直觀的意義,但實際上它是一個具有多種可能定義的彈性概念。這些范圍可以更窄,例如:
當數(shù)據(jù)正確地代表了它想要描述的潛在現(xiàn)實世界現(xiàn)象時,數(shù)據(jù)就具有良好的質量。
根據(jù)這個定義,數(shù)據(jù)需要有效、準確、一致和完整等。數(shù)據(jù)質量的另一個常見且同樣有用的定義如下:
當數(shù)據(jù)適合目的時,數(shù)據(jù)的質量就很好。
在第二個定義中,數(shù)據(jù)結構化、可解釋性和情境化的方面也被納入考慮范圍,只要這些方面與預期用例相關。
物聯(lián)網數(shù)據(jù)精煉廠
就像煉油廠中原油的情況一樣,質量可能較差的原始數(shù)據(jù)可以得到提煉??梢詫⑵湟暈橥ㄟ^一系列“質量門”的數(shù)據(jù),如下所示:
- 門 1:可訪問
數(shù)據(jù)在可供使用時到達此門。此步驟需要成功連接到數(shù)據(jù)源并能夠查詢/讀取樣本。
- 門 2:結構化和情境化
通過此門的數(shù)據(jù)是結構化和情境化的。對于物聯(lián)網數(shù)據(jù),此步驟通常意味著已添加設備和資產元數(shù)據(jù)以及其他關鍵上下文。
- 門 3:已驗證
下一步是數(shù)據(jù)的質量驗證。此時,數(shù)據(jù)質量是根據(jù)許多關鍵維度進行評估的,包括準確性、一致性和及時性。
- 門 4:清理
評估數(shù)據(jù)質量通常是不夠的。許多數(shù)據(jù)產品需要數(shù)據(jù)清理作為管道的一部分來創(chuàng)建可供使用的數(shù)據(jù)。
- 門 5:帶注釋
除了清理和結構化之外,可能還需要由主題專家 (SME) 或數(shù)據(jù)管理員提供的附加標簽,以使數(shù)據(jù)適合使用。例如,可以標記資產關閉的時間段或在檢查問題后添加根本原因信息。
- 門 6:驗證
對于關鍵數(shù)據(jù)(例如關鍵報告或計費中使用的數(shù)據(jù)),讓數(shù)據(jù)管理員明確驗證數(shù)據(jù)并承諾適合使用的事實通常是一種很好的做法。
- 門 7:共享
此時,數(shù)據(jù)已準備好共享。共享可以發(fā)生在內部或外部、與供應商或客戶。
- 門 8:可視化
數(shù)據(jù)可視化和探索是下一步。分析師可以在 PowerBI 或類似的描述性分析環(huán)境中研究數(shù)據(jù)。
- 門 9:建模
一些數(shù)據(jù)用于建模。此任務通常由數(shù)據(jù)科學家執(zhí)行。
- 門 10:預測
最后,模型可用于對新傳入數(shù)據(jù)進行預測。
隨著數(shù)據(jù)通過大門,它變得更加精致、更加值得信賴、更加有價值。我們確實可以將這個逐步過程視為“數(shù)據(jù)精煉廠”,并與煉油廠或蒸餾過程進行類比。
在真實的煉油廠中,生產各種產品。例如,靠近蒸餾塔底部的地方生產柴油和煤油等成分,用于重型卡車和噴氣式飛機。汽車中使用的汽油混合成分等較輕的成分被提取到蒸餾塔的頂部。
同樣,我們的數(shù)據(jù)精煉廠可能會產生各種數(shù)據(jù)產品。并非所有這些產品都同樣精致。重要的是,我們知道每個產品在數(shù)據(jù)特征和質量方面的期望。沒錯,我們不想不小心把煤油放進我們的跑車里!
數(shù)據(jù)產品占據(jù)中心舞臺
當公司意識到有必要明確定義數(shù)據(jù)產品作為數(shù)據(jù)基礎設施和最終用戶應用程序之間的一層時,就會出現(xiàn)宣泄的時刻。
數(shù)據(jù)產品由K2view定義為 ???????????????? ???????? ???????????? ???????? ?????????? ???????????????????????????????????????????????????????????? ???????????????????????????????????????????????????????????? ??????????????????????????????????????????。這些被稱為“產品”(而不是普通資產),因為它們是為了滿足消費者的需求而設計的。
定義數(shù)據(jù)產品的好處在于:
- 角色和職責更加明確,并且
- 視圖中的數(shù)據(jù)生產者和消費者之間存在明確的一致性。
成功實施后,數(shù)據(jù)產品可以有助于消除數(shù)據(jù)生產者和消費者之間的摩擦,幫助數(shù)據(jù)團隊變得積極主動,并實現(xiàn)數(shù)字計劃的全面推廣。
在沒有對數(shù)據(jù)產品進行適當管理的情況下擴展物聯(lián)網數(shù)據(jù)用例時的預防措施。
使用托管數(shù)據(jù)產品轉向主動方法。
主要角色
現(xiàn)在我已經完成了場景并將數(shù)據(jù)產品放在舞臺上,讓我們介紹一下構建物聯(lián)網數(shù)據(jù)精煉廠的主要參與者。我并不是想描述最廣泛的數(shù)據(jù)相關角色集。相反,我想重點關注在實踐中實現(xiàn)物聯(lián)網數(shù)據(jù)質量管理的可行設置的關鍵角色。根據(jù)我的經驗,這些包括以下內容:
角色#1:數(shù)據(jù)平臺工程師
數(shù)據(jù)平臺工程師對業(yè)務起著促進作用。作為數(shù)據(jù)平臺團隊的成員,他是 IT 組織的成員,負責構建、運營和維護構成數(shù)據(jù)平臺的支持 IT 服務。
角色#2:數(shù)據(jù)工程師
數(shù)據(jù)工程師嵌入數(shù)據(jù)平臺團隊中,幫助構建和維護自動處理數(shù)據(jù)的管道。例如,他(她)可以使用編排器將連接到給定端點中的物聯(lián)網數(shù)據(jù)的構建塊組合在一起,將其與元數(shù)據(jù)源集成,通過添加資產上下文來構建數(shù)據(jù),應用邏輯來挖掘特征和評分數(shù)據(jù)質量,并使生成的豐富數(shù)據(jù)可供數(shù)據(jù)管理員使用。
角色#3:數(shù)據(jù)管理員
數(shù)據(jù)管理員充當數(shù)據(jù)產品的數(shù)據(jù)質量的看門人。管理員是領域/業(yè)務專家,而不是決定數(shù)據(jù)質量何時足夠好的開發(fā)人員或基礎設施專家。這意味著他定義數(shù)據(jù)質量評分并負責數(shù)據(jù)驗證。即使數(shù)據(jù)清理可以(很大程度上)自動化,數(shù)據(jù)管理員明確承諾數(shù)據(jù)適合使用通常也很重要。
角色#4:數(shù)據(jù)分析師
數(shù)據(jù)分析師的角色可能存在于產品團隊內部,但更多時候分析師充當數(shù)據(jù)產品的消費者/用戶。在此角色中,他們使用商業(yè)智能應用程序等工具從數(shù)據(jù)產品中查詢數(shù)據(jù)。分析師還經常接受培訓以使用 SQL 直接查詢所服務的數(shù)據(jù)。
角色#5:機器學習運維工程師
機器學習操作工程師與數(shù)據(jù)平臺工程師相對應,但對機器學習基礎設施(而不是數(shù)據(jù)平臺)負有特定責任。請注意,當使用 Databricks 等平臺時,此職責可能與數(shù)據(jù)平臺工程職責或系統(tǒng)范圍重疊。
角色#6:數(shù)據(jù)科學家
數(shù)據(jù)科學角色可能作為數(shù)據(jù)產品團隊的一部分存在,例如涉及預測的數(shù)據(jù)產品或挖掘從數(shù)據(jù)產品本身收集的使用數(shù)據(jù)。數(shù)據(jù)科學家也可能在數(shù)據(jù)產品團隊之外工作,作為數(shù)據(jù)產品的消費者,使用其數(shù)據(jù)構建機器學習模型。物聯(lián)網中的一個例子可能是一個團隊使用來自公開核心旋轉資產數(shù)據(jù)的數(shù)據(jù)產品的數(shù)據(jù)來構建預測維護模型。
角色#7:機器學習工程師
在較大的團隊中,可能存在特定角色來管理數(shù)據(jù)科學家創(chuàng)建的機器學習模型。在這種情況下,機器學習工程師負責在整個模型生命周期中管理模型,負責模型部署和模型維護的各個方面。
整合數(shù)據(jù)精煉廠
我們可以將所有這些放在一起形成一個整體圖,如下所示:
價值鏈
底部 描繪了逐步的數(shù)據(jù)精煉步驟。隨著數(shù)據(jù)從左向右移動,它會通過幾個質量關卡,變得更加精致、更值得信賴、更有價值。我想再次強調,并非所有步驟都與每個數(shù)據(jù)產品中的每個數(shù)據(jù)點相關。
平臺團隊
在上面一層,描述了平臺團隊。他們運營數(shù)據(jù)和機器學習操作管道可以運行的平臺和 IT 服務。
數(shù)據(jù)管道
在中間部分,數(shù)據(jù)工程師設置自動化數(shù)據(jù)結構化和上下文化的核心管道。然后,數(shù)據(jù)管理員獲取自動化部分的輸出,并根據(jù)需要進一步清理、注釋和驗證數(shù)據(jù)。最終的結果是分析師和數(shù)據(jù)科學消費者/用戶能夠以高質量的數(shù)據(jù)為基礎,感到高興。
賦能團隊
最后,圖中的頂層添加了治理和支持團隊。這些團隊也是數(shù)據(jù)產品矩陣結構的重要組成部分。
數(shù)據(jù)產品在哪里呢
我可以想象,此時您想知道數(shù)據(jù)產品隱藏在這一切中的哪里。為了澄清這一點,讓我們從一個簡單的數(shù)據(jù)產品的角度來看同一張圖:
在這個解釋中:
- 數(shù)據(jù)工程師和數(shù)據(jù)管理員是數(shù)據(jù)產品團隊的團隊成員。
- 分析師和數(shù)據(jù)科學家是數(shù)據(jù)產品團隊外部的數(shù)據(jù)產品消費者。
- 數(shù)據(jù)基礎設施角色是平臺團隊的一部分,促進多種數(shù)據(jù)產品的發(fā)展。
- 同樣,治理和支持團隊也發(fā)揮著首要的支持作用。
由于多種原因,實際情況可能比上圖復雜一些:
- 在實踐中,數(shù)據(jù)精煉過程通常并不完全是線性的。
- 數(shù)據(jù)產品是依賴/嵌套的。由數(shù)據(jù)科學家創(chuàng)建并由機器學習工程師操作的模型的預測本身可能會成為數(shù)據(jù)產品。
- 數(shù)據(jù)分析師、數(shù)據(jù)科學家和機器學習工程師也可能是更大、更復雜的數(shù)據(jù)產品團隊的一部分。當數(shù)據(jù)產品包含機器學習/建模步驟時,而且當一定級別的數(shù)據(jù)分析(例如使用統(tǒng)計)成為數(shù)據(jù)產品團隊的必備條件時,就會發(fā)生這種情況。
開始嘗試
感覺有點不知所措,不確定從哪里開始這個過程?積極的一面是,踏上這一旅程比看起來更容易管理。以下是一些入門的提示:
- 不要將數(shù)據(jù)產品團隊視為需要雇用的一組人員。更有可能的是,這些人已經是組織的一部分,您可以向他們分配特殊的額外職責。對于較小的組織和數(shù)據(jù)產品,一個人可能承擔多個角色。
- 從小事做起,但從現(xiàn)在開始。一個好的起點通常是 1 或 2 個人明確負責數(shù)據(jù)產品,并得到 IT 組織和精心選擇的工具集的支持。
- 考慮數(shù)據(jù)的性質。一些數(shù)據(jù)質量工具可以幫助您理解和管理特定的數(shù)據(jù)類型。選擇正確的支持工具通常可以讓技術水平較低的人員更輕松地組合多個角色,例如數(shù)據(jù)工程師和數(shù)據(jù)管理員角色。
數(shù)據(jù)作為戰(zhàn)略資產
人們經常談論數(shù)據(jù)的戰(zhàn)略重要性。然而,如今,許多以傳感器數(shù)據(jù)為運營核心的物聯(lián)網和制造公司沒有適當?shù)臋C制來控制數(shù)據(jù)。IT 部門的治理舉措常常忽視數(shù)據(jù)產品和數(shù)據(jù)質量管理對 OT 和物聯(lián)網數(shù)據(jù)的重要性。
如果我們希望數(shù)字化轉型計劃能夠規(guī)?;?,我們需要從談論物聯(lián)網數(shù)據(jù)作為一種戰(zhàn)略資產轉變?yōu)檎嬲龑⑵湟暈橐环N戰(zhàn)略資產。