自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

面向 AI 的數(shù)據(jù)生態(tài)系統(tǒng)

開發(fā) 開發(fā)工具
人工智能已經(jīng)從天花亂墜的宣傳逐漸變成了現(xiàn)實。算法在機器學(xué)習(xí)和深度學(xué)習(xí)方面的進步,計算能力和存儲能力的顯著提高,以及數(shù)字化所產(chǎn)生的大量數(shù)據(jù),使人工智能很可能改變所有行業(yè)的游戲規(guī)則。人工智能有潛力從根本上改進業(yè)務(wù)流程,例如,在制造業(yè)中進行實時質(zhì)量預(yù)測,并并產(chǎn)生新的業(yè)務(wù)模型。

 [[436423]]

[引] 本文編譯自https://cacm.acm.org/magazines/2021/11/256400-there-is-no-ai-without-data/fulltext,文中針對的是工業(yè)企業(yè), 實際上,對大多數(shù)企業(yè)都有著一些參考意義,尤其是關(guān)于元數(shù)據(jù)的管理和自治。

人工智能已經(jīng)從天花亂墜的宣傳逐漸變成了現(xiàn)實。算法在機器學(xué)習(xí)和深度學(xué)習(xí)方面的進步,計算能力和存儲能力的顯著提高,以及數(shù)字化所產(chǎn)生的大量數(shù)據(jù),使人工智能很可能改變所有行業(yè)的游戲規(guī)則。人工智能有潛力從根本上改進業(yè)務(wù)流程,例如,在制造業(yè)中進行實時質(zhì)量預(yù)測,并并產(chǎn)生新的業(yè)務(wù)模型。傳統(tǒng)產(chǎn)業(yè)正面臨著一個根本性的變化: 從實物產(chǎn)品的生產(chǎn)到工業(yè)4.0中通過人工智能流程優(yōu)化和服務(wù)交付。

盡管人工智能的潛力巨大,工業(yè)企業(yè)也對人工智能技術(shù)進行了大量投資,但人工智能尚未兌現(xiàn)在行業(yè)實踐中的兌現(xiàn)。工業(yè)企業(yè)的核心業(yè)務(wù)尚未得到人工智能的賦能。人工智能解決方案的成功案例往往是個案,例如工廠中機器的運行優(yōu)化。為什么呢?在大多數(shù)情況下,數(shù)據(jù)問題是傳統(tǒng)企業(yè)未充分采用人工智能的主要原因。

一般來說,數(shù)據(jù)準備和數(shù)據(jù)質(zhì)量是人工智能和數(shù)據(jù)分析的關(guān)鍵,這并不是什么新鮮事,因為沒有數(shù)據(jù)就沒有人工智能。然而,工業(yè)企業(yè)中人工智能面臨的數(shù)據(jù)挑戰(zhàn)遠遠超出了檢測和修復(fù)臟數(shù)據(jù)的范圍。人工智能通常用于特定用例的數(shù)據(jù)供應(yīng)和數(shù)據(jù)工程,從而形成一個異構(gòu)的、多語言的企業(yè)數(shù)據(jù)環(huán)境。這導(dǎo)致了各種各樣的數(shù)據(jù)挑戰(zhàn),并限制了人工智能的全面應(yīng)用。

1、工業(yè)企業(yè)的AI現(xiàn)狀

以AI 和數(shù)據(jù)分析為基礎(chǔ),并概述一下傳統(tǒng)企業(yè)的業(yè)務(wù),進而刻畫一下人工智能的應(yīng)用現(xiàn)狀。

1.1 人工智能和數(shù)據(jù)分析

人工智能一般是指機器執(zhí)行認知功能的能力。人工智能方法可以細分為演繹方法即模型驅(qū)動(如專家系統(tǒng)),或歸納方法即數(shù)據(jù)驅(qū)動方法。數(shù)據(jù)驅(qū)動方法特別是機器學(xué)習(xí)和數(shù)據(jù)挖掘方法,在過去幾年中為人工智能開辟了新的應(yīng)用領(lǐng)域。數(shù)據(jù)分析可以作為各種數(shù)據(jù)驅(qū)動分析的總稱,包括 BI 和報表。

1.2 工業(yè)企業(yè)的業(yè)務(wù)

工業(yè)企業(yè)的業(yè)務(wù)包括實物的工程制造,例如,加熱系統(tǒng)或電氣傳動。為此目的,工業(yè)企業(yè)通常將各種工廠組織成業(yè)務(wù)單元來運營一個制造網(wǎng)絡(luò)。工業(yè)企業(yè)的 IT 環(huán)境通常包括不同的企業(yè) IT 系統(tǒng),從基于產(chǎn)品生命周期管理(PLM)的企業(yè)資源計劃(ERP)系統(tǒng)到制造執(zhí)行系統(tǒng)(MES)。在工業(yè)4.0和物聯(lián)網(wǎng)(IoT)應(yīng)用中,工業(yè)企業(yè)推動了價值鏈的數(shù)字化。因此,過程和產(chǎn)品的 AI 支持具有戰(zhàn)略重要性。為此,近年來,工業(yè)企業(yè)建立了數(shù)據(jù)庫,引進了人工智能工具,并創(chuàng)建了數(shù)據(jù)科學(xué)團隊。

1.3 當(dāng)前狀態(tài): 人工智能孤島

上圖顯示了工業(yè)企業(yè)中人工智能的現(xiàn)狀。企業(yè)已經(jīng)在整個產(chǎn)業(yè)價值鏈中實現(xiàn)了各種各樣的人工智能用例: 從支持 iot產(chǎn)品的預(yù)測性維護到生產(chǎn)過程優(yōu)化的質(zhì)量預(yù)測,再到產(chǎn)品生命周期分析和客戶分析。用例將不同來源(如 ERP 系統(tǒng)和 MES)的數(shù)據(jù)組合在一起,通常作為單個用例的獨立解決方案實現(xiàn)。這意味著,人工智能是以“孤島”的形式執(zhí)行的,用于特定用例的數(shù)據(jù)工程,以及特定用例的人工智能工具和適合特定用途的機器學(xué)習(xí)算法。一方面,人工智能孤島方便了具體案例實現(xiàn)的靈活性和探索性。另一方面,它阻礙了 AI 的重用、標準化、效率和企業(yè)范圍的應(yīng)用。數(shù)據(jù)處理在實現(xiàn)工業(yè)化人工智能的道路上扮演著核心角色,將占整個 AI 用例實現(xiàn)的60% 到80% 。

各種獨立的AI 用例導(dǎo)致了全球分布式的、多語言和異構(gòu)的企業(yè)數(shù)據(jù)環(huán)境。用于人工智能用例的結(jié)構(gòu)化和非結(jié)構(gòu)化源數(shù)據(jù)被提取并存儲在被稱為數(shù)據(jù)湖的原始數(shù)據(jù)存儲庫中。它們基于單獨的數(shù)據(jù)存儲技術(shù),例如不同的 NoSQL 系統(tǒng)、特定用例的數(shù)據(jù)模型和專門的源數(shù)據(jù)攝取。這些數(shù)據(jù)庫與企業(yè)數(shù)據(jù)倉庫共存,其中包含來自各種系統(tǒng)用于用于報表的聚合數(shù)據(jù)?,F(xiàn)有的許多數(shù)據(jù)交換過程造成各種數(shù)據(jù)冗余和潛在的數(shù)據(jù)質(zhì)量問題。此外,不同的數(shù)據(jù)環(huán)境使得業(yè)務(wù)對象(例如產(chǎn)品和流程)的集成和開發(fā)變得越發(fā)復(fù)雜,從而阻礙了跨流程和跨產(chǎn)品 AI 用例的開發(fā)。

例如,為了預(yù)測工廠中某一特定制造過程的質(zhì)量,一個由數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師組成的專業(yè)項目團隊首先確定相關(guān)的源系統(tǒng),尤其是工廠中的幾個本地 MES以及一個ERP 系統(tǒng)。MES提供關(guān)于質(zhì)量測量的傳感器數(shù)據(jù),ERP 系統(tǒng)提供主數(shù)據(jù)。與各種 IT 專家、制造專家和數(shù)據(jù)所有者一起,團隊檢查源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu),并開發(fā)定制的連接器,用于提取源數(shù)據(jù)并以原始格式將其存儲在本地工廠的數(shù)據(jù)湖中。

數(shù)據(jù)是基于特定用例的數(shù)據(jù)模型和數(shù)據(jù)管道進行清理、集成和轉(zhuǎn)移。然后,團隊使用各種機器學(xué)習(xí)工具來生成最優(yōu)預(yù)測模型。在多次迭代過程中,調(diào)整數(shù)據(jù)模型和源數(shù)據(jù)以增強機器學(xué)習(xí)的數(shù)據(jù)基礎(chǔ)。最終的預(yù)測模型通過調(diào)用機器學(xué)習(xí)評分服務(wù)在工廠車間的 MES 中使用。

最終的解決方案構(gòu)成了一個有針對性的孤立人工智能服務(wù),具有定制的數(shù)據(jù)攝取、數(shù)據(jù)模型、數(shù)據(jù)管道、專門的工廠數(shù)據(jù)庫和適合用途的機器學(xué)習(xí)工具。該解決方案綜合了大量的專家知識,包括制造過程知識、 ERP 和 MES IT 系統(tǒng)知識、用例特定的數(shù)據(jù)工程和數(shù)據(jù)科學(xué)知識。然而,缺少數(shù)據(jù)管理準則(如數(shù)據(jù)建模和元數(shù)據(jù)管理準則),源系統(tǒng)透明度的匱乏,各種孤立的數(shù)據(jù)湖,都阻礙了人工智能的重用、效率和企業(yè)范圍的應(yīng)用。也就是說,同一類型的用例在不同的工廠中以不同的方式從零開始實現(xiàn)。因此,相同的源數(shù)據(jù)(例如主數(shù)據(jù))被多次提取,給關(guān)鍵業(yè)務(wù)的源數(shù)據(jù)系統(tǒng)(例如 ERP)帶來了高負載。為相同的概念數(shù)據(jù)實體開發(fā)了不同的數(shù)據(jù)模型,如“機器”和“產(chǎn)品”。這些異構(gòu)數(shù)據(jù)模型和各個工廠數(shù)據(jù)庫中使用的不同數(shù)據(jù)存儲技術(shù)導(dǎo)致了異構(gòu)數(shù)據(jù)管道圍繞同一類型的源數(shù)據(jù)進行旋轉(zhuǎn)。此外,數(shù)據(jù)和已開發(fā)的數(shù)據(jù)模型(即元數(shù)據(jù))的商業(yè)意義在數(shù)據(jù)字典或電子表格等特定項目工具中被多次記錄。總而言之,這導(dǎo)致了人工智能孤島和異構(gòu)的企業(yè)數(shù)據(jù)現(xiàn)狀。

因此,要實現(xiàn)人工智能的工業(yè)化,需要對潛在的數(shù)據(jù)挑戰(zhàn)進行系統(tǒng)的分析。

2、人工智能的數(shù)據(jù)挑戰(zhàn)

一般來說,確保人工智能的數(shù)據(jù)質(zhì)量非常重要,除了數(shù)據(jù)質(zhì)量之外,還很多關(guān)鍵的數(shù)據(jù)挑戰(zhàn):數(shù)據(jù)管理、數(shù)據(jù)共享和 AI 的數(shù)據(jù)治理。

這里,機器學(xué)習(xí)和數(shù)據(jù)挖掘提出了更廣泛的數(shù)據(jù)要求。它們不僅使用聚合的、結(jié)構(gòu)化的數(shù)據(jù),而且在其原始格式中使用了大量的非結(jié)構(gòu)化數(shù)據(jù),例如,用于基于機器學(xué)習(xí)的光學(xué)檢查數(shù)據(jù)。

2.1 AI數(shù)據(jù)管理的挑戰(zhàn)

數(shù)據(jù)管理一般包括在整個生命周期中處理、提供和控制數(shù)據(jù)。人工智能的數(shù)據(jù)管理挑戰(zhàn)在于在異構(gòu)和多語言的企業(yè)數(shù)據(jù)環(huán)境中全面管理用于人工智能的數(shù)據(jù),特別是數(shù)據(jù)建模,元數(shù)據(jù)管理,和數(shù)據(jù)架構(gòu)。

對于如何在概念和邏輯層次上跨系統(tǒng)對數(shù)據(jù)進行結(jié)構(gòu)化和建模,目前還沒有通用的數(shù)據(jù)建模方法。在數(shù)據(jù)庫中,對于相同類型的數(shù)據(jù)(如傳感器數(shù)據(jù)) ,常常使用不同的數(shù)據(jù)建模技術(shù),如數(shù)據(jù)倉庫或維度建模技術(shù)。有時候,由于采用了在原始數(shù)據(jù)之上的靈活讀取方法,甚至忽略了數(shù)據(jù)建模的需要。這使得數(shù)據(jù)集成、數(shù)據(jù)重用以及跨不同 AI 用例開發(fā)數(shù)據(jù)管道變得非常復(fù)雜。例如,傳感器數(shù)據(jù)作為機器學(xué)習(xí)的輸入是非常耗時和復(fù)雜的。為不同AI 用例重用相應(yīng)的數(shù)據(jù)管道在很大程度上依賴于通用數(shù)據(jù)建模技術(shù)和通用數(shù)據(jù)模型。

沒有總體的元數(shù)據(jù)管理來維護跨數(shù)據(jù)領(lǐng)域的元數(shù)據(jù)。元數(shù)據(jù),例如列和屬性的名稱,大多存儲在各個存儲系統(tǒng)的內(nèi)部數(shù)據(jù)字典中,通常不可訪問。因此,數(shù)據(jù)的繼承和影響分析都受到阻礙。例如,在源系統(tǒng)發(fā)生變化的情況下,在沒有適當(dāng)?shù)脑獢?shù)據(jù)情況下,手動調(diào)整所有數(shù)據(jù)湖中受影響的數(shù)據(jù)管道是冗長而昂貴的。此外,關(guān)于數(shù)據(jù)含義的業(yè)務(wù)元數(shù)據(jù)往往根本沒有得到系統(tǒng)的管理。因此,缺少元數(shù)據(jù)管理顯著地妨礙了人工智能的數(shù)據(jù)使用。

沒有統(tǒng)一的數(shù)據(jù)體系結(jié)構(gòu)來構(gòu)建數(shù)據(jù)系統(tǒng)。一方面缺少企業(yè)數(shù)據(jù)體系結(jié)構(gòu)來編排各種孤立的數(shù)據(jù)湖。例如,在很多數(shù)據(jù)湖中都沒有通用的區(qū)域模型,這使數(shù)據(jù)集成和交換復(fù)雜化。此外,包含有價值的 AI 用例關(guān)鍵性能指標也還不清楚。另一方面,也缺乏一個系統(tǒng)的平臺數(shù)據(jù)體系結(jié)構(gòu)來設(shè)計一個數(shù)據(jù)庫。具體來說,就是利用不同的數(shù)據(jù)存儲技術(shù)來實現(xiàn)數(shù)據(jù)湖。例如,一些數(shù)據(jù)庫完全基于 Hadoop 存儲技術(shù),如 HDFS和 Hive,而其他數(shù)據(jù)庫則結(jié)合了經(jīng)典的關(guān)系數(shù)據(jù)庫/值系統(tǒng)和 NoSQL 系統(tǒng)。這導(dǎo)致整個企業(yè)數(shù)據(jù)環(huán)境中的數(shù)據(jù)湖架構(gòu)不統(tǒng)一,從而導(dǎo)致高昂的開發(fā)和維護成本。

2.2 人工智能的數(shù)據(jù)共享挑戰(zhàn)

一般來說,數(shù)據(jù)共享是指促進組織中的每個人使用數(shù)據(jù)。人工智能的數(shù)據(jù)共享挑戰(zhàn)在于為整個企業(yè)的各種終端用戶提供各種各樣的人工智能數(shù)據(jù)。為此,數(shù)據(jù)供給和數(shù)據(jù)工程以及數(shù)據(jù)發(fā)現(xiàn)和探索都是人工智能的核心任務(wù)。

數(shù)據(jù)供給,即從技術(shù)上將新的源系統(tǒng)連接到一個數(shù)據(jù)湖,并提取選定的源數(shù)據(jù)。IT專家關(guān)心的是為源系統(tǒng)定義技術(shù)接口和訪問權(quán)限,并與源系統(tǒng)所有者和數(shù)據(jù)的最終用戶合作開發(fā)數(shù)據(jù)提取作業(yè)。因此, IT 部門經(jīng)常成為數(shù)據(jù)供應(yīng)的瓶頸因素。IT 專家、源系統(tǒng)所有者和終端用戶之間存在巨大的協(xié)調(diào)需求,這導(dǎo)致了耗時的迭代。這些因素極大地減緩和限制了數(shù)據(jù)供給,從而限制了人工智能對新數(shù)據(jù)源的使用。

數(shù)據(jù)工程,即數(shù)據(jù)的建模、集成和清理,通常由數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師完成。由于源系統(tǒng)的元數(shù)據(jù)不完整,數(shù)據(jù)工程需要具備單個源系統(tǒng)及其數(shù)據(jù)結(jié)構(gòu)的專門知識,例如關(guān)于 ERP 系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)。此外,大多數(shù)復(fù)雜的、基于腳本的框架(如 Python )用于數(shù)據(jù)工程的編程任務(wù)。這些因素將數(shù)據(jù)工程限制在少數(shù)的專家團隊。

數(shù)據(jù)的發(fā)現(xiàn)和探索也同樣如此。雖然提供了自助的可視化工具,但數(shù)據(jù)湖中數(shù)據(jù)的發(fā)現(xiàn)和探索受到了阻礙。缺乏關(guān)于業(yè)務(wù)含義和數(shù)據(jù)質(zhì)量的全面元數(shù)據(jù),使非專家用戶無法輕松使用數(shù)據(jù)。例如,市場營銷專家必須聯(lián)系幾個不同的數(shù)據(jù)工程師,才能準備不同類型的市場數(shù)據(jù),并理解數(shù)據(jù)的含義和相互關(guān)系。此外,數(shù)據(jù)使用的合規(guī)審批一般是基于專家對數(shù)據(jù)的檢查。這些自動化程度低的過程也減緩了人工智能對數(shù)據(jù)的使用。

2.3 人工智能的數(shù)據(jù)治理挑戰(zhàn)

一般來說,數(shù)據(jù)治理是關(guān)于創(chuàng)建組織結(jié)構(gòu)的, 并將數(shù)據(jù)視為企業(yè)資產(chǎn)。目前,數(shù)據(jù)的組織結(jié)構(gòu)在工業(yè)企業(yè)中只是初步實現(xiàn),主要集中在主數(shù)據(jù)和個人數(shù)據(jù)上。特別是,數(shù)據(jù)所有權(quán)和數(shù)據(jù)管理的結(jié)構(gòu)缺失,阻礙了 AI 的應(yīng)用。

在異構(gòu)的數(shù)據(jù)環(huán)境中,沒有統(tǒng)一的數(shù)據(jù)所有權(quán)組織。特別的,對于提取和存儲在不同數(shù)據(jù)庫中的數(shù)據(jù),沒有以通用的方式定義其數(shù)據(jù)所有權(quán)。例如,在許多情況下,數(shù)據(jù)湖中數(shù)據(jù)的所有者與源系統(tǒng)的數(shù)據(jù)所有者保持相同。也就是說,來自不同源系統(tǒng)的數(shù)據(jù)的集成需要不同數(shù)據(jù)所有者的審批。因此,數(shù)據(jù)不被視為公司擁有的企業(yè)資產(chǎn),而是作為某一業(yè)務(wù)功能的資產(chǎn),例如,財務(wù)部門是財務(wù)數(shù)據(jù)的數(shù)據(jù)擁有者。這導(dǎo)致在使用人工智能數(shù)據(jù)時,責(zé)任不明確,風(fēng)險和收益的分配不平衡,這些組織邊界顯著地阻礙了人工智能對數(shù)據(jù)的全面使用。

沒有一個全面的數(shù)據(jù)管理組織來建立通用的數(shù)據(jù)策略、標準和過程。工業(yè)企業(yè)現(xiàn)有的數(shù)據(jù)監(jiān)管結(jié)構(gòu)主要側(cè)重于定義各種主數(shù)據(jù),例如客戶主數(shù)據(jù)的通用數(shù)據(jù)質(zhì)量標準,其他類別數(shù)據(jù)的數(shù)據(jù)管理工作并沒有被系統(tǒng)地組織。例如,在不同的工廠和制造過程的制造數(shù)據(jù)中,有各種各樣的數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量標準。因此,缺乏制造數(shù)據(jù)的通用企業(yè)范圍策略,這顯著增加了 AI 數(shù)據(jù)工程的工作量和復(fù)雜性。

3、工業(yè)企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)

一般來說,數(shù)據(jù)生態(tài)系統(tǒng)是一個社會技術(shù)、自組織、松耦合的系統(tǒng),用于數(shù)據(jù)共享。數(shù)據(jù)生態(tài)系統(tǒng)的典型要素是數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)消費者和數(shù)據(jù)平臺。然而,數(shù)據(jù)生態(tài)系統(tǒng)的研究仍處于早期階段,主要集中在共享開放的政府?dāng)?shù)據(jù)。因此,需要建立一個專門針對工業(yè)企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)。

3.1 數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者

一般將工業(yè)企業(yè)中的四種數(shù)據(jù)生產(chǎn)者區(qū)分開來: 過程是指整個價值鏈中的各種工業(yè)過程和資源,例如工程過程。人包括各種各樣的人,包括顧客和雇員。第三方包括企業(yè)組織范圍之外的行為者和資源,例如供應(yīng)商。

3.2 數(shù)據(jù)源

數(shù)據(jù)源涉及技術(shù)類別和數(shù)據(jù)生成的來源。工業(yè)企業(yè)中主要有四種數(shù)據(jù)源: 企業(yè)數(shù)據(jù)是指企業(yè) IT 系統(tǒng)在整個工業(yè)價值鏈中生成的所有數(shù)據(jù),例如 PLM 和 ERP 系統(tǒng)。用戶生成的數(shù)據(jù)是指人類行為者直接生成的數(shù)據(jù),例如社交媒體上的帖子或文檔。物聯(lián)網(wǎng)數(shù)據(jù)是指由物聯(lián)網(wǎng)設(shè)備產(chǎn)生的所有數(shù)據(jù),例如制造業(yè)機器數(shù)據(jù)或傳感器數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是指除用戶生成的數(shù)據(jù)以外的所有網(wǎng)絡(luò)數(shù)據(jù),例如鏈接開放數(shù)據(jù)或支付數(shù)據(jù)。

3.3 數(shù)據(jù)平臺

數(shù)據(jù)平臺是各種數(shù)據(jù)源數(shù)據(jù)處理的技術(shù)基礎(chǔ),使數(shù)據(jù)可用于各種數(shù)據(jù)應(yīng)用程序。數(shù)據(jù)生態(tài)系統(tǒng)基于三種數(shù)據(jù)平臺: 企業(yè)數(shù)據(jù)湖、邊緣數(shù)據(jù)湖和企業(yè)數(shù)據(jù)市場。

企業(yè)數(shù)據(jù)湖構(gòu)成了一個邏輯上集中的、企業(yè)范圍的數(shù)據(jù)湖。它將原始數(shù)據(jù)庫方法與數(shù)據(jù)倉庫概念相結(jié)合,即將各種原始數(shù)據(jù)的數(shù)據(jù)湖式存儲和處理與聚合數(shù)據(jù)的數(shù)據(jù)倉庫式分析相結(jié)合。支持批處理和流處理,可以對各種數(shù)據(jù)進行各種分析。企業(yè)數(shù)據(jù)湖是基于數(shù)據(jù)建模和元數(shù)據(jù)管理的全面指導(dǎo)方針,并支持在企業(yè)范圍內(nèi)重用數(shù)據(jù)和數(shù)據(jù)管道。

邊緣數(shù)據(jù)湖表示對企業(yè)數(shù)據(jù)湖進行補充的分散原始數(shù)據(jù)存儲。邊緣數(shù)據(jù)庫側(cè)重于實現(xiàn)基于本地數(shù)據(jù)的數(shù)據(jù)應(yīng)用程序,很少有企業(yè)范圍內(nèi)的重用。它們特別適合分布式工廠的數(shù)據(jù)處理,有些工廠自己運行邊緣數(shù)據(jù)庫。邊緣數(shù)據(jù)湖的典型 AI 用例是預(yù)測由企業(yè)單個工廠中的特定制造機器生成的時間序列數(shù)據(jù)。

企業(yè)數(shù)據(jù)市場構(gòu)成了數(shù)據(jù)生態(tài)系統(tǒng)的中心支點。它表示一個基于元數(shù)據(jù)的自助服務(wù)平臺,用于連接數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者。目標是匹配企業(yè)內(nèi)部的數(shù)據(jù)供需。然而,關(guān)于數(shù)據(jù)市場的研究還處于早期階段,目前還只是關(guān)注于外部企業(yè)數(shù)據(jù)市場的初步概念。

與企業(yè)數(shù)據(jù)湖和邊緣數(shù)據(jù)湖相比,企業(yè)數(shù)據(jù)市場不存儲實際數(shù)據(jù),它基于一個數(shù)據(jù)目錄,表示一個基于元數(shù)據(jù)的數(shù)據(jù)庫。也就是說,數(shù)據(jù)由元數(shù)據(jù)和對實際數(shù)據(jù)的引用表示。例如,“ 產(chǎn)品的質(zhì)量數(shù)據(jù)”可能包含該產(chǎn)品的元數(shù)據(jù)和存儲在企業(yè)數(shù)據(jù)湖中的一組傳感器數(shù)據(jù)。數(shù)據(jù)目錄不僅指數(shù)據(jù)湖中的數(shù)據(jù),還指源系統(tǒng)中的數(shù)據(jù),如 ERP 和 PLM 系統(tǒng)。此外,來自公開API的元數(shù)據(jù)也在數(shù)據(jù)目錄中進行了融合。因此,市場和數(shù)據(jù)目錄一起提供了企業(yè)中所有數(shù)據(jù)的基于元數(shù)據(jù)的概述。

關(guān)于市場提供的服務(wù),以自服務(wù)的方式處理數(shù)據(jù)消費和數(shù)據(jù)生產(chǎn)。數(shù)據(jù)使用者的服務(wù)包括數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)準備等內(nèi)容。例如,數(shù)據(jù)生產(chǎn)者的服務(wù)包括自服務(wù)的數(shù)據(jù)管理,以定義數(shù)據(jù)集上的元數(shù)據(jù),以及基于 API的數(shù)據(jù)發(fā)布。整個市場服務(wù)涉及整個數(shù)據(jù)生命周期: 數(shù)據(jù)采集和編排,發(fā)布和跟蹤,以及數(shù)據(jù)的準備和探索。

3.4數(shù)據(jù)應(yīng)用

數(shù)據(jù)應(yīng)用是指使用數(shù)據(jù)平臺提供數(shù)據(jù)的各種應(yīng)用程序,可以分為描述性、診斷性、預(yù)測性和規(guī)定性的數(shù)據(jù)應(yīng)用。也就是說,數(shù)據(jù)應(yīng)用包含了從報表到機器學(xué)習(xí)的數(shù)據(jù)分析整個范圍。數(shù)據(jù)應(yīng)用為已定義的數(shù)據(jù)消費者實現(xiàn)了已定義的用例,如制造業(yè)中的過程性能預(yù)測。

3.5 數(shù)據(jù)角色

數(shù)據(jù)角色包括與數(shù)據(jù)相關(guān)的組織角色。這些角色跨越了數(shù)據(jù)生態(tài)系統(tǒng)的所有層。工業(yè)企業(yè)中對人工智能和數(shù)據(jù)分析至關(guān)重要的關(guān)鍵角色包括數(shù)據(jù)擁有者、數(shù)據(jù)管理員、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。

數(shù)據(jù)所有者對某些類型的數(shù)據(jù)負有全面責(zé)任,例如,某一產(chǎn)品的所有數(shù)據(jù),被分配到業(yè)務(wù)部門,而不是 IT 部門,并且從業(yè)務(wù)角度負責(zé)這些數(shù)據(jù)的質(zhì)量、安全性和遵從性。在企業(yè)數(shù)據(jù)湖和邊緣數(shù)據(jù)湖中定義統(tǒng)一和透明的數(shù)據(jù)所有權(quán),并將這些結(jié)構(gòu)與源系統(tǒng)中的數(shù)據(jù)所有權(quán)分離。例如,存儲在企業(yè)數(shù)據(jù)庫中特定產(chǎn)品的所有數(shù)據(jù)都應(yīng)該由各自的業(yè)務(wù)單元擁有,以便于跨流程使用數(shù)據(jù)。

為了減少人工智能數(shù)據(jù)工程的復(fù)雜性和工作量,需要一個全面的數(shù)據(jù)管理組織,為各種數(shù)據(jù)建立通用的質(zhì)量標準和參考數(shù)據(jù)模型。例如,可以根據(jù) IEC 62264參考模型對制造數(shù)據(jù)進行結(jié)構(gòu)化,以簡化企業(yè)不同工廠之間的數(shù)據(jù)集成。一般來說,數(shù)據(jù)工程師開發(fā)數(shù)據(jù)管道,通過整合和清理數(shù)據(jù),為進一步分析提供數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上,數(shù)據(jù)科學(xué)家將重點放在特征工程的實際數(shù)據(jù)分析上,并應(yīng)用各種數(shù)據(jù)分析技術(shù)(例如,不同的機器學(xué)習(xí)算法)從數(shù)據(jù)中獲取洞察力。

4、從狹窄領(lǐng)域到企業(yè)級的AI應(yīng)用: 應(yīng)對挑戰(zhàn)與未來方向

數(shù)據(jù)生態(tài)系統(tǒng)通過解決數(shù)據(jù)挑戰(zhàn)為工業(yè)化的人工智能鋪平了道路,數(shù)據(jù)生態(tài)系統(tǒng)中所面臨的開放性問題指出了未來的研究方向。

4.1 應(yīng)對數(shù)據(jù)管理的挑戰(zhàn)

關(guān)于數(shù)據(jù)管理的挑戰(zhàn),數(shù)據(jù)生態(tài)系統(tǒng)是基于一組綜合的數(shù)據(jù)平臺,即企業(yè)數(shù)據(jù)湖、邊緣數(shù)據(jù)湖和企業(yè)數(shù)據(jù)市場。這些平臺為 AI 和數(shù)據(jù)分析定義了企業(yè)數(shù)據(jù)的體系結(jié)構(gòu)。為此,企業(yè)數(shù)據(jù)湖合并了企業(yè)數(shù)據(jù)倉庫,避免了兩個獨立的企業(yè)數(shù)據(jù)平臺和相應(yīng)的數(shù)據(jù)冗余。它基于一套統(tǒng)一的數(shù)據(jù)建模準則和參考數(shù)據(jù)模型,以解決數(shù)據(jù)建模方面的問題。例如,來自 ERP 系統(tǒng)的企業(yè)數(shù)據(jù)是使用數(shù)據(jù)庫來建模的,以便能夠與物聯(lián)網(wǎng)設(shè)備的傳感器數(shù)據(jù)進行快速集成。此外,邊緣數(shù)據(jù)庫僅提供了最小限度的指導(dǎo)方針,為用例探索和原型開發(fā)提供了靈活性,但它們僅限于本地數(shù)據(jù),特別是在單個工廠中。

企業(yè)數(shù)據(jù)庫平臺的數(shù)據(jù)架構(gòu)設(shè)計本身具有挑戰(zhàn)性,因為它必須服務(wù)于各種各樣的數(shù)據(jù)應(yīng)用,從描述性報告到預(yù)測性和規(guī)范性的機器學(xué)習(xí)應(yīng)用。特別是,定義一個合適的數(shù)據(jù)存儲和處理技術(shù)是一個開發(fā)的問題。企業(yè)數(shù)據(jù)庫傾向于采用多語言的方法,為不同的數(shù)據(jù)應(yīng)用提供適用的技術(shù)。為此,遵循 lambda 架構(gòu)范式,將關(guān)系數(shù)據(jù)庫系統(tǒng)、 NoSQL 系統(tǒng)和實時事件結(jié)合起來。在這個多語言平臺上,為不同類型的數(shù)據(jù)應(yīng)用確定了合適的架構(gòu)模式,是人工智能用例標準化實現(xiàn)的一個有價值方向。此外,組織企業(yè)數(shù)據(jù)湖中的所有數(shù)據(jù)需要一個超越數(shù)據(jù)建模的總體結(jié)構(gòu)。

作為企業(yè)數(shù)據(jù)市場的一部分,數(shù)據(jù)目錄解決了元數(shù)據(jù)管理方面的問題。數(shù)據(jù)目錄的重點是獲取、存儲和提供所有數(shù)據(jù)湖和源系統(tǒng)的各種元數(shù)據(jù)(技術(shù)、業(yè)務(wù)和操作元數(shù)據(jù))。通過這種方式,它可以使數(shù)據(jù)分析和質(zhì)量評估成為人工智能用例的重要組成部分,例如,評估企業(yè)數(shù)據(jù)庫中數(shù)據(jù)集的來源。數(shù)據(jù)目錄代表了一種相對較新的數(shù)據(jù)管理工具,主要關(guān)注于批量存儲系統(tǒng)中元數(shù)據(jù)的管理。

4.2 應(yīng)對數(shù)據(jù)共享的挑戰(zhàn)

數(shù)據(jù)共享挑戰(zhàn)中的數(shù)據(jù)提供、數(shù)據(jù)工程、數(shù)據(jù)發(fā)現(xiàn)和探索,都涉及到自助服務(wù)和元數(shù)據(jù)管理,要由基于數(shù)據(jù)目錄的企業(yè)數(shù)據(jù)市場來解決。數(shù)據(jù)目錄為數(shù)據(jù)生態(tài)系統(tǒng)提供了全面的元數(shù)據(jù)管理,極大地促進了數(shù)據(jù)工程以及各種終端用戶的數(shù)據(jù)發(fā)現(xiàn)和探索。企業(yè)數(shù)據(jù)市場還為各種數(shù)據(jù)生產(chǎn)者和消費者提供跨越了的整個數(shù)據(jù)生命周期的自助服務(wù)。例如,制造業(yè)的工程師通過在數(shù)據(jù)市場中獲得自服務(wù)工作流來提供企業(yè)數(shù)據(jù)庫中新機器的傳感器數(shù)據(jù)。

對于內(nèi)部的企業(yè)數(shù)據(jù)市場來說,既不存在現(xiàn)成的工具,也不存在健全的概念,需要作為一個單獨的軟件來實現(xiàn)。為此,有多種實現(xiàn)選擇,例如,使用語義技術(shù)對元數(shù)據(jù)和服務(wù)進行建模。

4.3 應(yīng)對數(shù)據(jù)治理挑戰(zhàn)

面對數(shù)據(jù)治理的挑戰(zhàn),數(shù)據(jù)生態(tài)系統(tǒng)定義了一系列與數(shù)據(jù)相關(guān)的關(guān)鍵角色,即數(shù)據(jù)擁有者、數(shù)據(jù)管理者、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。因此,數(shù)據(jù)所有權(quán)和數(shù)據(jù)管理這兩個方面問題都得到了解決??缦到y(tǒng)的數(shù)據(jù)所有權(quán)組織有助于為 AI 用例提供符合要求的源數(shù)據(jù),數(shù)據(jù)使用的審批和責(zé)任已經(jīng)明確界定。此外,通過建立參考數(shù)據(jù)模型和數(shù)據(jù)質(zhì)量標準,對各種數(shù)據(jù)的管理組織可以顯著提高數(shù)據(jù)質(zhì)量,并減少數(shù)據(jù)工程工作。在這種情況下,數(shù)據(jù)目錄通過為數(shù)據(jù)所有者和數(shù)據(jù)管理員提供關(guān)鍵指標來支持數(shù)據(jù)治理。

一個主要的問題是這些角色在現(xiàn)有組織結(jié)構(gòu)中如何實現(xiàn)。一般來說,各種各樣的數(shù)據(jù)治理框架和成熟度模型只提供關(guān)于如何處理數(shù)據(jù)治理的高級指導(dǎo),例如哪些主題需要處理,以及定義什么角色??紤]到行業(yè)和企業(yè)文化等因素,缺乏關(guān)于如何實施數(shù)據(jù)治理的具體指導(dǎo)方針,例如,決定何時按業(yè)務(wù)單位或業(yè)務(wù)流程來組織數(shù)據(jù)的所有權(quán)。

5、小結(jié)

數(shù)據(jù)挑戰(zhàn)是工業(yè)企業(yè)應(yīng)用人工智能的主要障礙。人工智能目前是以一種孤立的方式進行,導(dǎo)致了多語言和異構(gòu)的企業(yè)數(shù)據(jù)情景。這對系統(tǒng)數(shù)據(jù)管理、數(shù)據(jù)共享和數(shù)據(jù)治理提出了相當(dāng)大的挑戰(zhàn),并阻止了 AI 在工業(yè)企業(yè)中的廣泛使用。

為了解決這些問題,將工業(yè)企業(yè)的數(shù)據(jù)生態(tài)系統(tǒng)作為指導(dǎo)框架和總體架構(gòu),所有數(shù)據(jù)挑戰(zhàn)都將得到解決。數(shù)據(jù)生態(tài)系統(tǒng)的技術(shù)性質(zhì)使各組織能夠處理數(shù)據(jù)管理和數(shù)據(jù)治理挑戰(zhàn)的組織方面:確定了數(shù)據(jù)角色和數(shù)據(jù)平臺。此外,數(shù)據(jù)生產(chǎn)者和數(shù)消費者的數(shù)松散耦合和自組織性質(zhì)解決了數(shù)據(jù)共享的挑戰(zhàn),例如,企業(yè)數(shù)據(jù)市場提供了全面的自助服務(wù)和元數(shù)據(jù)管理。在這一點上,數(shù)據(jù)生態(tài)系統(tǒng)不僅適用于人工智能,也適用于任何類型的數(shù)據(jù)分析。

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2011-12-09 11:02:52

NoSQL

2015-06-08 12:44:58

大數(shù)據(jù)InterlAMPCamp

2009-12-25 14:49:55

2019-01-13 15:00:52

區(qū)塊鏈生態(tài)系統(tǒng)

2011-05-19 15:15:39

Oracle生態(tài)系統(tǒng)

2015-04-01 11:23:23

2010-05-12 11:16:00

SAP

2013-11-04 16:57:21

Hadoop大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)

2010-06-03 18:59:59

未來網(wǎng)絡(luò)MX 3D路由器Juniper

2020-06-02 21:02:48

物聯(lián)網(wǎng)硬件威脅物聯(lián)網(wǎng)安全

2017-08-02 13:08:30

物聯(lián)網(wǎng)生態(tài)系統(tǒng)邊緣計算

2022-02-25 11:09:16

區(qū)塊鏈技術(shù)生態(tài)系統(tǒng)

2024-01-15 00:07:08

JS生態(tài)系統(tǒng)

2023-10-11 15:11:08

智能建筑人工智能

2023-05-25 10:46:25

微軟OpenAIAI

2022-09-14 11:40:30

大數(shù)據(jù)物聯(lián)網(wǎng)

2016-10-19 18:31:11

2017-05-10 16:10:28

Kafka大數(shù)據(jù)數(shù)據(jù)庫

2009-02-01 11:33:37

加密數(shù)據(jù)權(quán)限磁盤

2013-06-07 09:59:53

大數(shù)據(jù)移動生態(tài)系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號