?無(wú)監(jiān)督機(jī)器學(xué)習(xí)如何使工業(yè)自動(dòng)化受益?
現(xiàn)代工業(yè)環(huán)境充滿了傳感器和智能組件,所有這些設(shè)備一起產(chǎn)生了豐富的數(shù)據(jù)。當(dāng)今大多數(shù)工廠尚未深入開發(fā)的這些數(shù)據(jù),為各種令人興奮的新應(yīng)用提供了動(dòng)力。事實(shí)上,據(jù) IBM 稱,平均每個(gè)工廠每天都會(huì)產(chǎn)生 1TB 的生產(chǎn)數(shù)據(jù)。然而,只有大約 1% 的數(shù)據(jù)被轉(zhuǎn)化為可操作的見解。
機(jī)器學(xué)習(xí) (ML) 是一項(xiàng)基礎(chǔ)技術(shù),旨在利用這些數(shù)據(jù)并釋放大量?jī)r(jià)值。使用訓(xùn)練數(shù)據(jù),機(jī)器學(xué)習(xí)系統(tǒng)可以建立數(shù)學(xué)模型來(lái)教一個(gè)系統(tǒng)在沒(méi)有明確指令的情況下執(zhí)行特定任務(wù)。
ML 使用對(duì)數(shù)據(jù)起作用的算法在很大程度上無(wú)需人工干預(yù)即可做出決策。工業(yè)自動(dòng)化領(lǐng)域最常見的機(jī)器學(xué)習(xí)形式是監(jiān)督機(jī)器學(xué)習(xí),它使用人類標(biāo)記的大量歷史數(shù)據(jù)來(lái)訓(xùn)練模型(即人類監(jiān)督算法的訓(xùn)練)。
這對(duì)于軸承缺陷、潤(rùn)滑故障或產(chǎn)品缺陷等眾所周知的問(wèn)題非常有用。監(jiān)督機(jī)器學(xué)習(xí)的不足之處在于無(wú)法獲得足夠的歷史數(shù)據(jù),標(biāo)記過(guò)于耗時(shí)或昂貴,或者用戶不確定他們?cè)跀?shù)據(jù)中尋找的確切內(nèi)容。這就是無(wú)監(jiān)督機(jī)器學(xué)習(xí)發(fā)揮作用的時(shí)候。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)旨在使用擅長(zhǎng)識(shí)別模式和查明數(shù)據(jù)異常的算法對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行操作。正確應(yīng)用的無(wú)監(jiān)督機(jī)器學(xué)習(xí)服務(wù)于各種工業(yè)自動(dòng)化用例,從狀態(tài)監(jiān)測(cè)和性能測(cè)試到網(wǎng)絡(luò)安全和資產(chǎn)管理。
監(jiān)督學(xué)習(xí)vs.無(wú)監(jiān)督學(xué)習(xí)
監(jiān)督機(jī)器學(xué)習(xí)比無(wú)監(jiān)督機(jī)器學(xué)習(xí)更容易執(zhí)行。使用經(jīng)過(guò)適當(dāng)訓(xùn)練的模型,它可以提供非常一致、可靠的結(jié)果。有監(jiān)督的機(jī)器學(xué)習(xí)可能需要大量歷史數(shù)據(jù)--正如包含所有相關(guān)案例所需要的那樣,即,為了檢測(cè)產(chǎn)品缺陷,數(shù)據(jù)需要包含足夠數(shù)量的有缺陷產(chǎn)品案例。標(biāo)記這些海量數(shù)據(jù)集可能既耗時(shí)又昂貴。此外,訓(xùn)練模型是一門藝術(shù)。它需要大量數(shù)據(jù),經(jīng)過(guò)適當(dāng)?shù)恼?,才能產(chǎn)生良好的結(jié)果。
如今,使用 AutoML 等工具對(duì)不同的 ML 算法進(jìn)行基準(zhǔn)測(cè)試,這一過(guò)程得到了顯著簡(jiǎn)化。同時(shí),過(guò)度約束訓(xùn)練過(guò)程可能會(huì)導(dǎo)致模型在訓(xùn)練集上運(yùn)行良好,但在實(shí)際數(shù)據(jù)上效果不佳。另一個(gè)關(guān)鍵缺點(diǎn)是監(jiān)督機(jī)器學(xué)習(xí)在識(shí)別數(shù)據(jù)中的意外趨勢(shì)或發(fā)現(xiàn)新現(xiàn)象方面不是很有效。對(duì)于這些類型的應(yīng)用程序,無(wú)監(jiān)督機(jī)器學(xué)習(xí)可以提供更好的結(jié)果。
常見的無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)
與監(jiān)督機(jī)器學(xué)習(xí)相比,無(wú)監(jiān)督機(jī)器學(xué)習(xí)僅對(duì)未標(biāo)記的輸入進(jìn)行操作。它為數(shù)據(jù)探索提供了強(qiáng)大的工具,無(wú)需人工幫助即可發(fā)現(xiàn)未知模式和關(guān)聯(lián)。對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行操作的能力可以節(jié)省時(shí)間和金錢,并使無(wú)監(jiān)督機(jī)器學(xué)習(xí)能夠在生成輸入后盡快對(duì)數(shù)據(jù)進(jìn)行操作。
不利的一面是,無(wú)監(jiān)督機(jī)器學(xué)習(xí)比監(jiān)督機(jī)器學(xué)習(xí)更復(fù)雜。它更昂貴,需要更高水平的專業(yè)知識(shí),并且通常需要更多數(shù)據(jù)。它的輸出往往不如有監(jiān)督的 ML 可靠,并且最終需要人工監(jiān)督才能獲得最佳結(jié)果。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的三種重要形式是聚類、異常檢測(cè)和數(shù)據(jù)降維。
聚類
顧名思義,聚類涉及分析數(shù)據(jù)集以識(shí)別數(shù)據(jù)之間的共享特征并將類似的實(shí)例組合在一起。因?yàn)榫垲愂且环N無(wú)監(jiān)督的 ML 技術(shù),所以算法(而不是人類)決定了排序的標(biāo)準(zhǔn)。因此,聚類可以帶來(lái)令人驚訝的發(fā)現(xiàn),并且是一種出色的數(shù)據(jù)探索工具。
舉一個(gè)簡(jiǎn)單的例子:想象三個(gè)人被要求在一個(gè)生產(chǎn)部門對(duì)水果進(jìn)行分類。一種可能按水果類型排序--柑橘、核果、熱帶水果等;另一種可能按顏色排序;而第三種可能按形狀排序。每種方法都突出了一組不同的特征。
聚類可以分為多種類型。最常見的是:
互斥聚類(Exclusive Clustering):一個(gè)數(shù)據(jù)實(shí)例被獨(dú)占分配給一個(gè)集群。
模糊或重疊聚類(Fuzzy Clustering):一個(gè)數(shù)據(jù)實(shí)例可以分配給多個(gè)集群。例如,橘子既是柑橘類水果,也是熱帶水果。在對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行操作的無(wú)監(jiān)督 ML 算法的情況下,可以分配數(shù)據(jù)塊正確屬于 A 組與 B 組的概率。
層次聚類(Hierarchical clustering):該技術(shù)涉及構(gòu)建聚類數(shù)據(jù)的分層結(jié)構(gòu),而不是一組聚類。橘子是柑橘類水果,但它們也包含在較大的球形水果組中,可以進(jìn)一步被所有水果組吸收。
讓我們看一組最流行的聚類算法:
- K-均值
K 均值(K-means)算法將數(shù)據(jù)分類到 K 聚類中,其中 K 的值由用戶預(yù)設(shè)。在過(guò)程開始時(shí),算法隨機(jī)分配 K 個(gè)數(shù)據(jù)點(diǎn)作為 K 個(gè)聚類的質(zhì)心。接下來(lái),它計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與其聚類的質(zhì)心之間的均值。這會(huì)導(dǎo)致將數(shù)據(jù)訴諸集群。此時(shí),算法重新計(jì)算質(zhì)心并重復(fù)均值計(jì)算。它重復(fù)計(jì)算質(zhì)心和重新排序聚類的過(guò)程,直到它到達(dá)一個(gè)恒定的解(參見圖1)。
圖 1:K-means 算法將數(shù)據(jù)集劃分為 K 個(gè)集群,首先隨機(jī)選擇 K 個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心,然后在集群中隨機(jī)分配剩余的實(shí)例。
K-means算法簡(jiǎn)單高效。它對(duì)于模式識(shí)別和數(shù)據(jù)挖掘非常有用。不利的一面是,它需要一些數(shù)據(jù)集的高級(jí)知識(shí)來(lái)優(yōu)化設(shè)置。它也受到異常值的不成比例的影響。
- K-中值
K-中值(K-median)算法是 K-means 的近親。它使用基本相同的過(guò)程,只是它不是計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的平均值,而是計(jì)算中值。因此,該算法對(duì)異常值不太敏感。
以下是聚類分析的一些常見用例:
- 聚類對(duì)于細(xì)分等用例非常有效。這通常與客戶分析相關(guān)聯(lián)。它還可以應(yīng)用于資產(chǎn)類別,不僅用于分析產(chǎn)品質(zhì)量和性能,還可用于識(shí)別可能影響產(chǎn)品性能和使用壽命的使用模式。這對(duì)于管理資產(chǎn)"車隊(duì)"的OEM公司很有幫助,例如智能倉(cāng)庫(kù)中的自動(dòng)化移動(dòng)機(jī)器人或用于檢查和數(shù)據(jù)收集的無(wú)人機(jī)。
- 它可以作為圖像處理操作的一部分用于圖像分割。
- 聚類分析還可用作預(yù)處理步驟,以幫助為受監(jiān)督的 ML 應(yīng)用程序準(zhǔn)備數(shù)據(jù)。
異常檢測(cè)
異常檢測(cè)對(duì)于從缺陷檢測(cè)到狀態(tài)監(jiān)控再到網(wǎng)絡(luò)安全的各種用例至關(guān)重要。這是無(wú)監(jiān)督機(jī)器學(xué)習(xí)中的一項(xiàng)關(guān)鍵任務(wù)。在無(wú)監(jiān)督機(jī)器學(xué)習(xí)中會(huì)使用多種異常檢測(cè)算法,讓我們來(lái)看看兩個(gè)最受歡迎的:
- 隔離森林算法
異常檢測(cè)的標(biāo)準(zhǔn)方法是建立一組正常值,然后對(duì)每條數(shù)據(jù)進(jìn)行分析,看它是否偏離正常值以及偏離多少。在處理 ML 中使用的那種海量數(shù)據(jù)集時(shí),這是一個(gè)非常耗時(shí)的過(guò)程。隔離森林(Isolation forest)算法采用相反的方法。它將異常值定義為與數(shù)據(jù)集中的其他實(shí)例既不常見又非常不同。因此,它們更容易與其他實(shí)例上的其余數(shù)據(jù)集隔離開來(lái)。
隔離森林算法的內(nèi)存需求最小,所需時(shí)間與數(shù)據(jù)集的大小呈線性關(guān)系。他們可以處理高維數(shù)據(jù),即使它涉及不相關(guān)的屬性。
- 局部異常因子 (LOF)
僅通過(guò)與質(zhì)心的距離來(lái)識(shí)別異常值的挑戰(zhàn)之一是,距離小集群短距離的數(shù)據(jù)點(diǎn)可能是異常值,而距離大集群看似很遠(yuǎn)的點(diǎn)可能不是。LOF 算法就是為了做出這種區(qū)分而設(shè)計(jì)的。
LOF 將異常值定義為局部密度偏差遠(yuǎn)大于其相鄰數(shù)據(jù)點(diǎn)的數(shù)據(jù)點(diǎn)(參見圖 2)。盡管與 K-means 一樣,它確實(shí)需要提前進(jìn)行一些用戶設(shè)置,但它可能非常有效。當(dāng)用作半監(jiān)督算法并僅在正常數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),它也可以應(yīng)用于新穎性檢測(cè)。
圖 2:局部異常值因子 (LOF) 使用每個(gè)數(shù)據(jù)點(diǎn)的局部密度偏差來(lái)計(jì)算異常分?jǐn)?shù),從而區(qū)分正常數(shù)據(jù)點(diǎn)和異常值。
以下是異常檢測(cè)的幾個(gè)用例:
- 預(yù)測(cè)性維護(hù):大多數(shù)工業(yè)設(shè)備經(jīng)久耐用,停機(jī)時(shí)間最短。因此,可以使用的歷史數(shù)據(jù)通常很有限。因?yàn)闊o(wú)監(jiān)督 ML 即使在有限的數(shù)據(jù)集中也可以檢測(cè)到異常行為,它可以潛在地識(shí)別這些情況下的發(fā)展缺陷。在這里,它也可用于車隊(duì)管理,提供缺陷預(yù)警,同時(shí)最大限度地減少需要審查的數(shù)據(jù)量。
- 質(zhì)量保證/檢驗(yàn):操作不當(dāng)?shù)臋C(jī)器可能會(huì)生產(chǎn)出不合格的產(chǎn)品。無(wú)監(jiān)督機(jī)器學(xué)習(xí)可用于監(jiān)控功能和流程以標(biāo)記任何異常情況。與標(biāo)準(zhǔn) QA 流程不同,它可以在沒(méi)有標(biāo)簽和培訓(xùn)的情況下做到這一點(diǎn)。
- 圖像異常的識(shí)別:這在醫(yī)學(xué)成像中特別有用,可以識(shí)別危險(xiǎn)的病理。
- 網(wǎng)絡(luò)安全:網(wǎng)絡(luò)安全的最大挑戰(zhàn)之一是威脅在不斷變化。在這種情況下,通過(guò)無(wú)監(jiān)督 ML 進(jìn)行異常檢測(cè)可能非常有效。一種標(biāo)準(zhǔn)的安全技術(shù)是監(jiān)控?cái)?shù)據(jù)流。如果通常向其他組件發(fā)送命令的 PLC 突然開始接收來(lái)自非典型設(shè)備或 IP 地址的穩(wěn)定命令流,這可能表示入侵。但是,如果惡意代碼來(lái)自受信任的來(lái)源(或不良行為者欺騙受信任的來(lái)源)怎么辦?無(wú)監(jiān)督學(xué)習(xí)可以通過(guò)在接收命令的設(shè)備中尋找非典型行為來(lái)檢測(cè)不良行為者。
- 測(cè)試數(shù)據(jù)分析:測(cè)試在設(shè)計(jì)和生產(chǎn)中都起著至關(guān)重要的作用。所涉及的兩個(gè)最大挑戰(zhàn)是所涉及的數(shù)據(jù)量巨大,以及在不引入固有偏見的情況下分析數(shù)據(jù)的能力。無(wú)監(jiān)督機(jī)器學(xué)習(xí)可以解決這兩個(gè)挑戰(zhàn)。當(dāng)測(cè)試團(tuán)隊(duì)甚至不確定他們?cè)趯ふ沂裁磿r(shí),它在開發(fā)過(guò)程或生產(chǎn)故障排除中可能是一個(gè)特別的好處。
降維
機(jī)器學(xué)習(xí)基于大量數(shù)據(jù),而且通常數(shù)量非常巨大。可以篩選到十個(gè)到幾十個(gè)特征的數(shù)據(jù)集是一回事。具有數(shù)千個(gè)特征的數(shù)據(jù)集(它們肯定存在)可能是壓倒性的。因此,ML 的第一步可以是降維以將數(shù)據(jù)減少到最有意義的特征。
用于降維、模式識(shí)別和數(shù)據(jù)探索的常用算法是主成分分析 (PCA)。對(duì)該算法的詳細(xì)討論超出了本文的范圍??梢哉f(shuō)它可以幫助識(shí)別相互正交的數(shù)據(jù)子集,即它們可以從數(shù)據(jù)集中刪除而不影響主要分析。PCA 有幾個(gè)有趣的用例:
- 數(shù)據(jù)預(yù)處理:談到機(jī)器學(xué)習(xí),人們常說(shuō)的理念是越多越好。也就是說(shuō),有時(shí)更多就是更多,特別是在無(wú)關(guān)/冗余數(shù)據(jù)的情況下。在這些情況下,無(wú)監(jiān)督機(jī)器學(xué)習(xí)可用于刪除不必要的特征(數(shù)據(jù)維度),加快處理時(shí)間并改善結(jié)果。在視覺(jué)系統(tǒng)的情況下,無(wú)監(jiān)督機(jī)器學(xué)習(xí)可用于降噪。
- 圖像壓縮:PCA 非常擅長(zhǎng)降低數(shù)據(jù)集的維數(shù),同時(shí)保留有意義的信息。這使得該算法非常擅長(zhǎng)圖像壓縮。
- 模式識(shí)別:上面討論的相同功能使 PCA 可用于面部識(shí)別和其他復(fù)雜圖像識(shí)別等任務(wù)。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)并不比監(jiān)督機(jī)器學(xué)習(xí)更好或更差。對(duì)于正確的項(xiàng)目,它可能非常有效。也就是說(shuō),最好的經(jīng)驗(yàn)法則是保持簡(jiǎn)單,因此通常僅在監(jiān)督機(jī)器學(xué)習(xí)無(wú)法解決的問(wèn)題上使用無(wú)監(jiān)督機(jī)器學(xué)習(xí)。
思考下面是幾個(gè)問(wèn)題,以確定哪種機(jī)器學(xué)習(xí)方式最適合您的項(xiàng)目:
- 問(wèn)題是什么?
- 什么是商業(yè)案例?量化的目標(biāo)是什么?該項(xiàng)目將多快帶來(lái)投資回報(bào)?這與監(jiān)督學(xué)習(xí)或其他更傳統(tǒng)的解決方案相比如何?
- 有哪些類型的輸入數(shù)據(jù)可用?你有多少?它與您要回答的問(wèn)題相關(guān)嗎?是否有已經(jīng)產(chǎn)生標(biāo)記數(shù)據(jù)的流程,例如,是否有識(shí)別有缺陷產(chǎn)品的 QA 流程?是否有記錄設(shè)備故障的維修數(shù)據(jù)庫(kù)?
- 它適合無(wú)監(jiān)督機(jī)器學(xué)習(xí)嗎?
最后,這里有一些技巧可以幫助確保成功:
- 在開始項(xiàng)目之前做好功課并制定策略。
- 從小處著手,以較小的規(guī)模解決錯(cuò)誤。
- 請(qǐng)確保解決方案是可擴(kuò)展的,您應(yīng)該不會(huì)希望最終陷入試點(diǎn)項(xiàng)目的煉獄。
- 考慮與合作伙伴合作。所有類型的機(jī)器學(xué)習(xí)都需要專業(yè)知識(shí)。尋找合適的工具和合作伙伴來(lái)實(shí)現(xiàn)自動(dòng)化。不要重新發(fā)明輪子。您可以付費(fèi)在內(nèi)部培養(yǎng)必要的技能,也可以將您的資源用于提供您最擅長(zhǎng)的產(chǎn)品和服務(wù),同時(shí)讓合作伙伴和生態(tài)系統(tǒng)處理繁重的工作。
在工業(yè)環(huán)境中收集的數(shù)據(jù)可能是一種寶貴的資源,但只有在適當(dāng)利用的情況下。無(wú)監(jiān)督機(jī)器學(xué)習(xí)可以成為分析數(shù)據(jù)集以提取可操作見解的強(qiáng)大工具。采用該技術(shù)可能具有挑戰(zhàn)性,但它可以在充滿挑戰(zhàn)的世界中提供顯著的競(jìng)爭(zhēng)優(yōu)勢(shì)。