在企業(yè)中操作大數(shù)據(jù)的實(shí)用人工智能技術(shù)
三大趨勢(shì)的獨(dú)特融合幫助人工智能得到普及應(yīng)用,并使其在日常應(yīng)用中無處不在——大數(shù)據(jù)、云計(jì)算和高級(jí)算法。如今,人工智能從根本上改變了軟件的編寫方式,并將其融入日常數(shù)字體驗(yàn)中,例如寫電子郵件、搜索網(wǎng)絡(luò)、購(gòu)買服裝、搜索和聽音樂以及建立網(wǎng)站。不過,人工智能在制造業(yè)、交通運(yùn)輸、航空、發(fā)電、金融服務(wù)和其他行業(yè)的全球基礎(chǔ)設(shè)施系統(tǒng)中的傳播速度有所放緩。
雖然這些行業(yè)擁有大量數(shù)據(jù),但這些數(shù)據(jù)通常是:
- 不屬于公共領(lǐng)域;例如石油和天然氣的石油勘探或環(huán)境影響報(bào)告。
- 需要知識(shí)淵博的人進(jìn)行注釋;例如來自燃?xì)廨啓C(jī)、水泵、壓縮機(jī)的傳感器數(shù)據(jù)。
- 以多種格式保存在復(fù)雜的數(shù)據(jù)存儲(chǔ)中,并且并不總是被清理;例如飛機(jī)維修日志或手冊(cè)。
這些非常現(xiàn)實(shí)的挑戰(zhàn)使得應(yīng)用那些徹底改變了互聯(lián)網(wǎng)搜索、閱讀發(fā)票、翻譯語言和進(jìn)行對(duì)話的人工智能技術(shù)無法原封不動(dòng)地應(yīng)用于專業(yè)領(lǐng)域。
工業(yè)界的人工智能從業(yè)者意識(shí)到,傳統(tǒng)的監(jiān)督機(jī)器學(xué)習(xí)方法和來自學(xué)術(shù)界和研究的大規(guī)模模型在專業(yè)領(lǐng)域經(jīng)常失敗,這使得商業(yè)企業(yè)中大數(shù)據(jù)的操作化變得非常困難。正如Gartner高級(jí)總監(jiān)分析師ChiragDekate在2019年所說,“啟動(dòng)試點(diǎn)看似簡(jiǎn)單,但將其部署到生產(chǎn)環(huán)境中卻極具挑戰(zhàn)性?!?
各行業(yè)采用的關(guān)鍵不是依賴數(shù)據(jù)科學(xué)家和軟件開發(fā)人員,而是授權(quán)能夠深入了解流程和數(shù)據(jù)的主題專家(SME)。然而,要讓發(fā)電廠運(yùn)營(yíng)商、金融分析師、海關(guān)代理人等中小型組織能夠直觀、快速地定義、構(gòu)建和部署他們自己的專用人工智能,需要新的數(shù)據(jù)發(fā)現(xiàn)、工具、自動(dòng)化和驗(yàn)證方法數(shù)據(jù)科學(xué)。
在企業(yè)中實(shí)施最流行的大數(shù)據(jù)形式的一些經(jīng)過驗(yàn)證的技術(shù)包括:
通過對(duì)數(shù)字傳感器數(shù)據(jù)的正常行為建模,為計(jì)劃外資產(chǎn)停機(jī)時(shí)間創(chuàng)建早期預(yù)警。
工業(yè)運(yùn)營(yíng)通常依賴于關(guān)鍵的高價(jià)值資產(chǎn)(例如燃?xì)廨啓C(jī))。一天的計(jì)劃外停機(jī)或停電可能會(huì)使電力公司或公用事業(yè)提供商損失約30萬美元的收入,這對(duì)消費(fèi)者的影響可能要嚴(yán)重得多。由于它們的關(guān)鍵性質(zhì),這些系統(tǒng)通常過度構(gòu)建冗余并具有全面的預(yù)防性維護(hù)計(jì)劃。具有諷刺意味的是,這使得傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)變得困難,因?yàn)樵谙到y(tǒng)的生命周期中很少發(fā)生故障。
正常行為建模是一種與領(lǐng)域無關(guān)的半監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可用于通過將任何系統(tǒng)表示為過程參數(shù)的組合來快速建模任何系統(tǒng)。中小企業(yè)在歷史數(shù)據(jù)中識(shí)別系統(tǒng)正常行為的時(shí)間范圍,然后人工智能開始學(xué)習(xí)過程參數(shù)之間的潛在關(guān)系。自動(dòng)編碼器是一種基于歷史數(shù)據(jù)訓(xùn)練并將潛在關(guān)系存儲(chǔ)為一組權(quán)重的神經(jīng)網(wǎng)絡(luò)。一旦自動(dòng)編碼器經(jīng)過訓(xùn)練,它就可以用于預(yù)測(cè)或重新生成輸入過程參數(shù)。如果并且當(dāng)過程參數(shù)的預(yù)測(cè)值或再生值與測(cè)量的歷史值不匹配時(shí),歸一化誤差被用作“異?!被虍惓5亩攘?。
在將這種類型的正常行為模型產(chǎn)品化之前,需要根據(jù)系統(tǒng)中實(shí)際中斷和事件的歷史記錄對(duì)其進(jìn)行回測(cè)。如果選定的過程參數(shù)很好地代表了系統(tǒng)的行為,那么在任何中斷之前,一些或所有參數(shù)應(yīng)該開始趨向于異常范圍。正常行為模型應(yīng)該通過提高異常水平來預(yù)測(cè)這一點(diǎn)。如果異常級(jí)別在停電之前持續(xù)提高到足夠高,則可用于為未來的停電創(chuàng)建預(yù)警系統(tǒng)。
在實(shí)踐中,可以使用超參數(shù)優(yōu)化自動(dòng)訓(xùn)練數(shù)十或數(shù)百個(gè)正常行為模型。創(chuàng)建目標(biāo)函數(shù)來衡量預(yù)測(cè)的準(zhǔn)確性和預(yù)警的長(zhǎng)度。這個(gè)目標(biāo)函數(shù)使得以編程方式評(píng)估和排列所有模型變體并將最好的模型部署到生產(chǎn)中成為可能??梢蕴砑宇~外的調(diào)整層,以根據(jù)異常級(jí)別和用戶的偏好選擇正確的動(dòng)態(tài)閾值來發(fā)出警報(bào)。
與傳統(tǒng)建模相比,正常行為模型具有以下優(yōu)勢(shì):
- 與領(lǐng)域無關(guān)。只要以合理的頻率和精度測(cè)量/記錄過程變量,就可以使用該方法。
- 無監(jiān)督學(xué)習(xí)。前期工作僅限于變量選擇和識(shí)別標(biāo)稱運(yùn)行條件,通??梢杂芍行∑髽I(yè)執(zhí)行。
使用點(diǎn)對(duì)點(diǎn)基于密度的聚類在自然語言記錄中查找模式。
自然語言記錄在工業(yè)環(huán)境中非常普遍,構(gòu)成了產(chǎn)品測(cè)試、應(yīng)用程序/安全日志、設(shè)備維護(hù)、物流、運(yùn)輸?shù)葟V泛過程的基礎(chǔ)。在實(shí)踐中,企業(yè)中的大多數(shù)記錄是半結(jié)構(gòu)化記錄,具有一列或多列結(jié)構(gòu)化數(shù)據(jù)(數(shù)字、日期、類別)和一列或多列通常為人類消費(fèi)而創(chuàng)建的自然語言文本。對(duì)半結(jié)構(gòu)化記錄的需求幾乎在企業(yè)中出現(xiàn)。在理想情況下,收集的有關(guān)流程的所有數(shù)據(jù)都可以是數(shù)字、日期和多項(xiàng)選擇分類元素。然而,在實(shí)踐中,將自然語言引入記錄有多種原因:
?并非所有流程模式在設(shè)計(jì)時(shí)都是已知的,導(dǎo)致“其他”或涵蓋所有類別。
?指令或程序最好用自然語言表示,并隨著時(shí)間的推移不斷改進(jìn)。
?故障排除、診斷、調(diào)查等通常會(huì)產(chǎn)生以前未知的知識(shí),從而使自然語言成為必要。
企業(yè)的運(yùn)營(yíng)記錄通常是功能性的/簡(jiǎn)潔的,包含拼寫錯(cuò)誤和俗語,并且通常包含首字母縮略詞和行話。這使得標(biāo)準(zhǔn)搜索和自然語言建模技術(shù)有些無效。此外,可能有很多方法可以使用自然語言,因此一個(gè)全面的規(guī)范化方案是站不住腳的。例如。上述事件可以按其嚴(yán)重程度(即輕傷)分類,也可以按受傷點(diǎn)分類(即手部受傷)。這兩個(gè)類別并不相互排斥,需要被視為單獨(dú)的分類方案。如果沒有中小企業(yè)的努力,大多數(shù)自然語言記錄很少被分析并且未被利用。
在自然語言記錄中尋找有用模式的一種實(shí)用方法是點(diǎn)對(duì)點(diǎn)聚類。為了檢索信息,中小企業(yè)首先在他們的記錄上使用常見的搜索技術(shù)。但是,閱讀數(shù)百個(gè)結(jié)果通常很乏味,并且簡(jiǎn)單地消耗前“n”個(gè)結(jié)果會(huì)為錯(cuò)過的信息留下空間。為了避免這些陷阱,人工智能在搜索結(jié)果上應(yīng)用了基于密度的聚類。當(dāng)DBSCAN或HDBSCAN等基于密度的方法用于記錄的句子嵌入時(shí),它們傾向于對(duì)語義相似的語言進(jìn)行聚類,而不會(huì)對(duì)拼寫、共軛、錯(cuò)別字和口語高度敏感。中小企業(yè)可以輕松地閱讀集群中的幾個(gè)代表性記錄以完全理解它。此外,對(duì)前“n”個(gè)集群的分析通常會(huì)暴露搜索結(jié)果中所有主要的信息模式。這些集群現(xiàn)在也可以成為分類方案的初始候選者,該分類方案可以逐步圍繞數(shù)據(jù)創(chuàng)建分類結(jié)構(gòu)。當(dāng)無法提前準(zhǔn)確和完全了解中小企業(yè)意圖但可以隨著時(shí)間的推移定義和應(yīng)用時(shí),這種技術(shù)在長(zhǎng)尾搜索問題中不斷展示出高價(jià)值。
使用發(fā)現(xiàn)循環(huán)從文檔中檢索信息或知識(shí)
為了推動(dòng)關(guān)鍵和時(shí)間敏感的決策,每個(gè)垂直行業(yè)、政府機(jī)構(gòu)和軍事部門的分析師都會(huì)遇到大量需要處理的內(nèi)容。高管們依靠分析師準(zhǔn)確解讀報(bào)告、新聞、咨詢和調(diào)查,從而為自信、深思熟慮的決策提供決策支持。通過探索性閱讀來尋找正確的內(nèi)容在認(rèn)知上是一種負(fù)擔(dān),并且會(huì)造成決策疲勞。此外,分析師通常會(huì)探索難以使用標(biāo)準(zhǔn)搜索工具所需的關(guān)鍵字和邏輯規(guī)則清晰表達(dá)的深?yuàn)W概念?!?
在考慮上述新聞?wù)浿械臄⑹鲂晕谋臼纠龝r(shí):
第二個(gè)示例實(shí)際上沒有使用“爆發(fā)”一詞,但中小企業(yè)可能會(huì)很快將其評(píng)估為爆發(fā)的領(lǐng)先指標(biāo)。為了解決這些深?yuàn)W的知識(shí)獲取場(chǎng)景,中小企業(yè)首先使用代表他們想要找到的想法的多個(gè)關(guān)鍵字之一來搜索他們的文檔。DiscoveryLoopAI然后從結(jié)果中選擇25-50個(gè)最具代表性的句子,并通過簡(jiǎn)單的點(diǎn)擊手勢(shì),使中小企業(yè)能夠?qū)⒔Y(jié)果分類為一個(gè)或多個(gè)有意義的類別。或者,中小企業(yè)也可以從句子中指示子串以逐字提取。人工智能訓(xùn)練一個(gè)CNN分類器來學(xué)習(xí)中小企業(yè)分配的類別。任何未分類的句子都會(huì)自動(dòng)分配到“不感興趣”類別。如此訓(xùn)練的模型對(duì)原始搜索結(jié)果中的所有句子進(jìn)行推理?;谕茢嗟念悇e預(yù)測(cè)及其相對(duì)預(yù)測(cè)置信度,人工智能呈現(xiàn)至少2組句子供中小企業(yè)審查和/或糾正——基于分配的類別標(biāo)簽“最像標(biāo)簽x”和“最不像標(biāo)簽x”到最初的25~50個(gè)句子。由于人工智能只訓(xùn)練25~50個(gè)句子的模型并對(duì)搜索結(jié)果進(jìn)行推理,因此循環(huán)通常只需幾分鐘。同樣,每個(gè)審查組每個(gè)只有25~50句話,只需要中小企業(yè)幾分鐘的審查。這種快速迭代被稱為發(fā)現(xiàn)循環(huán),它使中小企業(yè)能夠快速發(fā)現(xiàn)信息,而無需關(guān)注關(guān)鍵字,而只需閱讀和做出重點(diǎn)決策。隨著中小企業(yè)管理更多的標(biāo)記句子,人工智能重新訓(xùn)練分類或提取模型以提高準(zhǔn)確性并通過使用從標(biāo)記句子中提取的關(guān)鍵字執(zhí)行查詢擴(kuò)展來增加文檔集的覆蓋范圍。在任何時(shí)候,模型都可以針對(duì)文檔集中的所有句子運(yùn)行,以獲得與中小企業(yè)定義的深?yuàn)W概念相匹配的綜合句子子集,然后可以在分析師報(bào)告中作為證據(jù)引用或引用。
與經(jīng)典的監(jiān)督分類方法相比,點(diǎn)對(duì)點(diǎn)基于密度的聚類和發(fā)現(xiàn)循環(huán)都具有以下優(yōu)勢(shì):
- 減少傳統(tǒng)方法所需的繁瑣、全面的標(biāo)記負(fù)擔(dān).
- 使中小企業(yè)能夠在發(fā)現(xiàn)新信息時(shí)逐步開發(fā)類別.
- 使中小企業(yè)僅對(duì)有用的數(shù)據(jù)子集進(jìn)行建模.
所有技術(shù)的一個(gè)共同特點(diǎn)是利用人工智能增強(qiáng)中小企業(yè)的知識(shí)和直覺,使他們能夠?qū)W⒂诟邇r(jià)值的決策。通過避開學(xué)術(shù)界流行的經(jīng)典監(jiān)督建模方法,這些技術(shù)通過在SME的指尖提供即時(shí)智能,專注于快速實(shí)用性。