用機器學(xué)習(xí)解決非結(jié)構(gòu)化數(shù)據(jù)問題
譯文?譯者 | 布加迪
審校 | 孫淑娟
數(shù)據(jù)革命如火如荼。未來五年內(nèi)創(chuàng)建的數(shù)字數(shù)據(jù)總量將是迄今生成的數(shù)據(jù)總量的兩倍,非結(jié)構(gòu)化數(shù)據(jù)將定義這個倡導(dǎo)數(shù)字體驗的新時代。
非結(jié)構(gòu)化數(shù)據(jù)指不遵循傳統(tǒng)模型或不適合結(jié)構(gòu)化數(shù)據(jù)庫格式的信息,占所有企業(yè)新數(shù)據(jù)的80%以上。為了準(zhǔn)備迎接這個轉(zhuǎn)變,許多公司在尋找創(chuàng)新的方法,管理、分析和盡量利用業(yè)務(wù)分析和人工智能等各種工具中的所有數(shù)據(jù)。但決策者也遇到了一個老問題:如何維護和改善龐大笨拙的數(shù)據(jù)集的質(zhì)量?
機器學(xué)習(xí)是解決之道。現(xiàn)在,機器學(xué)習(xí)技術(shù)方面的進步使組織能夠有效處理非結(jié)構(gòu)化數(shù)據(jù),并改進質(zhì)量保證工作。隨著數(shù)據(jù)革命方興未艾,貴公司在哪里遇到了難題?是面臨一大堆寶貴但難以管理的數(shù)據(jù)集,還是使用數(shù)據(jù)推動業(yè)務(wù)向前發(fā)展?
非結(jié)構(gòu)化數(shù)據(jù)需要的不僅僅是復(fù)制粘貼
準(zhǔn)確、及時、一致的數(shù)據(jù)對于現(xiàn)代企業(yè)的價值無可爭議,它與云計算和數(shù)字應(yīng)用程序一樣重要。盡管如此,糟糕的數(shù)據(jù)質(zhì)量仍然使公司/企業(yè)每年平均損失1300萬美元。
為了解決數(shù)據(jù)問題,您要運用統(tǒng)計方法來測量數(shù)據(jù)形狀,這使數(shù)據(jù)團隊能夠跟蹤變化、剔除異常數(shù)據(jù),并消除數(shù)據(jù)漂移?;诮y(tǒng)計方法的控制對于在做出關(guān)鍵決策之前判斷數(shù)據(jù)質(zhì)量,確定應(yīng)該如何以及何時使用數(shù)據(jù)集仍很有價值。雖然這種統(tǒng)計方法有效,但通常保留用于結(jié)構(gòu)化數(shù)據(jù)集,這類數(shù)據(jù)集適合客觀定量的測量。
但是那些不完全適合Microsoft Excel或Google Sheets的數(shù)據(jù)該如何是好?包括:
- 物聯(lián)網(wǎng):傳感器數(shù)據(jù)、股票數(shù)據(jù)和日志數(shù)據(jù)
- 多媒體:照片、音頻和視頻
- 富媒體:地理空間數(shù)據(jù)、衛(wèi)星圖像、天氣數(shù)據(jù)和監(jiān)視數(shù)據(jù)
- 文檔:文字處理文檔、電子表格、演示文稿、電子郵件和通訊數(shù)據(jù)
當(dāng)這些類型的非結(jié)構(gòu)化數(shù)據(jù)發(fā)揮作用時,不完整或不準(zhǔn)確的信息很容易進入到模型。如果錯誤無人注意,數(shù)據(jù)問題就會越積越多,對季度報告和預(yù)測預(yù)估等各項工作造成嚴(yán)重破壞。從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)的簡單復(fù)制粘貼方法不夠,實際上可能會使業(yè)務(wù)變得更糟。
常說的“垃圾進垃圾出”非常適用于非結(jié)構(gòu)化數(shù)據(jù)集。也許是時候拋棄當(dāng)前的數(shù)據(jù)方法了。
機器學(xué)習(xí)用于保證數(shù)據(jù)質(zhì)量時要注意的事項
考慮非結(jié)構(gòu)化數(shù)據(jù)的解決方案時,機器學(xué)習(xí)應(yīng)該是首選。這是由于機器學(xué)習(xí)可以分析海量數(shù)據(jù)集,并在雜亂數(shù)據(jù)中快速找到模式。如果借助正確的訓(xùn)練,機器學(xué)習(xí)模型可以學(xué)習(xí)解釋、組織和分類任何形式的非結(jié)構(gòu)化數(shù)據(jù)類型。
比如說,機器學(xué)習(xí)模型可以學(xué)習(xí)為數(shù)據(jù)分析、清理和規(guī)模推薦規(guī)則,從而使醫(yī)療保健和保險等行業(yè)的工作更高效更精確。同樣,機器學(xué)習(xí)程序可以按非結(jié)構(gòu)化數(shù)據(jù)源(比如社交媒體上或電子郵件記錄中的數(shù)據(jù)源)中的主題或情緒,識別和分類文本數(shù)據(jù)。
當(dāng)您通過機器學(xué)習(xí)改進數(shù)據(jù)質(zhì)量工作時,記住幾個關(guān)鍵的注意事項:
- 實現(xiàn)自動化:數(shù)據(jù)解耦和校正等手動數(shù)據(jù)操作乏味又耗時。鑒于當(dāng)今的自動化功能,它們也是日益過時的操作,自動化功能可以處理乏味的日常操作,使數(shù)據(jù)團隊能夠?qū)W⒂诟匾?、更高效的工作。將自動化納入到數(shù)據(jù)管道中,只需確保已落實了標(biāo)準(zhǔn)化的操作程序和治理模型,以鼓勵圍繞任何自動化活動進行簡化、可預(yù)測的流程。
- 不要忽視人的監(jiān)督:數(shù)據(jù)的復(fù)雜性總是需要一定程度的專業(yè)知識和只有人類才能提供的上下文,無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)。雖然機器學(xué)習(xí)及其他數(shù)字解決方案會幫助數(shù)據(jù)團隊,但不要光依賴技術(shù)。相反,讓團隊能夠利用技術(shù),同時對單個數(shù)據(jù)流程定期監(jiān)管。這種兼顧可以糾正任何現(xiàn)有技術(shù)措施無法處理的數(shù)據(jù)錯誤。之后,可以根據(jù)這些差異來重新訓(xùn)練模型。
- 檢測根本原因:出現(xiàn)異?;蚱渌麛?shù)據(jù)錯誤時,這常常不是單一事件。如果收集和分析數(shù)據(jù)時忽略更深層次的問題,貴企業(yè)會面臨整個數(shù)據(jù)管道出現(xiàn)普遍性的質(zhì)量問題這一風(fēng)險。即使是最好的機器學(xué)習(xí)計劃也無法解決上游產(chǎn)生的錯誤,選擇性的人工干預(yù)再次可以夯實整體數(shù)據(jù)流程,并防止重大錯誤。
- 質(zhì)量方面不要做假設(shè):要長期分析數(shù)據(jù)質(zhì)量,應(yīng)想方設(shè)法來定性測量非結(jié)構(gòu)化數(shù)據(jù),而不是對數(shù)據(jù)形狀做出假設(shè)。您可以創(chuàng)建和測試“假設(shè)分析”場景,以開發(fā)自己的獨特的測量方法、預(yù)期輸出和參數(shù)。使用您的數(shù)據(jù)運行實驗提供了一種確定的方法來計算數(shù)據(jù)質(zhì)量和性能,您可以自動測量數(shù)據(jù)質(zhì)量本身。這個步驟確保始終進行質(zhì)量控制,并且作為數(shù)據(jù)攝取管道的基本功能,而不是事后添加上去的。
非結(jié)構(gòu)化數(shù)據(jù)是帶來新機遇和新見解的寶庫。然而,目前只有18%的組織利用其非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)質(zhì)量正是阻礙更多企業(yè)的主要因素之一。
隨著非結(jié)構(gòu)化數(shù)據(jù)變得越來越流行,并與日常業(yè)務(wù)決策和運營更緊密相關(guān),基于機器學(xué)習(xí)的質(zhì)量控制提供了亟需的保證:您的數(shù)據(jù)是相關(guān)、準(zhǔn)確、有用的。如果您沒有在數(shù)據(jù)質(zhì)量方面卡殼,就可以致力于使用數(shù)據(jù)推動貴公司向前發(fā)展。
想想當(dāng)您有效控制數(shù)據(jù)或者更好的是讓機器學(xué)習(xí)為您處理工作時帶來的種種機會。
原文標(biāo)題:??Solve the problem of unstructured data with machine learning???,作者:Edgar Honing?