無(wú)監(jiān)督機(jī)器學(xué)習(xí)的重要指南
譯文【51CTO.com快譯】無(wú)監(jiān)督機(jī)器學(xué)習(xí)和人工智能顯然對(duì)組織的業(yè)務(wù)增長(zhǎng)很有幫助,但是它們是如何工作的?人們需要了解一些關(guān)鍵指南,以使其市場(chǎng)研究、趨勢(shì)預(yù)測(cè)和其他用途是有效的。
人們?nèi)缃裾幵跀?shù)字化轉(zhuǎn)型時(shí)代,只有一個(gè)不變的因素——進(jìn)化。而組織采用的高科技解決方案正在引入數(shù)字化轉(zhuǎn)型。因此,毫不奇怪的是,技術(shù)進(jìn)步已完全取代了平凡的業(yè)務(wù)。機(jī)器學(xué)習(xí)、人工智能(AI)、無(wú)監(jiān)督機(jī)器學(xué)習(xí)正在重塑組織在市場(chǎng)中競(jìng)爭(zhēng)的方式。因此,人們需要了解無(wú)監(jiān)督機(jī)器學(xué)習(xí)在各行業(yè)中的廣泛應(yīng)用。
什么是無(wú)監(jiān)督機(jī)器學(xué)習(xí)?
如果人們了解深度學(xué)習(xí),那么可能已經(jīng)聽(tīng)說(shuō)過(guò)兩種機(jī)器學(xué)習(xí)方法:監(jiān)督機(jī)器學(xué)習(xí)和無(wú)監(jiān)督機(jī)器學(xué)習(xí)。
例如組裝宜家的沙發(fā)無(wú)論采用什么方法,但其結(jié)果始終是相同的。但有些方法比其他方法更高效。通過(guò)宜家提供的組裝說(shuō)明書(shū),并按照預(yù)定義步驟進(jìn)行組織當(dāng)然很好。但是,對(duì)于經(jīng)驗(yàn)豐富的家具組裝商來(lái)說(shuō),則可以不用采用說(shuō)明書(shū)組裝。
機(jī)器學(xué)習(xí)幾乎與這個(gè)例子相似。如果用戶標(biāo)記了可以作為示例的訓(xùn)練數(shù)據(jù),人們將其稱為監(jiān)督機(jī)器學(xué)習(xí)。但是,如果沒(méi)有預(yù)先存在的標(biāo)簽,并且需要整理數(shù)據(jù)集,則稱之為無(wú)監(jiān)督機(jī)器學(xué)習(xí)。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)
與監(jiān)督機(jī)器學(xué)習(xí)不同,人們不用管理無(wú)監(jiān)督機(jī)器學(xué)習(xí)的模型。無(wú)監(jiān)督機(jī)器學(xué)習(xí)采用算法得出未標(biāo)記數(shù)據(jù)集的結(jié)論。
因此,無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法比監(jiān)督機(jī)器學(xué)習(xí)算法更加復(fù)雜,因?yàn)閹缀鯖](méi)有信息或無(wú)法預(yù)測(cè)結(jié)果。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法用于:
(1)查找組或簇;
(2)進(jìn)行密度估算;
(3)降維。
總體而言,無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法達(dá)到了未指定數(shù)據(jù)位的程度。
在這方面,無(wú)監(jiān)督機(jī)器學(xué)習(xí)分為兩組算法:聚類和降維。
聚類–數(shù)據(jù)探索
聚類分析的目的是根據(jù)相似性準(zhǔn)則將對(duì)象分為類。聚類與分類的主要區(qū)別在于簇的列表沒(méi)有明確定義,在算法操作過(guò)程中是有意義的。
聚類過(guò)程可以分為以下幾個(gè)階段:
- 選擇聚類對(duì)象;
- 確定變量集;
- 計(jì)算對(duì)象之間的相似性度量值;
- 將類似對(duì)象分組成簇;
- 展示結(jié)果。
聚類方法是無(wú)監(jiān)督機(jī)器學(xué)習(xí)中使用的最簡(jiǎn)單算法之一。但是,它們可以幫助獲取有價(jià)值的數(shù)據(jù)見(jiàn)解。
聚類是各個(gè)行業(yè)的首選分組方法:
- 營(yíng)銷和銷售–用于預(yù)測(cè)客戶行為(個(gè)性化和定位)。
- 搜索引擎–用于提供所需的搜索結(jié)果。
- 學(xué)術(shù)-用于監(jiān)視學(xué)生學(xué)習(xí)成績(jī)的進(jìn)度。
總體而言,聚類是許多領(lǐng)域中用于統(tǒng)計(jì)數(shù)據(jù)分析的常用技術(shù)。
降維–修改數(shù)據(jù)
是否曾經(jīng)嘗試過(guò)獲取具有3萬(wàn)個(gè)以上變量的數(shù)據(jù)集?這是一項(xiàng)艱巨的任務(wù)。缺少值、錯(cuò)誤和不相關(guān)的信息將失去平衡,并阻礙數(shù)據(jù)解釋。
降維可以最大程度減少特征數(shù)量,同時(shí)保留原始信息的有意義的屬性。
從技術(shù)的角度來(lái)看,它意味著一套減少訓(xùn)練數(shù)據(jù)中輸入變量數(shù)量的技術(shù)。
無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法的實(shí)際示例
k均值聚類–文檔聚類、數(shù)據(jù)挖掘
在無(wú)監(jiān)督機(jī)器學(xué)習(xí)的操作中,k均值聚類算法是最常用的算法。它將對(duì)象劃分為相似的簇,這些簇與屬于另一個(gè)簇的對(duì)象不同。
在數(shù)據(jù)挖掘中,k-means聚類用于將觀察分類為沒(méi)有預(yù)定義關(guān)系的相關(guān)觀察值。
除了數(shù)據(jù)挖掘之外,該工具在以下領(lǐng)域中是按需使用的:
- 市場(chǎng)細(xì)分;
- 文檔聚類;
- 圖像分割;
- 模式識(shí)別;
- 保險(xiǎn)欺詐檢測(cè)等。
隱馬爾可夫模型–模式識(shí)別、生物信息學(xué)、數(shù)據(jù)分析
如今,對(duì)文本進(jìn)行數(shù)字化的需求,即對(duì)將數(shù)據(jù)從紙張轉(zhuǎn)換為數(shù)字的軟件的需求日益增長(zhǎng)。光學(xué)字符識(shí)別可用于識(shí)別來(lái)自多媒體文件,例如圖像、音頻或視頻。尤其是,隱馬爾可夫模型使用戶可以高度準(zhǔn)確地識(shí)別文本或符號(hào)。
通常情況下,隱馬爾可夫模型(HMM)是最復(fù)雜的機(jī)器學(xué)習(xí)算法之一。它指的是一種統(tǒng)計(jì)模型,該模型識(shí)別可觀察事件的演變并對(duì)元素進(jìn)行分組。這是一條不可見(jiàn)的馬爾可夫鏈,每個(gè)狀態(tài)都會(huì)生成其中一個(gè)對(duì)人們可見(jiàn)的觀測(cè)值。
該技術(shù)在強(qiáng)化學(xué)習(xí)、時(shí)間模式識(shí)別、生物信息學(xué)等領(lǐng)域得到了廣泛的應(yīng)用。該算法被證明比所有競(jìng)爭(zhēng)的方法都更有效,這使得它成為主要的處理范例。
隱馬爾可夫模型(HMM)用例還包括:
- 計(jì)算生物學(xué);
- 數(shù)據(jù)分析;
- 基因預(yù)測(cè);
- 手勢(shì)識(shí)別等。
DBSCAN群集-市場(chǎng)研究和數(shù)據(jù)分析
基于噪聲的應(yīng)用程序基于密度的空間聚類或DBSCAN是一種流行的數(shù)據(jù)聚類算法,已在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中找到了廣泛的應(yīng)用。根據(jù)許多點(diǎn),DBSCAN將在距離方向上彼此接近元素分組。
總體而言,DBSCAN處理包括以下幾個(gè)階段:
- 技術(shù)將數(shù)據(jù)集劃分為多個(gè)維度。
- 對(duì)于每個(gè)數(shù)據(jù)元素,該算法都會(huì)創(chuàng)建一個(gè)維度形狀,然后評(píng)估屬于該形狀的數(shù)據(jù)點(diǎn)的數(shù)量。
- 然后將形狀視為簇。
DBSCAN的實(shí)際示例包括:
- 市場(chǎng)調(diào)查;
- 模式識(shí)別;
- 數(shù)據(jù)分析;
- 圖像處理等。
主成分分析(PCA)-人臉識(shí)別和推薦系統(tǒng)
主成分分析(PCA)是一種降維算法,通過(guò)減少仍然保留具有價(jià)值信息的大量變量來(lái)減少大型數(shù)據(jù)集的維數(shù)。在所有無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法中,主成分分析(PCA)可能不是最復(fù)雜的方法,但它無(wú)疑是最重要的方法之一。
它沒(méi)有消除功能,而是以特定方式對(duì)輸入變量進(jìn)行分組,從而跳過(guò)了最不重要的變量,并保留了最有價(jià)值的部分。
作為一種可視化工具,主成分分析(PCA)非常適合顯示過(guò)程的鳥(niǎo)瞰圖。它也適用于以下領(lǐng)域:
- 人臉識(shí)別;
- 多元數(shù)據(jù)分析;
- 視頻推薦系統(tǒng);
- 圖像壓縮等。
T-SNE –非線性可視化方法
T分布隨機(jī)鄰域嵌入是另一種無(wú)監(jiān)督的隨機(jī)算法,僅用于可視化。從技術(shù)上講,它是一種降維算法,特別適合于高維數(shù)據(jù)集的可視化。T-SNE方法的主要優(yōu)點(diǎn)是它是非線性的,因此比PCA算法更直觀。因此,T-SNE適用于各種數(shù)據(jù)集。
從音樂(lè)分析和復(fù)雜的受眾細(xì)分到計(jì)算機(jī)安全研究、癌癥研究和生物信息學(xué),T-SNE已廣泛用于各種應(yīng)用程序的可視化。
奇異值分解(SVD)–推薦系統(tǒng)
奇異值分解(SVD)是一種廣泛用于處理矩陣的有效方法。奇異值分解演示了矩陣SVD結(jié)構(gòu)的幾何形狀,并有助于可視化可用數(shù)據(jù)。
該算法是用于解決各種問(wèn)題(從最小二乘解到圖像壓縮和面部識(shí)別)的首選工具。SVD定義了突出的數(shù)據(jù)功能,使其適合于進(jìn)一步處理。出色的SVD用例是一種產(chǎn)品推薦,可向用戶顯示相關(guān)的產(chǎn)品信息。
奇異值分解也適用于:
- 對(duì)數(shù)據(jù)進(jìn)行消噪;
- 從數(shù)據(jù)集中獲取特定類型的信息(例如查找位于某地的每個(gè)用戶的信息);
- 為特定用戶提出建議(推薦引擎)。
關(guān)聯(lián)規(guī)則–市場(chǎng)的購(gòu)物分析
關(guān)聯(lián)規(guī)則是無(wú)監(jiān)督機(jī)器學(xué)習(xí)的核心方法之一。最初,它用于查找超市中的典型購(gòu)買(mǎi)模式——購(gòu)物分析。
換句話說(shuō),關(guān)聯(lián)規(guī)則的目的是揭示項(xiàng)目如何相互關(guān)聯(lián)。最后,它歸結(jié)為一個(gè)簡(jiǎn)單且受歡迎的市場(chǎng)公式,也就是購(gòu)買(mǎi)X商品的人,也有購(gòu)買(mǎi)Y商品的人。
因此,關(guān)聯(lián)規(guī)則是一種主要的市場(chǎng)工具,它可以:
- 優(yōu)化產(chǎn)品放置;
- 制定定制的產(chǎn)品建議;
- 計(jì)劃促銷活動(dòng);
- 改善商品計(jì)劃和價(jià)格優(yōu)化。
結(jié)語(yǔ)
機(jī)器學(xué)習(xí)已經(jīng)成為獲取可行的業(yè)務(wù)見(jiàn)解的強(qiáng)大工具。但是,由于機(jī)器學(xué)習(xí)算法千差萬(wàn)別,因此了解無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法如何成功實(shí)現(xiàn)部分業(yè)務(wù)的自動(dòng)化至關(guān)重要。
原文標(biāo)題:An Important Guide To Unsupervised Machine Learning,作者:Kayla Matthews
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】