自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="5wre5"></sub>

<sub id="5wre5"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一文簡(jiǎn)述多種無(wú)監(jiān)督聚類(lèi)算法的Python實(shí)現(xiàn)

作者：機(jī)器之心編譯 2018-05-28 15:33:09

開(kāi)發(fā) 開(kāi)發(fā)工具后端算法

本文簡(jiǎn)要介紹了多種無(wú)監(jiān)督學(xué)習(xí)算法的 Python 實(shí)現(xiàn)，包括 K 均值聚類(lèi)、層次聚類(lèi)、t-SNE 聚類(lèi)、DBSCAN 聚類(lèi)。

無(wú)監(jiān)督學(xué)習(xí)是一類(lèi)用于在數(shù)據(jù)中尋找模式的機(jī)器學(xué)習(xí)技術(shù)。無(wú)監(jiān)督學(xué)習(xí)算法使用的輸入數(shù)據(jù)都是沒(méi)有標(biāo)注過(guò)的，這意味著數(shù)據(jù)只給出了輸入變量(自變量 X)而沒(méi)有給出相應(yīng)的輸出變量(因變量)。在無(wú)監(jiān)督學(xué)習(xí)中，算法本身將發(fā)掘數(shù)據(jù)中有趣的結(jié)構(gòu)。

人工智能研究的領(lǐng)軍人物 Yan Lecun，解釋道：無(wú)監(jiān)督學(xué)習(xí)能夠自己進(jìn)行學(xué)習(xí)，而不需要被顯式地告知他們所做的一切是否正確。這是實(shí)現(xiàn)真正的人工智能的關(guān)鍵!

監(jiān)督學(xué)習(xí) VS 無(wú)監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中，系統(tǒng)試圖從之前給出的示例中學(xué)習(xí)。(而在無(wú)監(jiān)督學(xué)習(xí)中，系統(tǒng)試圖從給定的示例中直接找到模式。)因此，如果數(shù)據(jù)集被標(biāo)注過(guò)了，這就是一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題;而如果數(shù)據(jù)沒(méi)有被標(biāo)注過(guò)，這就是一個(gè)無(wú)監(jiān)督學(xué)習(xí)問(wèn)題。

上圖是一個(gè)監(jiān)督學(xué)習(xí)的例子，它使用回歸技術(shù)找到在各個(gè)特征之間的最佳擬合曲線(xiàn)。而在無(wú)監(jiān)督學(xué)習(xí)中，根據(jù)特征對(duì)輸入數(shù)據(jù)進(jìn)行劃分，并且根據(jù)數(shù)據(jù)所屬的簇進(jìn)行預(yù)測(cè)。

重要的術(shù)語(yǔ)

特征：進(jìn)行預(yù)測(cè)時(shí)使用的輸入變量。
預(yù)測(cè)值：給定一個(gè)輸入示例時(shí)的模型輸出。
示例：數(shù)據(jù)集中的一行。一個(gè)示例包含一個(gè)或多個(gè)特征，可能還有一個(gè)標(biāo)簽。
標(biāo)簽：特征對(duì)應(yīng)的真實(shí)結(jié)果(與預(yù)測(cè)相對(duì)應(yīng))。

準(zhǔn)備無(wú)監(jiān)督學(xué)習(xí)所需的數(shù)據(jù)

在本文中，我們使用 Iris 數(shù)據(jù)集來(lái)完成初級(jí)的預(yù)測(cè)工作。這個(gè)數(shù)據(jù)集包含 150 條記錄，每條記錄由 5 個(gè)特征構(gòu)成——花瓣長(zhǎng)度、花瓣寬度、萼片長(zhǎng)度、萼片寬度、花的類(lèi)別?；ǖ念?lèi)別包含 Iris Setosa、Iris VIrginica 和 Iris Versicolor 三種。本文中向無(wú)監(jiān)督算法提供了鳶尾花的四個(gè)特征，預(yù)測(cè)它屬于哪個(gè)類(lèi)別。

本文使用 Python 環(huán)境下的 sklearn 庫(kù)來(lái)加載 Iris 數(shù)據(jù)集，并且使用 matplotlib 進(jìn)行數(shù)據(jù)可視化。以下是用于探索數(shù)據(jù)集的代碼片段：

# Importing Modules 
from sklearn import datasets 
import matplotlib.pyplot as plt 
 
# Loading dataset 
iris_df = datasets.load_iris() 
 
# Available methods on dataset 
print(dir(iris_df)) 
 
# Features 
print(iris_df.feature_names) 
 
# Targets 
print(iris_df.target) 
 
# Target Names 
print(iris_df.target_names) 
label = {0: 'red', 1: 'blue', 2: 'green'} 
 
# Dataset Slicing 
x_axis = iris_df.data[:, 0] # Sepal Length 
y_axis = iris_df.data[:, 2] # Sepal Width 
 
# Plotting 
plt.scatter(x_axis, y_axis, c=iris_df.target) 
plt.show()

['DESCR', 'data', 'feature_names', 'target', 'target_names'] 
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] 
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2] 
['setosa' 'versicolor' 'virginica']

紫色：Setosa，綠色：Versicolor，黃色：Virginica

聚類(lèi)分析

在聚類(lèi)分析中，數(shù)據(jù)被劃分為不同的幾組。簡(jiǎn)而言之，這一步旨在將具有相似特征的群組從整體數(shù)據(jù)中分離出來(lái)，并將它們分配到簇(cluster)中。

可視化示例：

如上所示，左圖是沒(méi)有進(jìn)行分類(lèi)的原始數(shù)據(jù)，右圖是進(jìn)行聚類(lèi)之后的數(shù)據(jù)(根據(jù)數(shù)據(jù)本身的特征將其分類(lèi))。當(dāng)給出一個(gè)待預(yù)測(cè)的輸入時(shí)，它會(huì)基于其特征查看自己從屬于哪一個(gè)簇，并以此為根據(jù)進(jìn)行預(yù)測(cè)。

K-均值聚類(lèi)的 Python 實(shí)現(xiàn)

K 均值是一種迭代的聚類(lèi)算法，它的目標(biāo)是在每次迭代中找到局部最大值。該算法要求在最初選定聚類(lèi)簇的個(gè)數(shù)。由于我們知道本問(wèn)題涉及到 3 種花的類(lèi)別，所以我們通過(guò)將參數(shù)「n_clusters」傳遞給 K 均值模型來(lái)編寫(xiě)算法，將數(shù)據(jù)分組到 3 個(gè)類(lèi)別中?，F(xiàn)在，我們隨機(jī)地將三個(gè)數(shù)據(jù)點(diǎn)(輸入)分到三個(gè)簇中?；诿總€(gè)點(diǎn)之間的質(zhì)心距離，下一個(gè)給定的輸入數(shù)據(jù)點(diǎn)將被劃分到獨(dú)立的簇中。接著，我們將重新計(jì)算所有簇的質(zhì)心。

每一個(gè)簇的質(zhì)心是定義結(jié)果集的特征值的集合。研究質(zhì)心的特征權(quán)重可用于定性地解釋每個(gè)簇代表哪種類(lèi)型的群組。

我們從 sklearn 庫(kù)中導(dǎo)入 K 均值模型，擬合特征并進(jìn)行預(yù)測(cè)。

K 均值算法的 Python 實(shí)現(xiàn)：

# Importing Modules 
from sklearn import datasets 
from sklearn.cluster import KMeans 
 
# Loading dataset 
iris_df = datasets.load_iris() 
 
# Declaring Model 
model = KMeans(n_clusters=3) 
 
# Fitting Model 
model.fit(iris_df.data) 
 
# Predicitng a single input 
predicted_label = model.predict([[7.2, 3.5, 0.8, 1.6]]) 
 
# Prediction on the entire data 
all_predictions = model.predict(iris_df.data) 
 
# Printing Predictions 
print(predicted_label) 
print(all_predictions)

[0] 
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 1 2 1 2 1 2 1 1 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 2 1 1 2]

層次聚類(lèi)

層次聚類(lèi)，顧名思義，是一種能夠構(gòu)建有層次的簇的算法。在這個(gè)算法的起始階段，每個(gè)數(shù)據(jù)點(diǎn)都是一個(gè)簇。接著，兩個(gè)最接近的簇合二為一。最終，當(dāng)所有的點(diǎn)都被合并到一個(gè)簇中時(shí)，算法停止。

層次聚類(lèi)的實(shí)現(xiàn)可以用 dendrogram 進(jìn)行展示。接下來(lái)，我們一起來(lái)看一個(gè)糧食數(shù)據(jù)的層次聚類(lèi)示例。數(shù)據(jù)集鏈接：

https://raw.githubusercontent.com/vihar/unsupervised-learning-with-python/master/seeds-less-rows.csv

1. 層次聚類(lèi)的 Python 實(shí)現(xiàn)：

# Importing Modules 
from scipy.cluster.hierarchy import linkage, dendrogram 
import matplotlib.pyplot as plt 
import pandas as pd 
 
# Reading the DataFrame 
seeds_df = pd.read_csv( 
 "https://raw.githubusercontent.com/vihar/unsupervised-learning-with-python/master/seeds-less-rows.csv") 
 
# Remove the grain species from the DataFrame, save for later 
varieties = list(seeds_df.pop('grain_variety')) 
 
# Extract the measurements as a NumPy array 
samples = seeds_df.values 
 
""" 
Perform hierarchical clustering on samples using the 
linkage() function with the method='complete' keyword argument. 
Assign the result to mergings. 
""" 
mergings = linkage(samples, method='complete') 
 
""" 
Plot a dendrogram using the dendrogram() function on mergings, 
specifying the keyword arguments labels=varieties, leaf_rotation=90, 
and leaf_font_size=6. 
""" 
dendrogram(mergings, 
 labels=varieties, 
 leaf_rotation=90, 
 leaf_font_size=6, 
 ) 
 
plt.show()

2. K 均值和層次聚類(lèi)之間的差別

層次聚類(lèi)不能很好地處理大數(shù)據(jù)，而 K 均值聚類(lèi)可以。原因在于 K 均值算法的時(shí)間復(fù)雜度是線(xiàn)性的，即 O(n);而層次聚類(lèi)的時(shí)間復(fù)雜度是平方級(jí)的，即 O(n2)。
在 K 均值聚類(lèi)中，由于我們最初隨機(jī)地選擇簇，多次運(yùn)行算法得到的結(jié)果可能會(huì)有較大差異。而層次聚類(lèi)的結(jié)果是可以復(fù)現(xiàn)的。
研究表明，當(dāng)簇的形狀為超球面(例如：二維空間中的圓、三維空間中的球)時(shí)，K 均值算法性能良好。
K 均值算法抗噪聲數(shù)據(jù)的能力很差(對(duì)噪聲數(shù)據(jù)魯棒性較差)，而層次聚類(lèi)可直接使用噪聲數(shù)據(jù)進(jìn)行聚類(lèi)分析。

t-SNE 聚類(lèi)

這是一種可視化的無(wú)監(jiān)督學(xué)習(xí)方法。t-SNE 指的是 t 分布隨機(jī)鄰居嵌入(t-distributed stochastic neighbor embedding)。它將高維空間映射到一個(gè)可視化的二維或三維空間中。具體而言，它將通過(guò)如下方式用二維或三維的數(shù)據(jù)點(diǎn)對(duì)高維空間的對(duì)象進(jìn)行建模：以高概率用鄰近的點(diǎn)對(duì)相似的對(duì)象進(jìn)行建模，而用相距較遠(yuǎn)的點(diǎn)對(duì)不相似的對(duì)象進(jìn)行建模。

用于 Iris 數(shù)據(jù)集的 t-SNE 聚類(lèi)的 Python 實(shí)現(xiàn)：

# Importing Modules 
from sklearn import datasets 
from sklearn.manifold import TSNE 
import matplotlib.pyplot as plt 
 
# Loading dataset 
iris_df = datasets.load_iris() 
 
# Defining Model 
model = TSNE(learning_rate=100) 
 
# Fitting Model 
transformed = model.fit_transform(iris_df.data) 
 
# Plotting 2d t-Sne 
x_axis = transformed[:, 0] 
y_axis = transformed[:, 1] 
 
plt.scatter(x_axis, y_axis, c=iris_df.target) 
plt.show()

紫色：Setosa，綠色：Versicolor，黃色：Virginica

在這里，具備 4 個(gè)特征(4 維)的 Iris 數(shù)據(jù)集被轉(zhuǎn)化到二維空間，并且在二維圖像中進(jìn)行展示。類(lèi)似地，t-SNE 模型可用于具備 n 個(gè)特征的數(shù)據(jù)集。

DBSCAN 聚類(lèi)

DBSCAN(帶噪聲的基于密度的空間聚類(lèi)方法)是一種流行的聚類(lèi)算法，它被用來(lái)在預(yù)測(cè)分析中替代 K 均值算法。它并不要求輸入簇的個(gè)數(shù)才能運(yùn)行。但是，你需要對(duì)其他兩個(gè)參數(shù)進(jìn)行調(diào)優(yōu)。

scikit-learn 的 DBSCAN 算法實(shí)現(xiàn)提供了缺省的「eps」和「min_samples」參數(shù)，但是在一般情況下，用戶(hù)需要對(duì)他們進(jìn)行調(diào)優(yōu)。參數(shù)「eps」是兩個(gè)數(shù)據(jù)點(diǎn)被認(rèn)為在同一個(gè)近鄰中的最大距離。參數(shù)「min_samples」是一個(gè)近鄰中在同一個(gè)簇中的數(shù)據(jù)點(diǎn)的最小個(gè)數(shù)。

1. DBSCAN 聚類(lèi)的 Python 實(shí)現(xiàn)：

# Importing Modules 
from sklearn.datasets import load_iris 
import matplotlib.pyplot as plt 
from sklearn.cluster import DBSCAN 
from sklearn.decomposition import PCA 
 
# Load Dataset 
iris = load_iris() 
 
# Declaring Model 
dbscan = DBSCAN() 
 
# Fitting 
dbscan.fit(iris.data) 
 
# Transoring Using PCA 
pca = PCA(n_components=2).fit(iris.data) 
pcapca_2d = pca.transform(iris.data) 
 
# Plot based on Class 
for i in range(0, pca_2d.shape[0]): 
 if dbscan.labels_[i] == 0: 
 c1 = plt.scatter(pca_2d[i, 0], pca_2d[i, 1], c='r', marker='+') 
 elif dbscan.labels_[i] == 1: 
 c2 = plt.scatter(pca_2d[i, 0], pca_2d[i, 1], c='g', marker='o') 
 elif dbscan.labels_[i] == -1: 
 c3 = plt.scatter(pca_2d[i, 0], pca_2d[i, 1], c='b', marker='*') 
 
plt.legend([c1, c2, c3], ['Cluster 1', 'Cluster 2', 'Noise']) 
plt.title('DB

2. 更多無(wú)監(jiān)督學(xué)習(xí)技術(shù)：

主成分分析(PCA)
異常檢測(cè)
自編碼器
深度信念網(wǎng)絡(luò)
赫布型學(xué)習(xí)
生成對(duì)抗網(wǎng)絡(luò)(GAN)
自組織映射

原文鏈接：

https://towardsdatascience.com/unsupervised-learning-with-python-173c51dc7f03

【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文，微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來(lái)源： 51CTO專(zhuān)欄

無(wú)監(jiān)督學(xué)習(xí)算法 Python

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="fsmge"></blockquote>

<sub id="fsmge"></sub>