自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<button id="sdf79"></button>

<thead id="sdf79"></thead>

<samp id="sdf79"></samp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景精華

發(fā)布于 2024-11-18 16:49

瀏覽

0收藏

近年來，機器學(xué)習(xí)的普及率急劇上升。機器學(xué)習(xí)從數(shù)據(jù)中創(chuàng)造價值的潛力使其對許多不同行業(yè)的企業(yè)都具有吸引力。大多數(shù)機器學(xué)習(xí)產(chǎn)品都是使用現(xiàn)成的機器學(xué)習(xí)算法設(shè)計和實現(xiàn)的，并進行了一些調(diào)整和微小的改動。

機器學(xué)習(xí)算法種類繁多，可分為三大類：

監(jiān)督學(xué)習(xí)算法在給定一組觀察值的情況下對特征（自變量）和標簽（目標）之間的關(guān)系進行建模。然后該模型用于使用這些特征預(yù)測新觀察的標簽。根據(jù)目標變量的特性，它可以是分類（離散目標變量）或回歸（連續(xù)目標變量）任務(wù)。
無監(jiān)督學(xué)習(xí)算法試圖在未標記的數(shù)據(jù)中找到數(shù)據(jù)規(guī)律。
強化學(xué)習(xí)基于行動獎勵原則。代理通過迭代計算其行為的獎勵來學(xué)習(xí)達到目標。

在這篇文章中，我將介紹前兩類中最常見的算法。具體11種算法如下：

線性回歸
支持向量機（SVM）
樸素貝葉斯
邏輯回歸
k最近鄰（KNN）
決策樹
隨機森林
梯度提升樹（GBDT）
K-Means
層次聚類
DBSCAN聚類
主成分分析（PCA）

1. 線性回歸

線性回歸是一種監(jiān)督學(xué)習(xí)算法，它試圖通過對數(shù)據(jù)擬合線性方程來模擬連續(xù)目標變量與一個或多個自變量之間的關(guān)系。

為了使線性回歸成為一個好的選擇，自變量和目標變量之間需要存在線性關(guān)系。有許多工具可以探索變量之間的關(guān)系，例如散點圖和相關(guān)矩陣。例如，下面的散點圖顯示了自變量（x 軸）和因變量（y 軸）之間的正相關(guān)關(guān)系。隨著一個增加，另一個也增加。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

線性回歸模型試圖將回歸線擬合到最能代表關(guān)系或相關(guān)性的數(shù)據(jù)點。最常用的技術(shù)是普通最小二乘法(OLE)。使用此方法，通過最小化數(shù)據(jù)點與回歸線之間距離的平方和來找到最佳回歸線。對于上面的數(shù)據(jù)點，使用 OLE 獲得的回歸線如下所示：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

2.支持向量機

支持向量機 (SVM) 是一種監(jiān)督學(xué)習(xí)算法，主要用于分類任務(wù)，但也適用于回歸任務(wù)。

SVM 通過繪制決策邊界來區(qū)分類別。 如何繪制或確定決策邊界是支持向量機算法中最關(guān)鍵的部分。在創(chuàng)建決策邊界之前，每個觀察值（或數(shù)據(jù)點）都繪制在 n 維空間中?！皀”是使用的特征數(shù)。例如，如果我們使用“長度”和“寬度”對不同的“細胞”進行分類，則觀察結(jié)果繪制在二維空間中，決策邊界是一條線。如果我們使用 3 個特征，則決策邊界是 3 維空間中的一個平面。如果我們使用超過 3 個特征，決策邊界就會變成一個很難可視化的超平面。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

決策邊界以支持向量的距離最大化的方式繪制。如果決策邊界太靠近支持向量，它將對噪聲高度敏感并且不能很好地泛化。自變量即使非常小的變化也可能導(dǎo)致錯誤分類。

數(shù)據(jù)點并不總是像上圖那樣線性可分。在這些情況下，支持向量機使用內(nèi)核技巧來測量高維空間中數(shù)據(jù)點的相似性（或接近度），以使它們線性可分。

核函數(shù)是一種相似性度量。輸入是原始特征，輸出是新特征空間中的相似性度量。這里的相似意味著某種程度的接近。將數(shù)據(jù)點實際轉(zhuǎn)換到高維特征空間是一項代價高昂的操作。該算法實際上并沒有將數(shù)據(jù)點轉(zhuǎn)換到一個新的高維特征空間。核化 SVM 根據(jù)高維特征空間中的相似性度量計算決策邊界，而無需實際進行轉(zhuǎn)換。我認為這就是為什么它也被稱為kernel trick的原因。

SVM在維數(shù)多于樣本數(shù)的情況下特別有效。在尋找決策邊界時，SVM 使用訓(xùn)練點的子集而不是所有點，這使得它具有內(nèi)存效率。另一方面，大型數(shù)據(jù)集的訓(xùn)練時間會增加，這會對性能產(chǎn)生負面影響。

3.樸素貝葉斯

樸素貝葉斯是一種用于分類任務(wù)的監(jiān)督學(xué)習(xí)算法。 因此，它也被稱為樸素貝葉斯分類器。

樸素貝葉斯假設(shè)特征相互獨立，特征之間不存在相關(guān)性。然而，現(xiàn)實生活中并非如此。這種特征不相關(guān)的樸素假設(shè)是該算法被稱為“樸素”的原因。

樸素貝葉斯算法背后的直覺是貝葉斯定理：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

p(A|B)：事件 A 給定事件 B 已經(jīng)發(fā)生的概率

p(B|A)：給定事件 A 已經(jīng)發(fā)生的事件 B 的概率

p(A)：事件 A 的概率

p(B)：事件 B 的概率

樸素貝葉斯分類器計算給定一組特征值（即 p(yi | x1, x2 , … , xn)）的類的概率。將其輸入貝葉斯定理：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

p(x1, x2 , … , xn | yi) 表示給定類別標簽的特定特征組合（數(shù)據(jù)集中的觀察/行）的概率。我們需要非常大的數(shù)據(jù)集來估計所有不同特征值組合的概率分布。為了克服這個問題，樸素貝葉斯算法假設(shè)所有特征都是相互獨立的。 此外，可以刪除分母 (p(x1,x2, … , xn)) 以簡化等式，因為它僅歸一化給定觀察值的類的條件概率值 ( p(yi | x1,x2, … , xn) ).

類別的概率 ( p(yi) ) 計算起來非常簡單：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

在特征獨立的假設(shè)下，p(x1, x2 , … , xn | yi) 可以寫成：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

給定類標簽（即 p(x1 | yi) ）的單個特征的條件概率可以更容易地從數(shù)據(jù)中估計。該算法需要獨立存儲每個類別的特征概率分布。例如，如果有 5 個類別和 10 個特征，則需要存儲 50 個不同的概率分布。

將所有這些加起來，對于樸素貝葉斯算法來說，計算觀察給定特征值的類的概率成為一項簡單的任務(wù)（p（yi | x1，x2，...，xn））

所有特征都是獨立的假設(shè)使得樸素貝葉斯算法與復(fù)雜算法相比非?？?。 在某些情況下，速度比更高的精度更受歡迎。另一方面，同樣的假設(shè)使得樸素貝葉斯算法不如復(fù)雜算法準確。速度是有代價的！

4.邏輯回歸

邏輯回歸是一種監(jiān)督學(xué)習(xí)算法，主要用于二元分類問題。雖然“回歸”與“分類”相矛盾，但這里的重點是“邏輯”一詞，指的是在該算法中執(zhí)行分類任務(wù)的邏輯函數(shù)。 邏輯回歸是一種簡單但非常有效的分類算法，因此常用于許多二元分類任務(wù)?？蛻袅魇?、垃圾郵件、網(wǎng)站或廣告點擊預(yù)測是邏輯回歸提供強大解決方案的一些領(lǐng)域示例。

邏輯回歸的基礎(chǔ)是邏輯函數(shù)，也稱為 sigmoid 函數(shù)，它接受任何實數(shù)值并將其映射到 0 到 1 之間的值。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

考慮我們要求解以下線性方程：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

邏輯回歸模型以線性方程為輸入，使用邏輯函數(shù)和對數(shù)概率來執(zhí)行二元分類任務(wù)。然后，我們將得到著名的邏輯回歸 s 形圖：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

我們可以“按原樣”使用計算出的概率。例如，輸出可以是“此電子郵件是垃圾郵件的概率為 95%”或“客戶點擊此廣告的概率為 70%”。然而，在大多數(shù)情況下，概率用于對數(shù)據(jù)點進行分類。例如，如果概率大于 50%，則預(yù)測為正類 (1)。否則，預(yù)測為負類 (0)。

并不總是希望為所有高于 50% 的概率值選擇正類。關(guān)于垃圾郵件案例，我們必須幾乎確定才能將電子郵件歸類為垃圾郵件。由于被檢測為垃圾郵件的電子郵件直接進入垃圾郵件文件夾，我們不希望用戶錯過重要的電子郵件。除非我們幾乎可以肯定，否則電子郵件不會被歸類為垃圾郵件。另一方面，當健康相關(guān)問題的分類要求我們更加敏感時。即使我們有點懷疑某個細胞是惡性的，我們也不想錯過它。因此，作為正類和負類之間閾值的值取決于問題。好消息是邏輯回歸允許我們調(diào)整這個閾值。

5. K 最近鄰 (kNN)

K 最近鄰 (kNN) 是一種監(jiān)督學(xué)習(xí)算法，可用于解決分類和回歸任務(wù)。kNN 背后的主要思想是數(shù)據(jù)點的值或類別由它周圍的數(shù)據(jù)點決定。

kNN 分類器通過多數(shù)表決原則確定數(shù)據(jù)點的類別。例如，如果 k 設(shè)置為 5，則檢查 5 個最近點的類別。預(yù)測是根據(jù)多數(shù)類進行的。同樣，kNN 回歸取 5 個最近點的平均值。讓我們來看一個例子。考慮以下屬于 4 個不同類別的數(shù)據(jù)點：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

讓我們看看預(yù)測的類別如何根據(jù) k 值變化：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

確定最佳 k 值非常重要。如果 k 太低，則模型太具體并且不能很好地泛化。它也往往對噪音敏感。該模型在訓(xùn)練集上實現(xiàn)了高精度，但對新的、以前未見過的數(shù)據(jù)點的預(yù)測效果不佳。因此，我們很可能會得到一個過度擬合的模型。另一方面，如果 k 太大，則模型過于泛化，在訓(xùn)練集和測試集上都不是一個好的預(yù)測器。這種情況稱為欠擬合。

kNN 簡單易懂。它不做任何假設(shè)，因此可以在非線性任務(wù)中實現(xiàn)。隨著數(shù)據(jù)點數(shù)量的增加，kNN 變得非常慢，因為模型需要存儲所有數(shù)據(jù)點。因此，它的內(nèi)存效率也不高。kNN 的另一個缺點是它對異常值很敏感。

6. 決策樹

決策樹建立在反復(fù)提出問題以劃分數(shù)據(jù)的基礎(chǔ)上。使用決策樹的可視化表示更容易概念化分區(qū)數(shù)據(jù)：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

這表示用于預(yù)測客戶流失的決策樹。第一個拆分是基于每月的費用金額。然后該算法不斷提出問題以分離類別標簽。隨著樹變得更深，問題變得更加具體。

決策樹算法的目的是在每次分區(qū)時盡可能增加預(yù)測能力，以便模型不斷獲取有關(guān)數(shù)據(jù)集的信息。隨機拆分特征通常不會給我們提供對數(shù)據(jù)集有價值的洞察力。增加節(jié)點純度的拆分提供更多信息。節(jié)點的純度與該節(jié)點中不同類別的分布成反比。以增加純度或減少雜質(zhì)的方式選擇要問的問題。

我們問了多少問題？我們什么時候停止？我們的樹什么時候足以解決我們的分類問題？所有這些問題的答案將我們引向機器學(xué)習(xí)中最重要的概念之一：過度擬合。該模型可以不斷遍歷，直到所有節(jié)點都是純節(jié)點。但是，這將是一個過于具體的模型，并且不能很好地概括。它通過訓(xùn)練集實現(xiàn)了高精度，但在新的、以前未見過的數(shù)據(jù)點上表現(xiàn)不佳，這表明過度擬合。樹的深度由scikit-learn 中決策樹算法的max_depth參數(shù)控制。

決策樹算法通常不需要對特征進行歸一化或縮放。它也適用于混合特征數(shù)據(jù)類型（連續(xù)、分類、二進制）。不好的地方是，它容易過度擬合，需要進行模型集成才能很好地泛化。

6. 隨機森林

隨機森林是許多決策樹的集合。隨機森林是使用稱為bagging的方法構(gòu)建的，其中決策樹用作并行估計器。如果用于分類問題，則結(jié)果基于從每個決策樹收到的結(jié)果的多數(shù)投票。對于回歸，葉節(jié)點的預(yù)測是該葉中目標值的平均值。隨機森林回歸取決策樹結(jié)果的平均值。

隨機森林降低了過度擬合的風(fēng)險，準確率遠高于單個決策樹。此外，隨機森林中的決策樹并行運行，因此時間不會成為瓶頸。

隨機森林的成功在很大程度上取決于使用不相關(guān)的決策樹。如果我們使用相同或非常相似的樹，整體結(jié)果與單個決策樹的結(jié)果不會有太大差異。隨機森林通過引導(dǎo)和特征隨機性實現(xiàn)具有不相關(guān)的決策樹。

Bootsrapping 是從訓(xùn)練數(shù)據(jù)中隨機選擇有放回的樣本。它們被稱為引導(dǎo)樣本。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

特征隨機性是通過為隨機森林中的每個決策樹隨機選擇特征來實現(xiàn)的?？梢允褂?strong>max_features參數(shù)控制隨機森林中每棵樹使用的特征數(shù)量。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

隨機森林是針對許多不同問題的高度準確的模型，不需要歸一化或縮放。然而，與快速線性模型（即樸素貝葉斯）相比，它對于高維數(shù)據(jù)集（即文本分類）并不是一個好的選擇。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

7.梯度提升決策樹（GBDT）

GBDT是一種集成算法，它使用boosting方法來組合單個決策樹。

Boosting 意味著將一個學(xué)習(xí)算法串聯(lián)起來，從許多順序連接的弱學(xué)習(xí)器中獲得一個強學(xué)習(xí)器。在 GBDT 的情況下，弱學(xué)習(xí)器是決策樹。

每棵樹都試圖最小化前一棵樹的殘差。boosting中的樹模型是弱學(xué)習(xí)模型，但串聯(lián)添加許多樹，每棵樹都關(guān)注前一棵樹的殘差，從而使 boosting 成為一個高效和準確的模型。與 bagging 不同，boosting 不涉及 bootstrap 采樣。每次添加新樹時，它都適合初始數(shù)據(jù)集的修改版本。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

由于樹是按順序添加的，因此提升算法學(xué)習(xí)緩慢。在統(tǒng)計學(xué)習(xí)中，學(xué)習(xí)緩慢的模型表現(xiàn)更好。

損失函數(shù)用于檢測殘差。例如，均方誤差 (MSE) 可用于回歸任務(wù)，對數(shù)損失（對數(shù)損失）可用于分類任務(wù)。值得注意的是，當添加新樹時，模型中的現(xiàn)有樹不會改變。添加的決策樹適合當前模型的殘差。

學(xué)習(xí)率和n_estimators是梯度提升決策樹的兩個關(guān)鍵超參數(shù)。學(xué)習(xí)率，表示為 α，僅表示模型學(xué)習(xí)的速度。每棵新樹都會修改整個模型。修改的幅度由學(xué)習(xí)率控制。n_estimator是模型中使用的樹的數(shù)量。如果學(xué)習(xí)率低，我們需要更多的樹來訓(xùn)練模型。但是，我們在選擇樹的數(shù)量時需要非常小心。使用過多的樹會產(chǎn)生過度擬合的高風(fēng)險。

GBDT 在分類和回歸任務(wù)上都非常有效，并且與隨機森林相比提供了更準確的預(yù)測。它可以處理混合類型的特征，不需要預(yù)處理。GBDT 需要仔細調(diào)整超參數(shù)，以防止模型過擬合。

GBDT 算法非常強大，已經(jīng)實現(xiàn)了很多升級版本，如 XGBOOST、LightGBM、CatBoost。

關(guān)于過擬合的注意事項

隨機森林和梯度提升決策樹之間的一個關(guān)鍵區(qū)別是模型中使用的樹的數(shù)量。增加隨機森林中的樹木數(shù)量不會導(dǎo)致過度擬合。在某個點之后，模型的準確性不會因添加更多樹而增加，但也不會因添加過多的樹而受到負面影響。由于計算原因，您仍然不想添加不必要數(shù)量的樹，但不存在與隨機森林中的樹數(shù)量相關(guān)的過度擬合風(fēng)險。

然而，梯度提升決策樹中樹的數(shù)量在過度擬合方面非常關(guān)鍵。添加太多樹會導(dǎo)致過度擬合，因此在某個時候停止添加樹很重要。

8. K-均值聚類

聚類是一種以類似數(shù)據(jù)點分組在一起的方式對一組數(shù)據(jù)點進行分組的方法。因此，聚類算法會尋找數(shù)據(jù)點之間的相似點或不同點。聚類是一種無監(jiān)督學(xué)習(xí)方法，因此沒有與數(shù)據(jù)點關(guān)聯(lián)的標簽。聚類算法試圖找到數(shù)據(jù)的底層結(jié)構(gòu)。

分類任務(wù)中的觀察（或數(shù)據(jù)點）有標簽。每個觀察結(jié)果都根據(jù)一些測量結(jié)果進行分類。分類算法試圖模擬觀測值（特征）與它們分配的類別之間的關(guān)系。然后模型預(yù)測新觀察的類別。

K均值聚類旨在將數(shù)據(jù)劃分為k個簇，使得同一簇中的數(shù)據(jù)點相似，不同簇中的數(shù)據(jù)點相距較遠。因此，它是一種基于分區(qū)的聚類技術(shù)。兩點的相似性由它們之間的距離決定。

K 均值聚類試圖最小化集群內(nèi)的距離并最大化不同集群之間的距離。K-means 算法無法確定聚類的數(shù)量。我們需要在創(chuàng)建 KMeans 對象時定義它，這可能是一項具有挑戰(zhàn)性的任務(wù)。

考慮以下數(shù)據(jù)集的二維可視化：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

它可以分為 4 個不同的集群，如下所示：

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

現(xiàn)實生活中的數(shù)據(jù)集要復(fù)雜得多，其中的集群沒有明確分開。但是，該算法以相同的方式工作。K-means 是一個迭代過程。它建立在期望最大化算法之上。確定集群數(shù)量后，它通過執(zhí)行以下步驟來工作：

為每個集群隨機選擇質(zhì)心（集群中心）。
計算所有數(shù)據(jù)點到質(zhì)心的距離。
將數(shù)據(jù)點分配給最近的集群。
通過取集群中所有數(shù)據(jù)點的平均值來找到每個集群的新質(zhì)心。
重復(fù)步驟 2、3 和 4，直到所有點收斂并且聚類中心停止移動。

K-Means 聚類相對較快且易于解釋。它還能夠以一種智能方式選擇初始質(zhì)心的位置，從而加快收斂速度。

k-means 的一個挑戰(zhàn)是必須預(yù)先確定集群的數(shù)量。K-means 算法無法猜測數(shù)據(jù)中存在多少簇。如果數(shù)據(jù)中存在分離組的非線性結(jié)構(gòu)，則 k-means 將不是一個好的選擇。

9. 層次聚類

層次聚類意味著通過迭代分組或分離數(shù)據(jù)點來創(chuàng)建聚類樹。有兩種類型的層次聚類：

凝聚聚類
分裂聚類

層次聚類的優(yōu)點之一是我們不必指定聚類的數(shù)量。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

凝聚聚類是一種自下而上的方法。首先假定每個數(shù)據(jù)點是一個單獨的集群。然后相似的簇被迭代組合。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

上圖稱為樹狀圖，它是表示基于樹的方法的圖。在層次聚類中，樹狀圖用于可視化聚類之間的關(guān)系。

層次聚類的優(yōu)點之一是我們不必事先指定聚類的數(shù)量。但是，將所有數(shù)據(jù)點合并到一個集群中并不明智。我們應(yīng)該在某個時候停止合并集群。Scikit-learn 為此提供了兩個選項：

達到多個集群后停止 (n_clusters)
設(shè)置鏈接的閾值 (distance_threshold)。如果兩個簇之間的距離高于閾值，則不會合并這些簇。

分裂聚類在現(xiàn)實生活中并不常用，所以我會簡單地提一下。簡單而明確的解釋是分裂聚類與凝聚聚類相反。我們從一個包含所有數(shù)據(jù)點的巨型集群開始。然后數(shù)據(jù)點被分成不同的集群。這是一種自上而下的方法。

層次聚類總是生成相同的聚類。K 均值聚類可能會產(chǎn)生不同的聚類，具體取決于質(zhì)心（聚類中心）的啟動方式。但是，與 k-means 相比，它是一種較慢的算法。層次聚類需要很長時間才能運行，尤其是對于大型數(shù)據(jù)集。

10. DBSCAN 聚類

基于分區(qū)和層次聚類技術(shù)對于正常形狀的聚類非常有效。然而，當涉及到任意形狀的簇或檢測異常值時，基于密度的技術(shù)更有效。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

DBSCAN代表具有噪聲的基于密度的空間聚類。它能夠找到任意形狀的簇和帶有噪聲的簇（即異常值）。

DBSCAN 背后的主要思想是，如果一個點靠近該集群中的許多點，則該點屬于該集群。

DBSCAN有兩個關(guān)鍵參數(shù)：

eps：指定鄰域的距離。如果兩點之間的距離小于或等于 eps，則認為它們是相鄰點。
minPts：定義集群的最小數(shù)據(jù)點數(shù)。

基于這兩個參數(shù)，點被分類為核心點、邊界點或離群點：

核心點：如果一個點在其周圍半徑為eps的區(qū)域中至少有minPts個點（包括點本身），則該點是核心點。
邊界點：如果一個點可以從核心點到達并且其周圍區(qū)域內(nèi)的點數(shù)少于 minPts，則該點是邊界點。
離群點：如果一個點不是核心點并且無法從任何核心點到達，則該點是離群點。

DBSCAN 不需要事先指定簇數(shù)。它對異常值具有魯棒性并且能夠檢測異常值。

在某些情況下，確定適當?shù)泥徲蚓嚯x (eps) 并不容易，它需要領(lǐng)域知識。

11.主成分分析（PCA）

PCA 是一種降維算法，它基本上從現(xiàn)有特征中導(dǎo)出新特征，同時保留盡可能多的信息。PCA 是一種無監(jiān)督學(xué)習(xí)算法，但它也被廣泛用作監(jiān)督學(xué)習(xí)算法的預(yù)處理步驟。

PCA 通過查找數(shù)據(jù)集中特征之間的關(guān)系來導(dǎo)出新特征。

注意：PCA 是一種線性降維算法。也有可用的非線性方法。

PCA 的目的是通過使用較少的特征（或列）盡可能多地解釋原始數(shù)據(jù)集中的方差。新的派生特征稱為主成分。主成分的順序是根據(jù)它們解釋的原始數(shù)據(jù)集的方差分數(shù)來確定的。

一文了解11種最常見的機器學(xué)習(xí)算法應(yīng)用場景-AI.x社區(qū)

主成分是原始數(shù)據(jù)集特征的線性組合。

PCA 的優(yōu)點是使用比原始數(shù)據(jù)集少得多的特征保留了原始數(shù)據(jù)集的大量方差。主成分根據(jù)它們解釋的方差量排序。

本文轉(zhuǎn)載自?? 沐白AI筆記??，作者：楊沐白

標簽

機器學(xué)習(xí)

應(yīng)用場景

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

一文帶你了解OpenAI Sora

381972426 ? 2426瀏覽 ? 0回復(fù)
一文深入了解AI Agent -- 組成、方法、案例及展望

angel ? 1.5w瀏覽 ? 0回復(fù)
一文回顧常見圖像融合方法

angel ? 4682瀏覽 ? 0回復(fù)
一文帶你全面了解開源時間序列預(yù)測利器——TimeGPT

51CTO內(nèi)容精選 ? 3957瀏覽 ? 0回復(fù)
從具身智能再談強化學(xué)習(xí)，為什么需要強化學(xué)習(xí)，以及強化學(xué)習(xí)的應(yīng)用場景

AI探索時代 ? 2761瀏覽 ? 0回復(fù)
AI+大模型在金融行業(yè)的應(yīng)用場景

數(shù)字化助推器 ? 3494瀏覽 ? 0回復(fù)
一文帶你了解機器學(xué)習(xí)

寶寶數(shù)模AI ? 1622瀏覽 ? 0回復(fù)
RPA和Agent智能體區(qū)別應(yīng)用場景

數(shù)字化助推器 ? 2377瀏覽 ? 0回復(fù)
一文看懂：四種多Agent范式哪種最好

大語言模型論文跟蹤 ? 3315瀏覽 ? 0回復(fù)
一文詳解集成學(xué)習(xí)算法原理

寶寶數(shù)模AI ? 1849瀏覽 ? 0回復(fù)
構(gòu)建AI Agent必學(xué)的4種設(shè)計模式，一文了解

Baihai_IDP ? 1842瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 2759瀏覽 ? 0回復(fù)
一文讀懂 PPO 與 GRPO：LLM 訓(xùn)練的關(guān)鍵算法

鴻煊的學(xué)習(xí)筆記 ? 5273瀏覽 ? 0回復(fù)
一文讀懂AI智能體的原理類型、功能優(yōu)勢和最常見使用場景

數(shù)字化助推器 ? 4517瀏覽 ? 0回復(fù)
別慌一文讀懂AI智能體常見的九種設(shè)計模式

數(shù)字化助推器 ? 2135瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1434瀏覽 ? 0回復(fù)
一文講透兩大框架的優(yōu)缺點和適用場景

AI博物院 ? 1112瀏覽 ? 0回復(fù)
【一文了解】大模型的思維鏈技術(shù)（CoT）

碼農(nóng)隨心筆記 ? 155瀏覽 ? 0回復(fù)
一文帶你了解【SFT微調(diào)】與【Unsloth】

碼農(nóng)隨心筆記 ? 173瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！ 7天前發(fā)布
Deepseek新論文！如何讓AI自己學(xué)會更公平地打分？ 2025-04-11 00:26:06發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：掌握BERT：自然語言處理（NLP）從初級到高級的綜合指南

下一篇：一文圖解BERT注意力機制

社區(qū)精華內(nèi)容

目錄

<tt id="t7awe"><abbr id="t7awe"></abbr></tt>

<nav id="t7awe"><strong id="t7awe"><th id="t7awe"></th></strong></nav>

<pre id="t7awe"><strong id="t7awe"><video id="t7awe"></video></strong></pre>

<var id="t7awe"></var>

<bdo id="t7awe"></bdo>