自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="258b3"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

機器學(xué)習(xí)中七種常用的線性降維技術(shù)總結(jié)

作者：佚名 2024-02-19 15:28:33

人工智能機器學(xué)習(xí)

上篇文章中我們主要總結(jié)了非線性的降維技術(shù)，本文我們來總結(jié)一下常見的線性降維技術(shù)。

上篇文章中我們主要總結(jié)了非線性的降維技術(shù)，本文我們來總結(jié)一下常見的線性降維技術(shù)。

1、Principal Component Analysis (PCA)

Principal Component Analysis (PCA) 是一種常用的降維技術(shù)，用于將高維數(shù)據(jù)集轉(zhuǎn)換為低維表示，同時保留數(shù)據(jù)集的主要特征。PCA 的目標(biāo)是通過找到數(shù)據(jù)中最大方差的方向(主成分)，將數(shù)據(jù)投影到這些方向上，從而實現(xiàn)降維。

PCA 的主要思想是通過線性變換將原始數(shù)據(jù)映射到一個新的坐標(biāo)系下，使得在新的坐標(biāo)系下數(shù)據(jù)的方差最大化。這些新的坐標(biāo)軸稱為主成分，它們是原始特征的線性組合。通過保留最大方差的主成分，可以保留數(shù)據(jù)中最重要的信息，而丟棄方差較小的主成分可以達(dá)到降維的效果。

PCA 的步驟如下：

標(biāo)準(zhǔn)化數(shù)據(jù)：對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，使得每個特征的均值為 0，方差為 1。
計算協(xié)方差矩陣：計算標(biāo)準(zhǔn)化后的數(shù)據(jù)的協(xié)方差矩陣。
計算特征值和特征向量：對協(xié)方差矩陣進(jìn)行特征值分解，得到特征值和對應(yīng)的特征向量。
選擇主成分：按照特征值的大小選擇前 k 個特征向量作為主成分，其中 k 是降維后的維度。
投影數(shù)據(jù)：將原始數(shù)據(jù)投影到選定的主成分上，得到降維后的數(shù)據(jù)集。

PCA 可以用于數(shù)據(jù)可視化、去除噪音、減少計算量等。然而，需要注意的是，PCA 假設(shè)數(shù)據(jù)是線性可分的，因此在應(yīng)用 PCA 之前需要對數(shù)據(jù)進(jìn)行一定的預(yù)處理和理解。

2、Factor Analysis (FA)

Factor Analysis (FA) 是一種統(tǒng)計方法，用于探索觀察到的變量之間的潛在結(jié)構(gòu)或因素。它試圖找到能夠解釋觀察到的變量之間共同變異的潛在因素，并將這些變量歸納為較少數(shù)量的無關(guān)變量。

FA 和 PCA 有些相似，但也有一些重要的區(qū)別：

目標(biāo)：PCA 旨在找到最大方差的方向，而 FA 旨在找到潛在的變量(因素)，這些變量能夠解釋觀察到的變量之間的共同變異。
假設(shè)：PCA 假設(shè)觀察到的變量是觀察到的原始特征，而 FA 假設(shè)觀察到的變量是潛在因素的線性組合和隨機誤差的總和。
解釋性：PCA 往往更直接，因為它的主成分是原始特征的線性組合。而 FA 的因素可能不太容易解釋，因為它們是觀察到的變量的線性組合，而非原始特征。
旋轉(zhuǎn)：在 FA 中，因素通常會進(jìn)行旋轉(zhuǎn)，以使它們更易于解釋。

FA 在許多領(lǐng)域都有應(yīng)用，包括心理學(xué)、社會科學(xué)、市場研究等。它可用于簡化數(shù)據(jù)集、識別潛在結(jié)構(gòu)、減少測量誤差等。但是需要謹(jǐn)慎選擇適當(dāng)?shù)囊蛩財?shù)目和因素旋轉(zhuǎn)方法，以確保結(jié)果的可解釋性和有效性。

3、Linear Discriminant Analysis，LDA

線性判別分析(Linear Discriminant Analysis，LDA)是一種用于降維和特征提取的監(jiān)督學(xué)習(xí)技術(shù)。它與主成分分析(PCA)不同，因為它不僅考慮了數(shù)據(jù)的方差結(jié)構(gòu)，還考慮了數(shù)據(jù)的類別信息。LDA 旨在找到一個投影方向，最大化不同類別之間的距離(類間散布)，同時最小化同一類別內(nèi)部的距離(類內(nèi)散布)。

LDA 的主要步驟如下：

計算類別的均值向量：對于每個類別，計算該類別下所有樣本的均值向量。
計算類內(nèi)散布矩陣(Within-class scatter matrix)：對于每個類別，計算該類別下所有樣本與其均值向量之間的散布矩陣，并將它們求和。
計算類間散布矩陣(Between-class scatter matrix)：計算所有類別的均值向量與總體均值向量之間的散布矩陣。
計算特征值和特征向量：對于矩陣的逆矩陣乘以類間散布矩陣，得到的矩陣進(jìn)行特征值分解，得到特征值和特征向量。
選擇投影方向：選擇特征值最大的前 k 個特征向量作為投影方向，其中 k 是降維后的維度。
投影數(shù)據(jù)：將原始數(shù)據(jù)投影到選定的投影方向上，得到降維后的數(shù)據(jù)。

LDA 的優(yōu)點在于它考慮了數(shù)據(jù)的類別信息，因此生成的投影能更好地區(qū)分不同類別之間的差異。它在模式識別、人臉識別、語音識別等領(lǐng)域中有著廣泛的應(yīng)用。LDA 在處理多類別和類別不平衡的情況下可能會遇到一些問題，需要特別注意。

4、Eigendecomposition

Eigendecomposition(特征值分解)是一種用于對方陣進(jìn)行分解的數(shù)學(xué)技術(shù)。它將一個方陣分解為一組特征向量和特征值的乘積形式。特征向量表示了在轉(zhuǎn)換中不改變方向的方向，而特征值表示了在轉(zhuǎn)換中沿著這些方向的縮放比例。

給定一個方陣 AA，其特征值分解表示為：

其中，Q是由 A 的特征向量組成的矩陣，Λ是對角矩陣，其對角線上的元素是 A的特征值。

特征值分解有許多應(yīng)用，包括主成分分析(PCA)、特征臉識別、譜聚類等。在PCA中，特征值分解用于找到數(shù)據(jù)協(xié)方差矩陣的特征向量，從而找到數(shù)據(jù)的主成分。在譜聚類中，特征值分解用于找到相似性圖的特征向量，從而進(jìn)行聚類。特征臉識別利用了特征值分解來識別人臉圖像中的重要特征。

雖然特征值分解在許多應(yīng)用中非常有用，但并非所有的方陣都能進(jìn)行特征值分解。例如，奇異矩陣(singular matrix)或非方陣就不能進(jìn)行特征值分解。特征值分解在大型矩陣計算上可能是非常耗時的。

5、Singular value decomposition (SVD)

奇異值分解(Singular Value Decomposition，SVD)是一種用于矩陣分解的重要技術(shù)。它將一個矩陣分解為三個矩陣的乘積形式，這三個矩陣分別是一個正交矩陣、一個對角矩陣和另一個正交矩陣的轉(zhuǎn)置。

給定一個 m × n 的矩陣 AA，其奇異值分解表示為：

其中，U 是一個 m × m 的正交矩陣，稱為左奇異向量矩陣;Σ 是一個 m × n 的對角矩陣，其對角線上的元素稱為奇異值;VT 是一個 n × n 的正交矩陣的轉(zhuǎn)置，稱為右奇異向量矩陣。

奇異值分解具有廣泛的應(yīng)用，包括數(shù)據(jù)壓縮、降維、矩陣逆求解、推薦系統(tǒng)等。在降維中，只保留奇異值較大的項，可以實現(xiàn)對數(shù)據(jù)的有效壓縮和表示。在推薦系統(tǒng)中，通過奇異值分解可以對用戶和項目之間的關(guān)系進(jìn)行建模，從而提供個性化的推薦。

奇異值分解還可以用于矩陣逆求解，特別是對于奇異矩陣。通過保留奇異值較大的項，可以近似求解逆矩陣，從而避免了對奇異矩陣求逆的問題。

6、Truncated Singular Value Decomposition (TSVD)

截斷奇異值分解(Truncated Singular Value Decomposition，TSVD)是奇異值分解(SVD)的一種變體，它在計算中只保留最重要的奇異值和對應(yīng)的奇異向量，從而實現(xiàn)數(shù)據(jù)的降維和壓縮。

給定一個 m × n 的矩陣 AA，其截斷奇異值分解表示為：

其中，Uk 是一個 m × k 的正交矩陣，Σk 是一個 k × k 的對角矩陣，VkT 是一個 k × n 的正交矩陣的轉(zhuǎn)置，這些矩陣對應(yīng)于保留最重要的 k 個奇異值和對應(yīng)的奇異向量。

TSVD 的主要優(yōu)點在于它可以通過保留最重要的奇異值和奇異向量來實現(xiàn)數(shù)據(jù)的降維和壓縮，從而減少了存儲和計算成本。這在處理大規(guī)模數(shù)據(jù)集時尤其有用，因為可以顯著減少所需的存儲空間和計算時間。

TSVD 在許多領(lǐng)域都有應(yīng)用，包括圖像處理、信號處理、推薦系統(tǒng)等。在這些應(yīng)用中，TSVD 可以用于降低數(shù)據(jù)的維度、去除噪聲、提取關(guān)鍵特征等。

7、Non-Negative Matrix Factorization (NMF)

Non-Negative Matrix Factorization (NMF) 是一種用于數(shù)據(jù)分解和降維的技術(shù)，其特點是分解得到的矩陣和向量都是非負(fù)的。這使得 NMF 在許多應(yīng)用中都很有用，特別是在文本挖掘、圖像處理和推薦系統(tǒng)等領(lǐng)域。

給定一個非負(fù)矩陣 VV，NMF 將其分解為兩個非負(fù)矩陣 WW 和 HH 的乘積形式：

其中，W 是一個 m × k 的非負(fù)矩陣，稱為基矩陣(basis matrix)或者特征矩陣(feature matrix)，H 是一個 k × n 的非負(fù)矩陣，稱為系數(shù)矩陣(coefficient matrix)。這里的 k 是降維后的維度。

NMF 的優(yōu)點在于它能夠得到具有物理含義的分解結(jié)果，因為所有的元素都是非負(fù)的。這使得 NMF 在文本挖掘中能夠發(fā)現(xiàn)潛在的主題，而在圖像處理中能夠提取出圖像的特征。此外，NMF 還具有數(shù)據(jù)降維的功能，可以減少數(shù)據(jù)的維度和存儲空間。

NMF 的應(yīng)用包括文本主題建模、圖像分割與壓縮、音頻信號處理、推薦系統(tǒng)等。在這些領(lǐng)域中，NMF 被廣泛應(yīng)用于數(shù)據(jù)分析和特征提取，以及信息檢索和分類等任務(wù)中。

總結(jié)

線性降維技術(shù)是一類用于將高維數(shù)據(jù)集映射到低維空間的技術(shù)，其核心思想是通過線性變換來保留數(shù)據(jù)集的主要特征。這些線性降維技術(shù)在不同的應(yīng)用場景中有其獨特的優(yōu)勢和適用性，可以根據(jù)數(shù)據(jù)的性質(zhì)和任務(wù)的要求選擇合適的方法。例如，PCA適用于無監(jiān)督的數(shù)據(jù)降維，而LDA適用于監(jiān)督學(xué)習(xí)任務(wù)。

結(jié)合前一篇文章，我們介紹了10種非線性降維技術(shù)核7種線性降維技術(shù)，下面我們來做個總結(jié)

線性降維技術(shù)：基于線性變換將數(shù)據(jù)映射到低維空間，適用于線性可分的數(shù)據(jù)集;例如數(shù)據(jù)點分布在一個線性子空間上的情況;因為其算法簡單，所以計算效率高，易于理解和實現(xiàn);通常不能捕捉數(shù)據(jù)中的非線性結(jié)構(gòu)，可能會導(dǎo)致信息丟失。

非線性降維技術(shù)：通過非線性變換將數(shù)據(jù)映射到低維空間;適用于非線性結(jié)構(gòu)的數(shù)據(jù)集，例如數(shù)據(jù)點分布在流形上的情況;能夠更好地保留數(shù)據(jù)中的非線性結(jié)構(gòu)和局部關(guān)系，提供更好的可視化效果;計算復(fù)雜度較高，通常需要更多的計算資源和時間。

如果數(shù)據(jù)是線性可分的或者計算資源有限，可以選擇線性降維技術(shù)。而如果數(shù)據(jù)包含復(fù)雜的非線性結(jié)構(gòu)或者需要更好的可視化效果，可以考慮使用非線性降維技術(shù)。在實踐中，也可以嘗試不同的方法，并根據(jù)實際效果來選擇最合適的降維技術(shù)。

責(zé)任編輯：華軒來源： DeepHub IMBA

機器學(xué)習(xí)線性降維

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="sakyr"><rp id="sakyr"></rp></cite>

<sub id="sakyr"><p id="sakyr"></p></sub>