自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機器學(xué)習(xí)中七種常用的線性降維技術(shù)總結(jié)

人工智能 機器學(xué)習(xí)
上篇文章中我們主要總結(jié)了非線性的降維技術(shù),本文我們來總結(jié)一下常見的線性降維技術(shù)。

上篇文章中我們主要總結(jié)了非線性的降維技術(shù),本文我們來總結(jié)一下常見的線性降維技術(shù)。

1、Principal Component Analysis (PCA)

Principal Component Analysis (PCA) 是一種常用的降維技術(shù),用于將高維數(shù)據(jù)集轉(zhuǎn)換為低維表示,同時保留數(shù)據(jù)集的主要特征。PCA 的目標(biāo)是通過找到數(shù)據(jù)中最大方差的方向(主成分),將數(shù)據(jù)投影到這些方向上,從而實現(xiàn)降維。

PCA 的主要思想是通過線性變換將原始數(shù)據(jù)映射到一個新的坐標(biāo)系下,使得在新的坐標(biāo)系下數(shù)據(jù)的方差最大化。這些新的坐標(biāo)軸稱為主成分,它們是原始特征的線性組合。通過保留最大方差的主成分,可以保留數(shù)據(jù)中最重要的信息,而丟棄方差較小的主成分可以達(dá)到降維的效果。

PCA 的步驟如下:

  1. 標(biāo)準(zhǔn)化數(shù)據(jù):對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使得每個特征的均值為 0,方差為 1。
  2. 計算協(xié)方差矩陣:計算標(biāo)準(zhǔn)化后的數(shù)據(jù)的協(xié)方差矩陣。
  3. 計算特征值和特征向量:對協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和對應(yīng)的特征向量。
  4. 選擇主成分:按照特征值的大小選擇前 k 個特征向量作為主成分,其中 k 是降維后的維度。
  5. 投影數(shù)據(jù):將原始數(shù)據(jù)投影到選定的主成分上,得到降維后的數(shù)據(jù)集。

PCA 可以用于數(shù)據(jù)可視化、去除噪音、減少計算量等。然而,需要注意的是,PCA 假設(shè)數(shù)據(jù)是線性可分的,因此在應(yīng)用 PCA 之前需要對數(shù)據(jù)進(jìn)行一定的預(yù)處理和理解。

2、Factor Analysis (FA)

Factor Analysis (FA) 是一種統(tǒng)計方法,用于探索觀察到的變量之間的潛在結(jié)構(gòu)或因素。它試圖找到能夠解釋觀察到的變量之間共同變異的潛在因素,并將這些變量歸納為較少數(shù)量的無關(guān)變量。

FA 和 PCA 有些相似,但也有一些重要的區(qū)別:

  1. 目標(biāo):PCA 旨在找到最大方差的方向,而 FA 旨在找到潛在的變量(因素),這些變量能夠解釋觀察到的變量之間的共同變異。
  2. 假設(shè):PCA 假設(shè)觀察到的變量是觀察到的原始特征,而 FA 假設(shè)觀察到的變量是潛在因素的線性組合和隨機誤差的總和。
  3. 解釋性:PCA 往往更直接,因為它的主成分是原始特征的線性組合。而 FA 的因素可能不太容易解釋,因為它們是觀察到的變量的線性組合,而非原始特征。
  4. 旋轉(zhuǎn):在 FA 中,因素通常會進(jìn)行旋轉(zhuǎn),以使它們更易于解釋。

FA 在許多領(lǐng)域都有應(yīng)用,包括心理學(xué)、社會科學(xué)、市場研究等。它可用于簡化數(shù)據(jù)集、識別潛在結(jié)構(gòu)、減少測量誤差等。但是需要謹(jǐn)慎選擇適當(dāng)?shù)囊蛩財?shù)目和因素旋轉(zhuǎn)方法,以確保結(jié)果的可解釋性和有效性。

3、Linear Discriminant Analysis,LDA

線性判別分析(Linear Discriminant Analysis,LDA)是一種用于降維和特征提取的監(jiān)督學(xué)習(xí)技術(shù)。它與主成分分析(PCA)不同,因為它不僅考慮了數(shù)據(jù)的方差結(jié)構(gòu),還考慮了數(shù)據(jù)的類別信息。LDA 旨在找到一個投影方向,最大化不同類別之間的距離(類間散布),同時最小化同一類別內(nèi)部的距離(類內(nèi)散布)。

LDA 的主要步驟如下:

  1. 計算類別的均值向量:對于每個類別,計算該類別下所有樣本的均值向量。
  2. 計算類內(nèi)散布矩陣(Within-class scatter matrix):對于每個類別,計算該類別下所有樣本與其均值向量之間的散布矩陣,并將它們求和。
  3. 計算類間散布矩陣(Between-class scatter matrix):計算所有類別的均值向量與總體均值向量之間的散布矩陣。
  4. 計算特征值和特征向量:對于矩陣的逆矩陣乘以類間散布矩陣,得到的矩陣進(jìn)行特征值分解,得到特征值和特征向量。
  5. 選擇投影方向:選擇特征值最大的前 k 個特征向量作為投影方向,其中 k 是降維后的維度。
  6. 投影數(shù)據(jù):將原始數(shù)據(jù)投影到選定的投影方向上,得到降維后的數(shù)據(jù)。

LDA 的優(yōu)點在于它考慮了數(shù)據(jù)的類別信息,因此生成的投影能更好地區(qū)分不同類別之間的差異。它在模式識別、人臉識別、語音識別等領(lǐng)域中有著廣泛的應(yīng)用。LDA 在處理多類別和類別不平衡的情況下可能會遇到一些問題,需要特別注意。

4、Eigendecomposition

Eigendecomposition(特征值分解)是一種用于對方陣進(jìn)行分解的數(shù)學(xué)技術(shù)。它將一個方陣分解為一組特征向量和特征值的乘積形式。特征向量表示了在轉(zhuǎn)換中不改變方向的方向,而特征值表示了在轉(zhuǎn)換中沿著這些方向的縮放比例。

給定一個方陣 AA,其特征值分解表示為:

其中,Q是由 A 的特征向量組成的矩陣,Λ是對角矩陣,其對角線上的元素是 A的特征值。

特征值分解有許多應(yīng)用,包括主成分分析(PCA)、特征臉識別、譜聚類等。在PCA中,特征值分解用于找到數(shù)據(jù)協(xié)方差矩陣的特征向量,從而找到數(shù)據(jù)的主成分。在譜聚類中,特征值分解用于找到相似性圖的特征向量,從而進(jìn)行聚類。特征臉識別利用了特征值分解來識別人臉圖像中的重要特征。

雖然特征值分解在許多應(yīng)用中非常有用,但并非所有的方陣都能進(jìn)行特征值分解。例如,奇異矩陣(singular matrix)或非方陣就不能進(jìn)行特征值分解。特征值分解在大型矩陣計算上可能是非常耗時的。

5、Singular value decomposition (SVD)

奇異值分解(Singular Value Decomposition,SVD)是一種用于矩陣分解的重要技術(shù)。它將一個矩陣分解為三個矩陣的乘積形式,這三個矩陣分別是一個正交矩陣、一個對角矩陣和另一個正交矩陣的轉(zhuǎn)置。

給定一個 m × n 的矩陣 AA,其奇異值分解表示為:

其中,U 是一個 m × m 的正交矩陣,稱為左奇異向量矩陣;Σ 是一個 m × n 的對角矩陣,其對角線上的元素稱為奇異值;VT 是一個 n × n 的正交矩陣的轉(zhuǎn)置,稱為右奇異向量矩陣。

奇異值分解具有廣泛的應(yīng)用,包括數(shù)據(jù)壓縮、降維、矩陣逆求解、推薦系統(tǒng)等。在降維中,只保留奇異值較大的項,可以實現(xiàn)對數(shù)據(jù)的有效壓縮和表示。在推薦系統(tǒng)中,通過奇異值分解可以對用戶和項目之間的關(guān)系進(jìn)行建模,從而提供個性化的推薦。

奇異值分解還可以用于矩陣逆求解,特別是對于奇異矩陣。通過保留奇異值較大的項,可以近似求解逆矩陣,從而避免了對奇異矩陣求逆的問題。

6、Truncated Singular Value Decomposition (TSVD)

截斷奇異值分解(Truncated Singular Value Decomposition,TSVD)是奇異值分解(SVD)的一種變體,它在計算中只保留最重要的奇異值和對應(yīng)的奇異向量,從而實現(xiàn)數(shù)據(jù)的降維和壓縮。

給定一個 m × n 的矩陣 AA,其截斷奇異值分解表示為:

其中,Uk 是一個 m × k 的正交矩陣,Σk 是一個 k × k 的對角矩陣,VkT 是一個 k × n 的正交矩陣的轉(zhuǎn)置,這些矩陣對應(yīng)于保留最重要的 k 個奇異值和對應(yīng)的奇異向量。

TSVD 的主要優(yōu)點在于它可以通過保留最重要的奇異值和奇異向量來實現(xiàn)數(shù)據(jù)的降維和壓縮,從而減少了存儲和計算成本。這在處理大規(guī)模數(shù)據(jù)集時尤其有用,因為可以顯著減少所需的存儲空間和計算時間。

TSVD 在許多領(lǐng)域都有應(yīng)用,包括圖像處理、信號處理、推薦系統(tǒng)等。在這些應(yīng)用中,TSVD 可以用于降低數(shù)據(jù)的維度、去除噪聲、提取關(guān)鍵特征等。

7、Non-Negative Matrix Factorization (NMF)

Non-Negative Matrix Factorization (NMF) 是一種用于數(shù)據(jù)分解和降維的技術(shù),其特點是分解得到的矩陣和向量都是非負(fù)的。這使得 NMF 在許多應(yīng)用中都很有用,特別是在文本挖掘、圖像處理和推薦系統(tǒng)等領(lǐng)域。

給定一個非負(fù)矩陣 VV,NMF 將其分解為兩個非負(fù)矩陣 WW 和 HH 的乘積形式:

其中,W 是一個 m × k 的非負(fù)矩陣,稱為基矩陣(basis matrix)或者特征矩陣(feature matrix),H 是一個 k × n 的非負(fù)矩陣,稱為系數(shù)矩陣(coefficient matrix)。這里的 k 是降維后的維度。

NMF 的優(yōu)點在于它能夠得到具有物理含義的分解結(jié)果,因為所有的元素都是非負(fù)的。這使得 NMF 在文本挖掘中能夠發(fā)現(xiàn)潛在的主題,而在圖像處理中能夠提取出圖像的特征。此外,NMF 還具有數(shù)據(jù)降維的功能,可以減少數(shù)據(jù)的維度和存儲空間。

NMF 的應(yīng)用包括文本主題建模、圖像分割與壓縮、音頻信號處理、推薦系統(tǒng)等。在這些領(lǐng)域中,NMF 被廣泛應(yīng)用于數(shù)據(jù)分析和特征提取,以及信息檢索和分類等任務(wù)中。

總結(jié)

線性降維技術(shù)是一類用于將高維數(shù)據(jù)集映射到低維空間的技術(shù),其核心思想是通過線性變換來保留數(shù)據(jù)集的主要特征。這些線性降維技術(shù)在不同的應(yīng)用場景中有其獨特的優(yōu)勢和適用性,可以根據(jù)數(shù)據(jù)的性質(zhì)和任務(wù)的要求選擇合適的方法。例如,PCA適用于無監(jiān)督的數(shù)據(jù)降維,而LDA適用于監(jiān)督學(xué)習(xí)任務(wù)。

結(jié)合前一篇文章,我們介紹了10種非線性降維技術(shù)核7種線性降維技術(shù),下面我們來做個總結(jié)

線性降維技術(shù):基于線性變換將數(shù)據(jù)映射到低維空間,適用于線性可分的數(shù)據(jù)集;例如數(shù)據(jù)點分布在一個線性子空間上的情況;因為其算法簡單,所以計算效率高,易于理解和實現(xiàn);通常不能捕捉數(shù)據(jù)中的非線性結(jié)構(gòu),可能會導(dǎo)致信息丟失。

非線性降維技術(shù):通過非線性變換將數(shù)據(jù)映射到低維空間;適用于非線性結(jié)構(gòu)的數(shù)據(jù)集,例如數(shù)據(jù)點分布在流形上的情況;能夠更好地保留數(shù)據(jù)中的非線性結(jié)構(gòu)和局部關(guān)系,提供更好的可視化效果;計算復(fù)雜度較高,通常需要更多的計算資源和時間。

如果數(shù)據(jù)是線性可分的或者計算資源有限,可以選擇線性降維技術(shù)。而如果數(shù)據(jù)包含復(fù)雜的非線性結(jié)構(gòu)或者需要更好的可視化效果,可以考慮使用非線性降維技術(shù)。在實踐中,也可以嘗試不同的方法,并根據(jù)實際效果來選擇最合適的降維技術(shù)。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2024-02-19 14:37:14

機器學(xué)習(xí)非線性降維

2019-11-11 16:44:20

機器學(xué)習(xí)Python算法

2023-05-15 15:24:54

數(shù)據(jù)匯總數(shù)據(jù)分析

2024-07-29 08:00:00

2015-04-14 09:20:02

云計算機器學(xué)習(xí)

2021-05-24 08:00:00

機器學(xué)習(xí)數(shù)據(jù)云計算

2020-01-14 11:09:36

CIO IT技術(shù)

2014-05-13 09:56:24

數(shù)據(jù)挖掘

2011-02-22 16:09:53

Eclipse調(diào)試

2018-06-10 16:31:12

2021-08-02 18:04:25

機器學(xué)習(xí)數(shù)據(jù)集工具

2022-07-14 13:27:40

數(shù)據(jù)安全網(wǎng)絡(luò)安全

2023-02-20 14:31:11

2025-01-06 05:10:00

Python數(shù)據(jù)類型編程

2023-05-18 14:13:58

2015-10-27 10:45:07

數(shù)據(jù)分析

2024-08-01 11:38:40

2020-08-27 07:00:00

游戲游戲測試測試技術(shù)

2014-01-10 10:42:33

2024-05-28 00:03:00

JavaScript開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號