自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維方法好

新聞 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)算法因?yàn)槟軌驈木哂性S多特征的數(shù)據(jù)集中找出相關(guān)信息而大火,這些數(shù)據(jù)集往往包括了幾十行的表格或者數(shù)百萬像素的圖像。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

使用機(jī)器學(xué)習(xí)時(shí),你是不是經(jīng)常因?yàn)橛刑?strong>無關(guān)特征而導(dǎo)致模型效果不佳而煩惱?

[[402586]]

而其實(shí),降維就是機(jī)器學(xué)習(xí)中能夠解決這種問題的一種好方法。

知名科技博主Ben Dickson 對(duì)此進(jìn)行了探討,并在TechTalks上發(fā)表了博客《機(jī)器學(xué)習(xí):什么是降維》,本文的編譯整理已受到Ben Dickson 本人授權(quán)

他指出,機(jī)器學(xué)習(xí)算法因?yàn)槟軌驈木哂性S多特征的數(shù)據(jù)集中找出相關(guān)信息而大火,這些數(shù)據(jù)集往往包括了幾十行的表格或者數(shù)百萬像素的圖像。

云計(jì)算的突破可以幫助使用者運(yùn)行大型的機(jī)器學(xué)習(xí)模型,而不用管后臺(tái)的計(jì)算能力。

但是,每增加一個(gè)新特征都會(huì)增加復(fù)雜性,增大使用機(jī)器學(xué)習(xí)算法的困難。

數(shù)據(jù)科學(xué)家通常使用降維,這是一套從機(jī)器學(xué)習(xí)模型中去除過多或者無關(guān)特征的技術(shù)。

降維可以降低機(jī)器學(xué)習(xí)的成本,有時(shí)還可以幫助用更簡(jiǎn)單的模型來解決復(fù)雜的問題。

以下讓我們來看看是他的文章。

維度的詛咒

[[402587]]

機(jī)器學(xué)習(xí)模型可以將特征映射到結(jié)果。

比如,假設(shè)你想創(chuàng)建一個(gè)模型,來預(yù)測(cè)一個(gè)月內(nèi)的降雨量:

你有一個(gè)在不同月份從不同城市收集的各類信息的數(shù)據(jù)集,包括溫度、濕度、城市人口、交通、在城市舉辦的音樂會(huì)數(shù)量、風(fēng)速、風(fēng)向、氣壓、購(gòu)買的汽車票數(shù)量和降雨量。

顯然,這些信息并不是都和降雨預(yù)測(cè)有關(guān)。

有些特征可能和目標(biāo)變量毫無關(guān)系。

比如,人口和購(gòu)買的汽車票數(shù)量并不影響降雨量。

其他特征可能與目標(biāo)變量相關(guān),但與它沒有因果關(guān)系。

比如,戶外音樂會(huì)的數(shù)量可能與降雨量相關(guān),但它不是一個(gè)很好的降雨預(yù)測(cè)器。

在其他情況下,比如碳排放,特征和目標(biāo)變量之間可能有聯(lián)系,但效果可以忽略不計(jì)。

在這個(gè)例子中,哪些特征是有價(jià)值的,哪些是無用的,是顯而易見的。

在其他問題中,過度的特征可能不明顯,這就需要進(jìn)一步的數(shù)據(jù)分析。

但是,為什么要費(fèi)力地去除多余的維度呢?

因?yàn)楫?dāng)你有太多的特征時(shí),你也會(huì)需要一個(gè)更復(fù)雜的模型,這就意味著你需要更多的訓(xùn)練數(shù)據(jù)和更多的計(jì)算能力,才能把模型訓(xùn)練到一個(gè)可接受的水平。

由于機(jī)器學(xué)習(xí)不了解因果關(guān)系,即使沒有因果關(guān)系,模型也會(huì)試圖將數(shù)據(jù)集中的任何特征映射到目標(biāo)變量,這可能會(huì)導(dǎo)致模型錯(cuò)誤。

另一方面,減少特征的數(shù)量會(huì)使機(jī)器學(xué)習(xí)模型更簡(jiǎn)單,更有效,對(duì)數(shù)據(jù)的要求也更低。

很多特征造成的問題通常被稱為 “維度的詛咒”,而且它們并不限于表格數(shù)據(jù)。

考慮一個(gè)對(duì)圖像進(jìn)行分類的機(jī)器學(xué)習(xí)模型。如果你的數(shù)據(jù)集由100×100像素的圖像組成,那么每個(gè)像素一個(gè),這樣的問題空間有10,000個(gè)特征。然而,即使在圖像分類問題中,一些特征也是過度的,可以被刪除。

降維可以識(shí)別并刪除那些損害機(jī)器學(xué)習(xí)模型性能或?qū)ζ錅?zhǔn)確性沒有貢獻(xiàn)的特征。

目前有幾種降維技術(shù),每一種都有有用的適用范圍。

特征選擇

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

一個(gè)基本且有效的降維方法是“特征選擇”,就是識(shí)別和選擇與目標(biāo)變量最相關(guān)的特征子集。

當(dāng)處理表格數(shù)據(jù)時(shí),特征選擇非常有效,因?yàn)槠渲械拿恳涣卸即砹艘环N特定的信息。

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

在進(jìn)行特征選擇時(shí),數(shù)據(jù)科學(xué)家要做兩件事:

保留與目標(biāo)變量高度相關(guān)的特征,和對(duì)數(shù)據(jù)集的方差貢獻(xiàn)最大的特征。

Python的Scikit-learn庫(kù)開發(fā)了很多功能,能夠分析、可視化和選擇正確的特征,來實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型。

比如,數(shù)據(jù)科學(xué)家可以使用散點(diǎn)圖和熱圖來可視化不同特征的協(xié)方差。

如果兩個(gè)特征高度相關(guān),那么它們將對(duì)目標(biāo)變量產(chǎn)生類似的影響,因此,可以刪除其中一個(gè),而不會(huì)對(duì)模型造成負(fù)面影響。

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

這些工具還可以幫助可視化特征和分析目標(biāo)變量之間的關(guān)聯(lián)性,從而幫助去除不影響目標(biāo)變量的變量。

比如,你可能會(huì)發(fā)現(xiàn),在你的數(shù)據(jù)集的25個(gè)特征中,有7個(gè)對(duì)目標(biāo)變量的影響占到了95%。

所以能夠刪除18個(gè)特征,使機(jī)器學(xué)習(xí)模型變得更簡(jiǎn)單,而不會(huì)對(duì)模型的準(zhǔn)確性產(chǎn)生太大影響。

投影技術(shù)

有時(shí),你沒辦法刪除個(gè)別特征,但這并不意味著不能簡(jiǎn)化機(jī)器學(xué)習(xí)模型。

投影技術(shù) 就是一個(gè)好辦法,也被稱為 “特征提取” ,可以通過將幾個(gè)特征壓縮到一個(gè)低維空間來簡(jiǎn)化模型。

用于表示投影技術(shù)的一個(gè)常見示例是 “瑞士卷”。

這是一組圍繞三維焦點(diǎn)旋轉(zhuǎn)的數(shù)據(jù)點(diǎn),這個(gè)數(shù)據(jù)集有三個(gè)特征。每個(gè)點(diǎn)(目標(biāo)變量)的值是根據(jù)它沿卷曲路徑到瑞士卷中心的距離來測(cè)量的。在下面的圖片中,紅點(diǎn)更靠近中心,黃點(diǎn)沿著滾動(dòng)方向更遠(yuǎn)。

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)模型,將瑞士卷點(diǎn)的特征映射到它們的值非常難,需要一個(gè)具有許多參數(shù)的復(fù)雜模型。但是,引入降維技術(shù),這些點(diǎn)可以被投射到一個(gè)較低維度的空間,可以用一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型來學(xué)習(xí)。

有各種投影技術(shù)。在上面的例子中,我們使用了 “局部線性嵌入(LLE)”的方法,這種算法可以降低問題空間的維度,同時(shí)保留了分離數(shù)據(jù)點(diǎn)數(shù)值的關(guān)鍵元素。當(dāng)我們的數(shù)據(jù)用LLE處理時(shí),結(jié)果看起來就像下面的圖片,這就像一個(gè)展開的瑞士卷。

你可以看到,每種顏色的點(diǎn)都保持在一起。因此,這個(gè)問題仍然可以簡(jiǎn)化為一個(gè)單一的特征,并用最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法(線性回歸)建模。

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

雖然這個(gè)例子是假設(shè)性的,但如果你把特征投射到一個(gè)較低維度的空間,經(jīng)常會(huì)面臨一些可以簡(jiǎn)化的問題。

比如, “主成分分析”(PCA) 是一種流行的降維算法,在簡(jiǎn)化機(jī)器學(xué)習(xí)問題方面有許多有用的應(yīng)用。

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

在優(yōu)秀的《用Python進(jìn)行機(jī)器學(xué)習(xí)(Hands-on Machine Learning with Python)》一書中,數(shù)據(jù)科學(xué)家Aurelien Geron展示了如何使用PCA將MNIST數(shù)據(jù)集從784個(gè)特征(28×28像素)減少到150個(gè)特征,同時(shí)保留了95%的方差。

這種降維水平對(duì)人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和運(yùn)行成本的影響特別大。

打破“維度的詛咒”,機(jī)器學(xué)習(xí)降維大法好

關(guān)于投影技術(shù),有幾個(gè)注意事項(xiàng)需要考慮:

一旦你開發(fā)了投影技術(shù),就必須先將新數(shù)據(jù)點(diǎn)轉(zhuǎn)換到低維空間,然后再通過機(jī)器學(xué)習(xí)模型運(yùn)行它們。但如果這個(gè)預(yù)處理步驟的成本太大,最后模型的收益太小的話,可能不太值。

第二個(gè)問題是,轉(zhuǎn)換后的數(shù)據(jù)點(diǎn)可能不能直接代表其原始特征,如果將它們?cè)俎D(zhuǎn)換回原始空間可能很麻煩,某些情況下也不太可行,因此這可能會(huì)很難解釋模型的推論。

機(jī)器學(xué)習(xí)工具箱中的降維

簡(jiǎn)單總結(jié)一下。

過多的特征會(huì)降低機(jī)器學(xué)習(xí)模型的效率,但刪除過多的特征也不太好。

數(shù)據(jù)科學(xué)家可以用降維作為一個(gè)工具箱,生成好的機(jī)器學(xué)習(xí)模型,但和其他工具一樣,使用降維的時(shí)候也有許多問題,有許多地方都需要小心。

作者簡(jiǎn)介

[[402591]]

知名科技博主、軟件工程師Ben Dickson,TechTalks的創(chuàng)始人。

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-06-19 09:13:29

機(jī)器學(xué)習(xí)中數(shù)據(jù)集深度學(xué)習(xí)

2021-05-24 08:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)云計(jì)算

2023-11-28 12:12:46

機(jī)器學(xué)習(xí)算法

2024-02-19 15:28:33

機(jī)器學(xué)習(xí)線性降維

2024-02-19 14:37:14

機(jī)器學(xué)習(xí)非線性降維

2015-09-21 15:00:38

機(jī)器學(xué)習(xí)

2021-03-30 11:29:02

人工智能深度學(xué)習(xí)

2021-08-02 18:04:25

機(jī)器學(xué)習(xí)數(shù)據(jù)集工具

2020-11-02 18:38:17

Batch Norma深度學(xué)習(xí)

2023-01-03 15:56:34

機(jī)器學(xué)習(xí)降維技術(shù)

2017-10-13 13:14:35

互聯(lián)網(wǎng)

2022-09-06 15:00:09

機(jī)器學(xué)習(xí)集成數(shù)據(jù)集

2022-09-15 23:58:51

機(jī)器學(xué)習(xí)集成數(shù)據(jù)

2021-04-01 22:19:54

機(jī)器學(xué)習(xí)模型數(shù)據(jù)

2022-04-26 06:15:34

降維算法Python

2022-08-27 13:35:39

L4級(jí)自動(dòng)駕駛輔助駕駛自動(dòng)駕駛

2022-08-05 08:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)API

2021-10-04 14:56:09

機(jī)器學(xué)習(xí)函數(shù)參數(shù)

2017-09-11 09:20:14

機(jī)器學(xué)習(xí)無監(jiān)督學(xué)習(xí)聚類

2021-05-24 14:13:44

人工智能機(jī)器學(xué)習(xí)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)