自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

三大特征選擇策略,有效提升你的機(jī)器學(xué)習(xí)水準(zhǔn)

開(kāi)發(fā) 開(kāi)發(fā)工具
特征選擇是數(shù)據(jù)獲取中最關(guān)鍵的一步,可惜很多教程直接跳過(guò)了這一部分。本文將分享有關(guān)特征選擇的 3 個(gè)杰出方法,有效提升你的機(jī)器學(xué)習(xí)水準(zhǔn)。

什么是特征選擇?面對(duì)試圖解決的實(shí)際問(wèn)題之時(shí),什么特征將幫助你建模并不總是很清晰。伴隨這一問(wèn)題的還有大量數(shù)據(jù)問(wèn)題,它們有時(shí)是多余的,或者不甚相關(guān)。特征選擇是這樣一個(gè)研究領(lǐng)域,它試圖通過(guò)算法完成重要特征的選取。

為什么不把全部特征直接丟進(jìn)機(jī)器學(xué)習(xí)模型呢?

現(xiàn)實(shí)世界的問(wèn)題并沒(méi)有開(kāi)源數(shù)據(jù)集,其中更沒(méi)有與問(wèn)題相關(guān)的信息。而特征選擇有助于你***化特征相關(guān)性,同時(shí)降低非相關(guān)性,從而增加了構(gòu)建較好模型的可能性,并減小模型的整體大小。

***的特征選擇方法

比如說(shuō)我們要預(yù)測(cè)水上公園的票價(jià)走勢(shì);為此我們決定查看天氣數(shù)據(jù)、冰淇淋銷(xiāo)量、咖啡銷(xiāo)量以及季節(jié)狀況。

從下表中我們可以看到,夏季的門(mén)票明顯比其他季節(jié)好賣(mài),而冬季賣(mài)不出一張票??Х蠕N(xiāo)量整年中比較穩(wěn)定,冰淇淋則一年之中都有銷(xiāo)量,但旺季是 6 月。

文中使用的各項(xiàng)虛構(gòu)數(shù)據(jù)

表 1:文中使用的各項(xiàng)虛構(gòu)數(shù)據(jù)。

各項(xiàng)虛構(gòu)數(shù)據(jù)的圖示對(duì)比

圖 1:各項(xiàng)虛構(gòu)數(shù)據(jù)的圖示對(duì)比。

我們想要預(yù)測(cè)水上公園票價(jià),但很可能不需要所有數(shù)據(jù)以得到***結(jié)果。數(shù)據(jù)存在 N 個(gè)維度,并且 K 數(shù)值會(huì)給出***結(jié)果。但是不同大小的子集之間存在大量的結(jié)合。

我們的目標(biāo)是減少維度數(shù)量,同時(shí)不損失預(yù)測(cè)能力。讓我們退回一步,看看那些我們能使用的工具。

窮舉搜索

這項(xiàng)技術(shù)能 100% 保證找到***的可能特征以建立模型。我們認(rèn)為它非常可行,因?yàn)樗鼘⑺阉魉锌赡艿奶卣鹘M合并找到返回模型***點(diǎn)的組合。

在我們的例子中有 15 個(gè)可能的特征組合可供搜索。我使用公式 (2^n—1) 計(jì)算組合的數(shù)量。這個(gè)方法在特征數(shù)量較少的時(shí)候可行,但如果你有 3000 個(gè)特征就不可行了。

幸運(yùn)的是,還有一個(gè)稍微好點(diǎn)的方法可用。

隨機(jī)特征選擇

大多數(shù)情形中,隨機(jī)特征選擇可以工作的很好。如果要將特征數(shù)減少 50%,只需隨機(jī)選擇其中 50% 的特征并刪除。

模型訓(xùn)練完成之后,檢驗(yàn)?zāi)P偷男阅?,重?fù)這個(gè)過(guò)程直到你滿(mǎn)意為止。遺憾的是,這仍然是個(gè)蠻力方法。

當(dāng)需要處理一個(gè)很大的特征集,又不能削減規(guī)模的時(shí)候,該怎么辦?

最小冗余***關(guān)聯(lián)特征選擇

將所有的想法整合起來(lái)就能得出我們的算法,即 mRMR 特征選擇。算法背后的考慮是,同時(shí)最小化特征的冗余并***化特征的關(guān)聯(lián)。因此,我們需要計(jì)算冗余和關(guān)聯(lián)的方程:

計(jì)算冗余和關(guān)聯(lián)的方程

讓我們用虛構(gòu)的數(shù)據(jù)寫(xiě)一個(gè)快速腳本來(lái)實(shí)現(xiàn) mRMR:

用虛構(gòu)的數(shù)據(jù)寫(xiě)一個(gè)快速腳本來(lái)實(shí)現(xiàn) mRMR

我并沒(méi)有對(duì)結(jié)果抱有什么期待,冰淇淋的銷(xiāo)量看起來(lái)能很精確地對(duì)售票量建模,而氣溫不可以。在這個(gè)例子中,似乎只需要一個(gè)變量就可以精確地對(duì)售票量建模,但在實(shí)際的問(wèn)題中肯定不是這樣的。

mRMR 代碼地址:https://files.fm/u/bshx9hay

結(jié)論

你應(yīng)該對(duì)這些特征選擇方法有更好的理解,它們能幫助你減少模型特征的總數(shù)量,并保留對(duì)目標(biāo)來(lái)說(shuō)最重要的特征。

 

原文:

https://medium.com/towards-data-science/three-effective-feature-selection-strategies-e1f86f331fb1

【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專(zhuān)欄
相關(guān)推薦

2022-10-08 12:06:52

機(jī)器學(xué)習(xí)特征選擇

2022-02-16 07:00:00

機(jī)器學(xué)習(xí)特征選擇過(guò)濾法

2021-04-01 22:19:54

機(jī)器學(xué)習(xí)模型數(shù)據(jù)

2022-03-01 20:41:00

機(jī)器學(xué)習(xí)特征人工智能

2024-05-30 16:37:29

2024-12-26 00:34:47

2025-01-20 09:21:00

2021-04-09 10:02:29

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2018-08-03 10:30:16

算法回歸機(jī)器學(xué)習(xí)

2021-05-18 08:47:30

面試團(tuán)隊(duì)考核

2015-10-21 13:48:12

機(jī)器學(xué)習(xí)干貨數(shù)據(jù)

2018-11-07 13:00:30

機(jī)器學(xué)習(xí)深度學(xué)習(xí)集成學(xué)習(xí)

2020-10-30 10:23:14

機(jī)器學(xué)習(xí)趨勢(shì)范式

2021-04-20 15:48:40

應(yīng)用策略F5AI

2017-08-03 14:10:22

2020-08-30 16:27:30

多云云計(jì)算

2009-07-17 09:46:45

Web 2.0

2017-03-02 08:28:09

科技新聞早報(bào)

2022-07-21 18:51:13

性能優(yōu)化

2017-03-15 16:15:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)