自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)中容易犯下的錯(cuò)

人工智能 機(jī)器學(xué)習(xí)
在處理少量的數(shù)據(jù)時(shí),盡量多的去嘗試更多的算法是合理的,并且去 選擇最好的算法建立在實(shí)驗(yàn)成本低的情況下。但是,當(dāng)我們碰到“大數(shù)據(jù)”時(shí),就需要對數(shù)據(jù)進(jìn)行前期分析,然后相應(yīng)的設(shè)計(jì)建模流程。(例如預(yù)處理、建模、優(yōu)化算法、評價(jià),產(chǎn)品化)

前言

在工程中,有多種方法來構(gòu)建一個(gè)關(guān)鍵值存儲(chǔ),并且每個(gè)設(shè)計(jì)都對使用模式做了不同的假設(shè)。在統(tǒng)計(jì)建模,有各種算法來建立一個(gè)分類,每一個(gè)算法的對數(shù)據(jù)集有不同的假設(shè)。

在處理少量的數(shù)據(jù)時(shí),盡量多的去嘗試更多的算法是合理的,并且去 選擇***的算法建立在實(shí)驗(yàn)成本低的情況下。但是,當(dāng)我們碰到“大數(shù)據(jù)”時(shí),就需要對數(shù)據(jù)進(jìn)行前期分析,然后相應(yīng)的設(shè)計(jì)建模流程。(例如預(yù)處理、建模、優(yōu)化算法、評價(jià),產(chǎn)品化)

現(xiàn)在出現(xiàn)了很多的算法,而且有幾十種方法來解決給定的建模問題。每個(gè)模型假設(shè)不同的東西,如何使用和驗(yàn)證哪些假設(shè)是否合理的其實(shí)并不明顯。在工業(yè)中,大多數(shù)從業(yè)者選擇的建模算法,都是他們最熟悉的,而不是選擇一個(gè)最適合數(shù)據(jù)的。接下來,我來分享一些經(jīng)常我們會(huì)忽略并犯錯(cuò)的地方,謝謝大家指正點(diǎn)評!( 注:標(biāo)題就用英語,感覺更貼近機(jī)器學(xué)習(xí)算法的原意 )

1. Take default loss function for granted(理所當(dāng)然的采用默認(rèn)損失函數(shù))

損失函數(shù) 是一個(gè)機(jī)器學(xué)習(xí)算法的核心,損失函數(shù)決定了最終優(yōu)化后得到的參數(shù)以及模型本身。在不同的業(yè)務(wù)場景下,優(yōu)化的目標(biāo)應(yīng)該是不同的。許多從業(yè)者訓(xùn)練和選擇***的模型,使用默認(rèn)的損失函數(shù)(比如:均方誤差)。在實(shí)踐中,現(xiàn)成的損失函數(shù)很少與商業(yè)目標(biāo)相一致。以詐騙偵查為例。當(dāng)試圖檢測欺詐交易,商業(yè)目標(biāo)是盡量減少欺詐損失。現(xiàn)有的二元分類器的損失函數(shù)同樣衡量假陽性和假陰性。為了與商業(yè)目標(biāo)一致,損失函數(shù)不僅要懲罰假陰性多于假陽性, 但也懲罰每個(gè)假陰性與美元金額的比例。

此外,數(shù)據(jù)集在欺詐檢測通常包含高度不平衡的標(biāo)簽。在這種情況下,偏置的損失函數(shù)有利于罕見的情況下(例如:通過上/下采樣)。

2. Use plain linear models for non-linear interaction(純線性模型用于非線性相互作用)

這個(gè)同樣是經(jīng)常會(huì)犯的錯(cuò)誤。當(dāng)構(gòu)造一個(gè)二分類問題,很多人就會(huì)直接想到Logistic回歸, 原因很簡單,因?yàn)檫壿嫽貧w效率高,實(shí)現(xiàn)容易。但是,大家往往都忽略了一點(diǎn),邏輯回歸本身就是一個(gè)線性模型,且非線性相互作用之間的預(yù)測需要手動(dòng)編碼。但是,真實(shí)數(shù)據(jù)是否線性可分卻是我們未知的情況。由于高維數(shù)據(jù)下判斷數(shù)據(jù)是否線性可分幾乎是一個(gè)不現(xiàn)實(shí)的任務(wù),所以個(gè)人的經(jīng)驗(yàn)往往是先使用邏輯回歸做一次分類,但是同時(shí)也會(huì)采用決策樹,或者SVM等非線性模型來對該數(shù)據(jù)進(jìn)行重新的分類比對。

返回欺詐檢測,高階交互特征如:“賬單地址=發(fā)貨地址和交易金額 < $50”需要良好的模型性能。因此,人們應(yīng)該喜歡非線性模型,如SVM核函數(shù)或基于樹的分類,有益于高階交互特征。

3. Forget about outliers(忽略異常值)

異常值是個(gè)很有趣的事情,讓你又愛又恨。根據(jù)上下文,他們要么值得特別關(guān)注,要么完全忽略。以收入預(yù)測為例。如果觀察到不同尋常的收入高峰,這可能是一個(gè)好主意,要格外注意他們,找出什么原因引起的尖峰。但如果異常是由于機(jī)械誤差,測量誤差或其他造成則不適用,在將數(shù)據(jù)反饋到建模算法之前,濾除這些異常值是個(gè)好主意。

有些模型比其他更敏感異常值。例如,AdaBoost可以把這些異常值作為“難樣本(Hard)”的情況下,把較大的權(quán)重放在異常值,而決策樹可以簡單地計(jì)算每個(gè)異常值作為一個(gè)錯(cuò)誤分類。如果數(shù)據(jù)集包含了大量的異常值,著重的是,要么用魯棒的模型算法去針對異常值,要么濾除異常值。

注:參考他人一段話。

我記得之前在統(tǒng)計(jì)之都上看過一篇文章對我啟發(fā)很大,說曾經(jīng)我們都愿意把異常值直接給丟掉,但是我們卻忘記了異常值并非錯(cuò)誤值,而同樣是真實(shí)情況的表現(xiàn),我們之所以認(rèn)為異常,只是因?yàn)槲覀兊臄?shù)據(jù)量不足夠大而已。文中還舉了一個(gè)例子,說我們用計(jì)算機(jī)來模擬高斯分布,也一樣會(huì)模擬出一些數(shù)據(jù)點(diǎn)落在N個(gè)標(biāo)準(zhǔn)差之外,而我們并不能說這是異常點(diǎn),因?yàn)槿绻覀儼堰@些點(diǎn)刪除掉,這就不是一個(gè)高斯分布了。所以異常值很多情況下非但不能丟掉,還需要引起我們的足夠重視和分析。

但是我們又要注意這個(gè)異常值是否是錯(cuò)誤值,如果是錯(cuò)誤值,這個(gè)時(shí)候我們就應(yīng)該想辦法把這些錯(cuò)誤值去掉,因?yàn)檫@些錯(cuò)誤往往會(huì)影響我們實(shí)際的模型效果。如果當(dāng)訓(xùn)練數(shù)據(jù)中包含一些異常值的時(shí)候,我們就需要考慮模型的敏感性了,例如AdaBoost, Kmeans這種就屬于對異常值很敏感的機(jī)器學(xué)習(xí)模型。

4. Use high variance model when n<<p(高方差模型使用情況)

支持向量機(jī)是***的現(xiàn)有建模算法之一,其***大的功能之一是能夠適應(yīng)不同核函數(shù)的模型。SVM核函數(shù)可以被認(rèn)為是一種方法,自動(dòng)結(jié)合現(xiàn)有的特征去 形成一個(gè)更豐富的特征空間。由于這個(gè)簡單,大多數(shù)都會(huì)在訓(xùn)練SVM模型的時(shí)候默認(rèn)使用核函數(shù)。然而,當(dāng)數(shù) 據(jù)n<<p(樣本數(shù)目 << 特征數(shù)目),常見于醫(yī)療數(shù)據(jù)等行業(yè),更豐富的特征空間意味著有更高的風(fēng)險(xiǎn)過擬合數(shù)據(jù)。事實(shí)上,高方差模型應(yīng)完全避免(n<<p)。

注: SVM核函數(shù)的一個(gè)關(guān)鍵概念就是維度提升,如果當(dāng)n << p的時(shí)候,還依然采用SVM來選定模型,那么就必然會(huì)導(dǎo)致p進(jìn)一步增加,于是導(dǎo)致特征的參數(shù)中自由變量增加,必然會(huì)對分類的效果產(chǎn)生很大的影響。

5. L1/L2/… regularization without standardization(正則化前沒有標(biāo)準(zhǔn)化)

應(yīng)用 L1或L2去懲罰 較大系數(shù)是常用的方式去正則化線性或邏輯回歸。然而,許多人不知道應(yīng)用這些正則化之前特征標(biāo)準(zhǔn)化的重要性。

返回欺詐檢測,想象一個(gè)具有交易量特征的線性回歸模型。沒有正則化,如果交易金額單位為美元,擬合系數(shù)將是約100倍大于 如果該單位是美分的 擬合系數(shù)。有正則化,由于L1 / L2懲罰更大的系數(shù), 如果單位是美元 交易金額將受到懲罰。因此,正規(guī)化是有偏見的,往往傾向于懲罰小規(guī)模特征。為了緩解這個(gè)問題,標(biāo)準(zhǔn)化的所有特征,并把它們作為一個(gè)預(yù)處理步驟。

6. Use linear model without considering multi-collinear predictors(使用線性模型沒有考慮共線預(yù)測)

設(shè)想建立一個(gè)具有兩個(gè)變量X1和X2的線性模型,假設(shè)真實(shí)模型是y = X1+X2。理想情況下,如果觀察到的數(shù)據(jù)有少量的噪聲,線性回歸解將找回真實(shí)模型。然而,如果X1和X2共線,大多數(shù)優(yōu)化算法的關(guān)系,y=2*X1, y=3*X1-X2或y=100*X1-99*X2都是不錯(cuò)的。

這個(gè)問題可能不是有害的,因?yàn)樗鼪]有偏差估計(jì)。然而,它確實(shí)會(huì)使問題成為病態(tài),并且使系數(shù)權(quán)重?zé)o法解釋。

7. Interpreting absolute value of coefficients from linear or logistic regression as feature importance

因?yàn)樵S多現(xiàn)有的線性回歸返回的p-value

系數(shù)的P值返回每個(gè),

許多人認(rèn)為線性模型,系數(shù)的絕對值越大,對應(yīng)的特征越重要。這很少是真實(shí)的,因?yàn)椋?/p>

改變了變量的規(guī)模,就改變了系數(shù)說的絕對值;

如果特征是共線的,系數(shù)可以從一個(gè)特征轉(zhuǎn)移到其他。

此外,數(shù)據(jù)集有更多的特征,有更多的可能特征共線,用系數(shù)解釋特征重要性的可靠性較差。

責(zé)任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2011-06-16 17:40:24

2019-11-01 14:19:02

大數(shù)據(jù)機(jī)器學(xué)習(xí)工具

2015-11-05 14:17:15

創(chuàng)業(yè)錯(cuò)誤初始階段

2017-04-12 14:33:01

機(jī)器學(xué)習(xí)數(shù)據(jù)分析開發(fā)

2019-09-23 10:59:31

機(jī)器學(xué)習(xí)算法編程

2019-09-23 11:17:46

機(jī)器學(xué)習(xí)數(shù)據(jù)技術(shù)

2018-05-07 08:45:43

編程ERPAI

2019-10-23 09:41:12

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-02-03 09:21:59

SQL機(jī)器學(xué)習(xí)ML

2020-10-13 14:38:50

機(jī)器學(xué)習(xí)數(shù)據(jù)

2022-05-19 09:53:05

機(jī)器學(xué)習(xí)人工智能算法

2019-10-24 08:41:06

供應(yīng)商安全信息安全數(shù)據(jù)泄露

2019-09-12 10:00:57

程序員技能開發(fā)者

2017-03-22 12:25:29

機(jī)器學(xué)習(xí)梯度下降法

2014-08-22 10:06:46

機(jī)器學(xué)習(xí)

2017-10-20 23:41:51

區(qū)塊鏈機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2024-08-26 14:23:56

2018-08-05 06:48:34

2019-12-18 08:13:08

機(jī)器學(xué)習(xí)函數(shù)機(jī)器學(xué)習(xí)工程師

2017-02-22 14:52:51

機(jī)器學(xué)習(xí)人工智能聲音
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號