自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)新手工程師常犯的6大錯(cuò)誤

開發(fā) 開發(fā)工具
機(jī)器學(xué)習(xí)初學(xué)者經(jīng)常會犯一些事后覺得蠢爆了的錯(cuò)誤。本文作者創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)新手工程師常犯的錯(cuò)誤清單。

機(jī)器學(xué)習(xí)中有很多構(gòu)建產(chǎn)品或解決方案的方式,每種方式的假設(shè)情況都不一樣。很多時(shí)候,如何找到合理的假設(shè)并不容易。機(jī)器學(xué)習(xí)初學(xué)者經(jīng)常會犯一些事后覺得蠢爆了的錯(cuò)誤。本文作者創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)新手工程師常犯的錯(cuò)誤清單。希望大家可以從中學(xué)習(xí),創(chuàng)建更棒的解決方案。

[[206828]]

理所當(dāng)然地使用默認(rèn)損失函數(shù)

在剛?cè)腴T的時(shí)候,均方誤差作為損失函數(shù)是很好的默認(rèn)選擇。但是當(dāng)需要處理現(xiàn)實(shí)問題的時(shí)候,這種未經(jīng)專門設(shè)計(jì)的損失函數(shù)很少能給出***解。

拿欺詐檢測為例。為了與你真正的商業(yè)目標(biāo)一致,需要按照欺詐造成的損失美元金額的比例懲罰假負(fù)類。使用均方誤差能給你一個(gè)還不錯(cuò)的結(jié)果,但不會是當(dāng)前***的結(jié)果。

要點(diǎn):每一次都自定義損失函數(shù),使之緊密匹配你的目標(biāo)。

對所有問題都使用一種算法/方法

很多人一旦完成了入門教程之后,就開始在所有的案例中都使用同一種算法。這很常見,他們覺得這種算法的效果和其它算法是一樣的。這種假設(shè)是很糟糕的,最終會帶來很差的結(jié)果。

解決辦法是讓數(shù)據(jù)為你選擇模型。當(dāng)你把數(shù)據(jù)預(yù)處理之后,將其饋送到多個(gè)不同的模型中去,看看結(jié)果如何。你將會了解哪些模型最適用,而哪些模型并不適合。

要點(diǎn):如果你一直使用同一種算法,這可能意味著你的結(jié)果并不是***的。

忽略異常值

異常值有時(shí)候很重要,有時(shí)候又可以忽略不計(jì),視情況而定。以收入預(yù)測為例,有時(shí)候收入會突然出現(xiàn)很大的變動,觀察這種現(xiàn)象并了解其原因是很有幫助的。有時(shí)候異常值由某種誤差造成,那么這時(shí)可以放心地忽略它們,并將其從你的數(shù)據(jù)中刪除。

從模型的角度來看,有些模型對異常值更加敏感。以 Adaboost 為例,它會將異常值當(dāng)做重要的例子,并給予異常值極大的權(quán)重,而決策樹可能只是簡單的把異常值當(dāng)做一個(gè)錯(cuò)誤分類(false classification)。

要點(diǎn):每一次開始工作之前,先仔細(xì)觀察數(shù)據(jù),決定異常值是否應(yīng)該被忽略,如果無法決定,就更仔細(xì)地觀察。

未正確處理周期特征

一天 24 小時(shí)、一周七天、一年 12 個(gè)月,以及風(fēng)向都是周期特征。很多機(jī)器學(xué)習(xí)新手工程師不知道把這些特征轉(zhuǎn)換成表示能夠保存信息,如 23 時(shí)和 0 時(shí)很接近。

以小時(shí)為例,***處理方式是計(jì)算它的 sin 和 cos,這樣你可以將該周期特征表示為一個(gè)圓的 (x,y) 坐標(biāo)。在以這種方式表示的時(shí)間中,23 時(shí)和 0 時(shí)就是在數(shù)值上緊挨著的兩個(gè)數(shù),僅此而已。

要點(diǎn):如果你在研究中遇到周期特征,但沒有將其轉(zhuǎn)換成表示,那你就是在給模型添加垃圾數(shù)據(jù)。

未經(jīng)歸一化的 L1/L2 正則化

L1 和 L2 正則化懲罰較大的系數(shù),是一種對線性或 logistic 回歸進(jìn)行正則化的常用方式。但是,很多機(jī)器學(xué)習(xí)工程師沒有意識到使用正則化之前對特征進(jìn)行歸一化的重要性。

假設(shè)你有一個(gè)線性回歸模型,其中一個(gè)特征是「交易金額」。如果交易金額的單位是美元,那么它的系數(shù)應(yīng)該是單位為美分的系數(shù)的 100 倍。這可能會引起偏差,使模型懲罰實(shí)際較小的特征。為了避免該問題,需要將這些特征進(jìn)行歸一化,這樣正則化對于所有特征都是平等的。

要點(diǎn):正則化很好用,但是如果你不把特征歸一化,會出現(xiàn)很讓人頭疼的問題。

把線性回歸或 logistic 回歸的系數(shù)絕對值當(dāng)作判斷特征重要性的依據(jù)

很多現(xiàn)成的線性回歸器為每個(gè)系數(shù)返回 p 值,一些機(jī)器學(xué)習(xí)新手工程師認(rèn)為對于線性模型而言,系數(shù)的值越大,則該特征越重要。這并不準(zhǔn)確,因?yàn)樽兞康拇笮淖兿禂?shù)的絕對值。如果特征是共線的,則系數(shù)可以從一個(gè)特征轉(zhuǎn)換到另一個(gè)特征。數(shù)據(jù)集的特征越多,特征是共線的可能性就越大,這種對特征重要性的簡單解釋的可信度就越低。

要點(diǎn):了解哪些特征對結(jié)果的影響力***非常重要,但是僅憑系數(shù)無法確定。

做一些項(xiàng)目并且獲得好的結(jié)果,感覺就像贏了一百萬!你努力工作,研究結(jié)果證明你做的不錯(cuò),但是和任何行業(yè)一樣,魔鬼總是隱藏在細(xì)節(jié)中,精密的圖表也可能隱藏偏差和誤差。本文列出的錯(cuò)誤并不是全部,只是想刺激讀者思考你的解決方案中可能隱藏哪些細(xì)微問題。要想獲取好的結(jié)果,按照流程工作很重要,并且仔細(xì)檢查確保不犯常見錯(cuò)誤。

原文:

https://medium.com/towards-data-science/top-6-errors-novice-machine-learning-engineers-make-e82273d394db

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2017-10-17 14:48:08

機(jī)器學(xué)習(xí)新手工程師常犯錯(cuò)誤

2018-04-09 06:43:44

機(jī)器學(xué)習(xí)函數(shù)算法

2012-02-20 16:45:40

Android開發(fā)新手

2019-12-18 08:13:08

機(jī)器學(xué)習(xí)函數(shù)機(jī)器學(xué)習(xí)工程師

2023-09-25 12:40:00

架構(gòu)師數(shù)字化轉(zhuǎn)型

2009-09-14 19:23:45

敏捷開發(fā)

2010-05-10 09:10:51

Linux

2023-03-10 09:00:49

Swift開發(fā)者工具

2019-07-31 10:59:36

2013-02-26 11:18:14

2019-07-29 15:15:45

2019-08-02 16:15:13

2022-06-08 13:02:19

數(shù)據(jù)治理變革管理工具

2011-07-22 15:12:12

java

2020-07-23 07:30:20

工程師開發(fā)網(wǎng)絡(luò)

2019-09-25 15:30:15

2017-04-18 09:46:31

機(jī)器學(xué)習(xí)工程師算法

2017-08-14 16:30:38

數(shù)據(jù)庫常犯錯(cuò)誤

2025-03-31 08:00:00

Django開發(fā)Python

2012-08-02 09:05:59

移動應(yīng)用設(shè)計(jì)錯(cuò)誤
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號