自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

注意這個(gè)數(shù)據(jù)科學(xué)錯(cuò)誤,避免30多個(gè)小時(shí)的無(wú)用功……

大數(shù)據(jù) 機(jī)器學(xué)習(xí)
下面這個(gè)模型在一項(xiàng)圖像識(shí)別競(jìng)賽中經(jīng)過(guò)了數(shù)天訓(xùn)練。這是個(gè)相對(duì)比較簡(jiǎn)單的模型,其AUC最初是0.9,符合比賽將AUC控制在0到1之間的要求,除此之外我對(duì)比賽也沒(méi)有太高的期望。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

 [[389352]]

下面這個(gè)模型在一項(xiàng)圖像識(shí)別競(jìng)賽中經(jīng)過(guò)了數(shù)天訓(xùn)練。這是個(gè)相對(duì)比較簡(jiǎn)單的模型,其AUC最初是0.9,符合比賽將AUC控制在0到1之間的要求,除此之外我對(duì)比賽也沒(méi)有太高的期望。也正因如此,當(dāng)我照例評(píng)估重量模型,對(duì)模型進(jìn)行訓(xùn)練時(shí),看到如下結(jié)果大吃一驚: 

注意這個(gè)數(shù)據(jù)科學(xué)錯(cuò)誤,避免30多個(gè)小時(shí)的無(wú)用功……

 

在當(dāng)時(shí)比賽的實(shí)時(shí)排行榜中,排名首位的AUC值為0.965,而我當(dāng)時(shí)的有效AUC值達(dá)到了0.9968,離獲勝拿獎(jiǎng)僅有一步之遙,在一百多個(gè)隊(duì)伍中遙遙領(lǐng)先,讓我難以置信。深度學(xué)習(xí)之神好像是在這天點(diǎn)化了我,讓我在權(quán)重初始化上取得了這樣傲人的成績(jī),簡(jiǎn)直像有了優(yōu)化超能力一樣厲害。 

注意這個(gè)數(shù)據(jù)科學(xué)錯(cuò)誤,避免30多個(gè)小時(shí)的無(wú)用功……

 

這個(gè)結(jié)果好的讓人難以置信。雖然我很想相信模型給出的數(shù)據(jù),但我仍持有一絲懷疑。我一次又一次地對(duì)模型預(yù)測(cè)進(jìn)行評(píng)估,起初測(cè)試了部分?jǐn)?shù)據(jù),然后測(cè)試了全部數(shù)據(jù)。結(jié)果是肯定的:驗(yàn)證分?jǐn)?shù)接近完美。

因此我確信自己找到了獲勝的捷徑,準(zhǔn)備拿下第一名,帶著激動(dòng)的心情,我趕忙將模型對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)提交了。獎(jiǎng)金唾手可得。

而比賽分?jǐn)?shù)令人震驚。 

 

0.5分。即便是隨便提交一個(gè)預(yù)測(cè),或者是什么都不做僅僅是把比賽提供的樣本文件提交都能拿到0.5分。我當(dāng)時(shí)獲得的魔法般的頓悟也就比瞎猜強(qiáng)了一點(diǎn)。

結(jié)果出來(lái)之后,我花了30多個(gè)小時(shí),復(fù)盤數(shù)據(jù),試圖找出哪里出了問(wèn)題,整個(gè)人精疲力竭。預(yù)測(cè)中肯定那兒除了問(wèn)題,可能是文件傳錯(cuò)了。

然而,這30個(gè)小時(shí)也不過(guò)是白費(fèi)功夫。我花了九牛二虎之力更正結(jié)果,但預(yù)測(cè)結(jié)果值仍然很低。

到底是哪里出問(wèn)題了?

答案是:數(shù)據(jù)泄露。數(shù)據(jù)泄露是個(gè)很簡(jiǎn)單的概念,但我就直直地走進(jìn)了它的陷阱。在模型訓(xùn)練中,我的編程沒(méi)有任何問(wèn)題,模型也正確依照測(cè)試數(shù)據(jù)進(jìn)行了訓(xùn)練,問(wèn)題出現(xiàn)在了不易發(fā)現(xiàn)的地方。

簡(jiǎn)而言之,當(dāng)模型遇到不該遇到的情況時(shí),就會(huì)發(fā)生數(shù)據(jù)泄漏。在比賽中,我已經(jīng)在多個(gè)會(huì)話中訓(xùn)練了模型,也就是說(shuō),我將從上一個(gè)會(huì)話中加載模型權(quán)重,訓(xùn)練模型并保存最佳性能的權(quán)重。由于計(jì)算時(shí)間限制,訓(xùn)練在多個(gè)會(huì)話中進(jìn)行。

但是,在每個(gè)會(huì)話中,我都會(huì)重新運(yùn)行整個(gè)代碼,包括將數(shù)據(jù)隨機(jī)分為訓(xùn)練和驗(yàn)證集的代碼,因此每次培訓(xùn)的訓(xùn)練集并不相同。為避免這種情況,可以設(shè)置一個(gè)種子來(lái)劃分訓(xùn)練/驗(yàn)證組,而這是我(非常)沒(méi)有提前采取的措施。

盡管每次的訓(xùn)練數(shù)據(jù)都不同,但模型的權(quán)重(它所了解的信息)卻被傳遞了下來(lái)。因此,經(jīng)過(guò)足夠的培訓(xùn)后,該模型已被暴露給整個(gè)數(shù)據(jù)集。 

注意這個(gè)數(shù)據(jù)科學(xué)錯(cuò)誤,避免30多個(gè)小時(shí)的無(wú)用功……

由于機(jī)器學(xué)習(xí)模型本身具有惰性,所以該模型會(huì)放棄學(xué)習(xí),轉(zhuǎn)而對(duì)數(shù)據(jù)進(jìn)行記憶,這對(duì)沒(méi)有感情的網(wǎng)絡(luò)來(lái)說(shuō)非常簡(jiǎn)單,也就導(dǎo)致這種現(xiàn)象發(fā)生過(guò)很多次。因此,面對(duì)從未見(jiàn)過(guò)的數(shù)據(jù)時(shí),這個(gè)模型就無(wú)能為力了。

由于該模型已經(jīng)在之前的訓(xùn)練中見(jiàn)過(guò)驗(yàn)證數(shù)據(jù),所以才能得到近乎完美的0.9968,讓我誤以為這就是模型本身的能力。如果回憶一下模型早期的性能,想一想為什么驗(yàn)證分?jǐn)?shù)會(huì)高于訓(xùn)練分?jǐn)?shù),就會(huì)明白這其實(shí)是一個(gè)相當(dāng)奇怪且罕見(jiàn)的現(xiàn)象。

所以,大家在接下來(lái)的每一個(gè)實(shí)踐中都要牢記這重要的一課:如果結(jié)果太過(guò)完美,讓人不敢相信,那十有八九這個(gè)結(jié)果有問(wèn)題。(這個(gè)方法在鑒別數(shù)據(jù)泄露中尤其重要。)

這是一種數(shù)據(jù)泄露,其他類型的泄露包括:

  • 預(yù)處理。如果在拆分之前處理數(shù)據(jù),那可能會(huì)導(dǎo)致信息泄漏。例如,如果你在整個(gè)數(shù)據(jù)集中使用均值之類的方法,則訓(xùn)練集將包含有關(guān)驗(yàn)證集的數(shù)據(jù),反之亦然。
  • 時(shí)間。如果在預(yù)測(cè)問(wèn)題涉及到了時(shí)間,那簡(jiǎn)單的隨機(jī)訓(xùn)練/驗(yàn)證拆分無(wú)效。也就是說(shuō),如果要基于A和B預(yù)測(cè)C,則應(yīng)在[A,B]→C上訓(xùn)練模型,而不要像[C,A]→B那樣訓(xùn)練。這是因?yàn)橹懒酥蟮臄?shù)據(jù)點(diǎn)C的值,模型就可以預(yù)測(cè)之前的數(shù)據(jù)點(diǎn)B。

在事情太過(guò)完美的時(shí)候三思是個(gè)好習(xí)慣,但也要注意其中微妙的細(xì)節(jié)。比如說(shuō),分?jǐn)?shù)增加的幅度很大,但不一定是很奇怪的現(xiàn)象;而當(dāng)模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),其性能又很差勁。

實(shí)際上,最好的辦法是注意以任何方式分割數(shù)據(jù)的目的,以便將它們分為訓(xùn)練/驗(yàn)證/測(cè)試集,并盡早進(jìn)行。此外,設(shè)置種子是強(qiáng)有力的保障。

從更開(kāi)放的角度上講,數(shù)據(jù)泄漏可能是有益的。如果模型看到了不應(yīng)該看到的數(shù)據(jù),但是看到的數(shù)據(jù)有助于提升其概括能力,幫助學(xué)習(xí),那么數(shù)據(jù)泄漏是有好處的。

例如,Kaggle的排名系統(tǒng)。該系統(tǒng)由一個(gè)公共排行榜和一個(gè)私人排行榜組成。在比賽結(jié)束之前,用戶可以訪問(wèn)所有訓(xùn)練內(nèi)容和部分測(cè)試內(nèi)容(在該系統(tǒng)中可訪問(wèn)25%的內(nèi)容,用于確定公共排行榜上的位置)。但是,比賽結(jié)束后,測(cè)試內(nèi)容的另75%將用于評(píng)估模型,以確定最終私人排行榜的排位。 

注意這個(gè)數(shù)據(jù)科學(xué)錯(cuò)誤,避免30多個(gè)小時(shí)的無(wú)用功……

不過(guò),如果我們能利用這25%的測(cè)試內(nèi)容來(lái)提高私人排行榜上分?jǐn)?shù),這就算是數(shù)據(jù)泄露。 

在Kaggle競(jìng)賽中,相對(duì)常見(jiàn)的做法是在了解其他25%測(cè)試數(shù)據(jù)的情況下對(duì)75%測(cè)試數(shù)據(jù)進(jìn)行某種預(yù)處理。比如,可以采用PCA來(lái)降低尺寸。這通常都會(huì)提升模型性能,因?yàn)閿?shù)據(jù)一般都是越多越好。

我們?cè)趯ふ姨岣邤?shù)據(jù)連接性方法的道路上應(yīng)永不停歇;一般來(lái)說(shuō),永遠(yuǎn)不要將任何復(fù)雜的事件標(biāo)記為純粹的壞(或好)事件。

總而言之,數(shù)據(jù)科學(xué)家應(yīng)致力于為模型提供更多的數(shù)據(jù),但要把不同用處的數(shù)據(jù)區(qū)分開(kāi)。此外,為了不讓希望破滅,你應(yīng)該消極地編程。畢竟,只有預(yù)期了最差的結(jié)果,面對(duì)問(wèn)題才能淡定處理,面對(duì)成功也能欣喜若狂。

 

 

責(zé)任編輯:華軒 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2010-05-11 10:27:49

企業(yè)培訓(xùn)

2015-01-22 15:37:17

OpenStackIaaSDocker

2024-01-25 11:28:18

CIO數(shù)據(jù)戰(zhàn)略IT領(lǐng)導(dǎo)者

2024-01-26 06:33:06

數(shù)據(jù)策略決策

2021-11-30 13:59:22

數(shù)據(jù)治理大數(shù)據(jù)數(shù)據(jù)分析

2022-08-15 14:36:21

Python數(shù)據(jù)科學(xué)編程語(yǔ)言

2024-02-23 11:29:05

數(shù)據(jù)中心服務(wù)器

2024-04-03 14:50:46

數(shù)據(jù)中心冷卻數(shù)據(jù)中心

2014-07-03 09:38:19

2017-02-13 14:56:44

ISSCC人工智能趨勢(shì)

2023-06-12 11:53:08

數(shù)據(jù)活躍率流失率

2021-04-08 13:50:54

云計(jì)算云計(jì)算產(chǎn)業(yè)云應(yīng)用

2017-06-28 10:08:03

打印機(jī)票據(jù)學(xué)生

2018-05-11 09:55:44

2015-08-25 14:58:19

數(shù)據(jù)

2023-04-10 08:07:48

MySQLlimitoffset

2022-07-30 23:27:36

Python編程語(yǔ)言數(shù)據(jù)

2024-12-11 08:09:54

2022-04-13 09:34:52

軟件開(kāi)發(fā)嵌入式軟件

2019-09-16 13:14:37

數(shù)據(jù)科學(xué)家模型職業(yè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)