自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="goh0q"><fieldset id="goh0q"></fieldset></pre>

<cite id="goh0q"><track id="goh0q"></track></cite>

<blockquote id="goh0q"><p id="goh0q"></p></blockquote>

<p id="goh0q"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Kaggle機器學(xué)習(xí)之模型融合（stacking）心得

作者：思穎 2017-10-09 12:55:29

人工智能機器學(xué)習(xí)

本文適用于被stacking折磨的死去活來的新手，在網(wǎng)上為數(shù)不多的stacking內(nèi)容里，我已經(jīng)假設(shè)你早已經(jīng)看過了上述所提到的那幾篇有用的文章了。我希望下面的內(nèi)容能成為，你在學(xué)習(xí)stacking的曲折道路上的一個小火把，給你提供一些微弱的光亮。

此文道出了本人學(xué)習(xí)Stacking入門級應(yīng)用的心路歷程。

在學(xué)習(xí)過程中感謝@貝爾塔的模型融合方法，以及如何在 Kaggle 首戰(zhàn)中進入前 10%這篇文章(作者是章凌豪)。對于兩位提供的信息，感激不盡。同時還有Kaggle上一些關(guān)于ensemble的文章和代碼，比如這篇。

本文適用于被stacking折磨的死去活來的新手，在網(wǎng)上為數(shù)不多的stacking內(nèi)容里，我已經(jīng)假設(shè)你早已經(jīng)看過了上述所提到的那幾篇有用的文章了。但是，看完之后內(nèi)心還是臥槽的。我希望下面的內(nèi)容能成為，你在學(xué)習(xí)stacking的曲折道路上的一個小火把，給你提供一些微弱的光亮。

本文以Kaggle的Titanic(泰坦尼克預(yù)測)入門比賽來講解stacking的應(yīng)用(兩層!)。

數(shù)據(jù)的行數(shù)：train.csv有890行，也就是890個人，test.csv有418行(418個人)。

而數(shù)據(jù)的列數(shù)就看你保留了多少個feature了，因人而異。我自己的train保留了 7+1(1是預(yù)測列)。

在網(wǎng)上為數(shù)不多的stacking內(nèi)容里，相信你早看過了這張圖：

這張圖，如果你能一下子就能看懂，那就OK。

如果一下子看不懂，就麻煩了，在接下來的一段時間內(nèi)，你就會臥槽臥槽地持續(xù)懵逼……

因為這張圖***‘誤導(dǎo)性’。(注意!我沒說這圖是錯的，盡管它就是錯的!!!但是在網(wǎng)上為數(shù)不多教學(xué)里有張無碼圖就不錯啦，感恩吧，我這個小弱雞)。

我把圖改了一下：

對于每一輪的 5-fold，Model 1都要做滿5次的訓(xùn)練和預(yù)測。

Titanic 栗子：

Train Data有890行。(請對應(yīng)圖中的上層部分)

每1次的fold，都會生成 713行小train， 178行小test。我們用Model 1來訓(xùn)練 713行的小train，然后預(yù)測 178行小test。預(yù)測的結(jié)果是長度為 178 的預(yù)測值。

這樣的動作走5次! 長度為178 的預(yù)測值 X 5 = 890 預(yù)測值，剛好和Train data長度吻合。這個890預(yù)測值是Model 1產(chǎn)生的，我們先存著，因為，一會讓它將是第二層模型的訓(xùn)練來源。

重點：這一步產(chǎn)生的預(yù)測值我們可以轉(zhuǎn)成 890 X 1 (890 行，1列)，記作 P1 (大寫P)

接著說 Test Data 有 418 行。(請對應(yīng)圖中的下層部分，對對對，綠綠的那些框框)

每1次的fold，713行小train訓(xùn)練出來的Model 1要去預(yù)測我們?nèi)康腡est Data(全部!因為Test Data沒有加入5-fold，所以每次都是全部!)。此時，Model 1的預(yù)測結(jié)果是長度為418的預(yù)測值。

這樣的動作走5次!我們可以得到一個 5 X 418 的預(yù)測值矩陣。然后我們根據(jù)行來就平均值，***得到一個 1 X 418 的平均預(yù)測值。

重點：這一步產(chǎn)生的預(yù)測值我們可以轉(zhuǎn)成 418 X 1 (418行，1列)，記作 p1 (小寫p)

走到這里，你的***層的Model 1完成了它的使命。

***層還會有其他Model的，比如Model 2，同樣的走一遍，我們有可以得到 890 X 1 (P2) 和 418 X 1 (p2) 列預(yù)測值。

這樣吧，假設(shè)你***層有3個模型，這樣你就會得到：

來自5-fold的預(yù)測值矩陣 890 X 3，(P1，P2， P3) 和來自Test Data預(yù)測值矩陣 418 X 3， (p1, p2, p3)。

—————————————–

到第二層了………………

來自5-fold的預(yù)測值矩陣 890 X 3 作為你的Train Data，訓(xùn)練第二層的模型

來自Test Data預(yù)測值矩陣 418 X 3 就是你的Test Data，用訓(xùn)練好的模型來預(yù)測他們吧。

—————————————

*** ，放出一張Python的Code，在網(wǎng)上為數(shù)不多的stacking內(nèi)容里，這個幾行的code你也早就看過了吧，我之前一直卡在這里，現(xiàn)在加上一點點注解，希望對你有幫助：

責(zé)任編輯：龐桂玉來源： 36大數(shù)據(jù)

機器學(xué)習(xí)Kaggle Stacking

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="qubew"></cite>