自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手把手教你可視化交叉驗證代碼,提高模型預(yù)測能力

開發(fā) 開發(fā)工具
本文介紹了如何使用K折交叉驗證提高模型預(yù)測能力,并對代碼進行了可視化。

我們試著利用代碼可視化來提高模型預(yù)測能力。

比如說,你正在編寫一個漂亮清晰的機器學(xué)習(xí)代碼(例如線性回歸)。你的代碼還不錯,首先按照往常一樣用 train_test_split 這樣的函數(shù)將數(shù)據(jù)集分成「訓(xùn)練集和測試集」兩個部分,并加入一些隨機因素。你的預(yù)測可能稍微欠擬合或過擬合,如下圖所示。

欠擬合和過擬合情況下的預(yù)測結(jié)果

圖:欠擬合和過擬合情況下的預(yù)測結(jié)果

這些結(jié)果沒有變化。這個時候我們能做什么呢?

正如題目所建議的,在學(xué)習(xí)了線性回歸之后,下一件有趣的事情就是交叉驗證了,因為它可以使用 K 折策略(K-Fold strategy)提高模型的預(yù)測能力。那 K 折究竟是什么呢?下面我們將用代碼對此進行解釋。

完整的代碼如下:

圖:交叉驗證的可視化

代碼解析:

以上代碼可分為 4 個步驟。

1. 加載并分割目標數(shù)據(jù)集。

加載數(shù)據(jù)集

圖:加載數(shù)據(jù)集

將該數(shù)據(jù)集中的目標復(fù)制到 y 變量中。如果想看到數(shù)據(jù)集,請將 print 行的注釋符「#」刪除。

2. 模型選擇

模型選擇(LinearRegression())

圖:模型選擇(LinearRegression())

為簡化過程,我們將選擇使用線性回歸。如果想了解更多,請查看文章《Linear Regression: The Easier Way》。

3. 交叉驗證

在 sklearn 中進行交叉驗證

圖:在 sklearn 中進行交叉驗證

這是 sklearn 中的流程,也是一個函數(shù):

  1. cross_val_predict(model, data, target, cv) 

其中,

  • model 是我們選來要進行交叉驗證的模型。
  • data 是數(shù)據(jù)。
  • target 是數(shù)據(jù)的目標值。
  • cv(可選項)是數(shù)據(jù)折疊的總次數(shù)(K 折)。

在這個流程中,我們不像往常一樣將數(shù)據(jù)集分成訓(xùn)練集和測試集兩部分,如下圖所示。

訓(xùn)練集(藍色)和測試集(紅色)

圖:訓(xùn)練集(藍色)和測試集(紅色)

我們將數(shù)據(jù)集平均分成 K 個部分(K 折或者 cv)。為了提高預(yù)測精度并實現(xiàn)更好地泛化,我們會在較大的數(shù)據(jù)集中進行模型訓(xùn)練,在較小的數(shù)據(jù)集上測試。這里,我們把 cv 設(shè)置成 6。

圖:6 個相同的部分

現(xiàn)在,模型分割的***次迭代如下圖所示,其中紅色的是測試集,藍色的是訓(xùn)練集。

圖:交叉驗證的***次迭代

第二次迭代如下圖所示:

圖:交叉驗證的第二次迭代

以此類推,直到***一次迭代,如下圖所示:

圖:交叉驗證的第六次迭代

4. 使用 Matplotlib 進行數(shù)據(jù)可視化

圖:使用 Matplotlib 進行可視化

為了將結(jié)果可視化,我們導(dǎo)入了 matplotlib 庫,然后創(chuàng)建一個 subplot(子圖)。

創(chuàng)建采用黑色(即 (0,0,0))邊框的散點。

使用 ax.plot 計算兩個軸的***最小值,k-- 代表線型,lw=4 代表寬度。然后,給 x 軸和 y 軸加上標簽。***,用 plt.show() 展示圖像。

結(jié)果如下:

圖:預(yù)測結(jié)果

這張圖展示了使用線性回歸模型對 Boston 數(shù)據(jù)集進行 K 折交叉驗證的結(jié)果。

我知道其實還有很多種交叉驗證方法,但 K 折交叉驗證是一個很好、很簡單的起點。

完整代碼地址:https://github.com/Sagarsharma4244/Cross-Validation

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-12-17 09:40:01

Matplotlib數(shù)據(jù)可視化命令

2020-03-06 13:09:42

JavaScriptSublimeTextNode.js

2016-04-27 09:49:16

用戶模型產(chǎn)品總結(jié)

2021-08-26 09:00:48

PyechartsPython可視化

2022-07-24 21:43:48

數(shù)據(jù)可視化大數(shù)據(jù)

2021-03-12 10:01:24

JavaScript 前端表單驗證

2021-09-26 16:08:23

CC++clang_forma

2021-07-14 09:00:36

Python數(shù)據(jù)Python基礎(chǔ)

2021-07-14 09:00:00

JavaFX開發(fā)應(yīng)用

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機

2024-01-26 08:16:48

Exporter開源cprobe

2021-08-18 07:29:41

密碼驗證 PAT

2021-09-03 08:58:00

數(shù)據(jù)分析可視化

2021-12-04 09:10:09

可視化

2020-08-12 09:07:53

Python開發(fā)爬蟲

2022-01-08 20:04:20

攔截系統(tǒng)調(diào)用

2022-03-14 14:47:21

HarmonyOS操作系統(tǒng)鴻蒙

2023-04-26 12:46:43

DockerSpringKubernetes

2022-12-07 08:42:35

點贊
收藏

51CTO技術(shù)棧公眾號