自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基尼不純度:如何用它建立決策樹?

人工智能 機器學習
為了有效地構(gòu)建決策樹,我們使用了熵/信息增益和基尼不純度的概念。讓我們看看什么是基尼不純度,以及如何將其用于構(gòu)建決策樹吧。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。

決策樹是機器學習中使用的最流行和功能最強大的分類算法之一。顧名思義,決策樹用于根據(jù)給定的數(shù)據(jù)集做出決策。也就是說,它有助于選擇適當?shù)奶卣饕詫浞殖深愃朴谌祟愃季S脈絡的子部分。

為了有效地構(gòu)建決策樹,我們使用了熵/信息增益和基尼不純度的概念。讓我們看看什么是基尼不純度,以及如何將其用于構(gòu)建決策樹吧。

[[375443]]

什么是基尼不純度?

基尼不純度是決策樹算法中用于確定根節(jié)點的最佳分割以及后續(xù)分割的方法。這是拆分決策樹的最流行、最簡單的方法。它僅適用于分類目標,因為它只執(zhí)行二進制拆分。

基尼不純度的公式如下:

基尼不純度:如何用它建立決策樹?

基尼不純度越低,節(jié)點的同質(zhì)性越高。純節(jié)點(相同類)的基尼不純度為零。以一個數(shù)據(jù)集為例,計算基尼不純度。

該數(shù)據(jù)集包含18個學生,8個男孩和10個女孩。根據(jù)表現(xiàn)將他們分類如下:

基尼不純度:如何用它建立決策樹?

上述基尼不純度的計算如下:

基尼不純度:如何用它建立決策樹?

上述計算中,為了找到拆分(根節(jié)點)的加權(quán)基尼不純度,我們使用了子節(jié)點中學生的概率。對于“高于平均值”和“低于平均值”節(jié)點,該概率僅為9/18,這是因為兩個子節(jié)點的學生人數(shù)相等,即使每個節(jié)點中的男孩和女孩的數(shù)量根據(jù)其在課堂上的表現(xiàn)有所不同,結(jié)果亦是如此。

如下是使用基尼不純度拆分決策樹的步驟:

  • 類似于在熵/信息增益的做法。對于每個拆分,分別計算每個子節(jié)點的基尼不純度。
  • 計算每個拆分的基尼不純度作為子節(jié)點的加權(quán)平均基尼不純度。
  • 選擇基尼不純度值最低的分割。
  • 重復步驟1-3,直到獲得同類節(jié)點。

基尼不純度小總結(jié):

  • 有助于找出根節(jié)點、中間節(jié)點和葉節(jié)點以開發(fā)決策樹。
  • 被CART(分類和回歸樹)算法用于分類樹。
  • 當節(jié)點中的所有情況都屬于一個目標時,達到最小值(零)。

總而言之,基尼不純度比熵/信息增益更受青睞,因為它公式簡單且不使用計算量大而困難的對數(shù)。

 

責任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2019-05-15 09:00:00

決策樹機器學習人工智能

2022-11-11 08:00:00

決策樹機器學習監(jiān)督學習

2016-09-30 16:12:47

GBDT算法決策樹

2017-11-21 13:00:20

機器學習決策樹可視化

2022-12-21 14:39:35

機器學習案發(fā)決策樹

2018-02-02 15:50:07

決策樹Apache Spar數(shù)據(jù)

2022-01-24 09:00:00

機器學習決策樹算法

2017-09-11 13:33:44

大數(shù)據(jù)數(shù)據(jù)可視化決策樹

2017-05-10 15:41:29

機器學習算法數(shù)據(jù)

2017-07-18 16:25:31

機器學習算法決策樹

2017-12-12 12:24:39

Python決策樹

2012-08-06 09:04:01

決策樹建模

2018-10-27 15:47:35

CART算法決策樹

2021-11-08 07:11:49

決策樹數(shù)據(jù)分類器

2020-11-02 13:54:41

Python可視化決策樹

2017-10-18 14:11:20

機器學習決策樹隨機森林

2024-09-11 08:34:28

2017-09-25 16:16:49

決策樹隨機森林機器學習

2017-02-23 08:45:36

Python決策樹數(shù)據(jù)集

2023-08-11 17:30:54

決策樹機器學習算法
點贊
收藏

51CTO技術(shù)棧公眾號