自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GBDT:梯度提升決策樹

大數(shù)據(jù) 數(shù)據(jù)分析
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終答案。它在被提出之初就和SVM一起被認為是泛化能力較強的算法。

 

[[172702]]

 

綜述

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終答案。它在被提出之初就和SVM一起被認為是泛化能力較強的算法。

GBDT中的樹是回歸樹(不是分類樹),GBDT用來做回歸預(yù)測,調(diào)整后也可以用于分類。

GBDT的思想使其具有天然優(yōu)勢可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合。業(yè)界中,F(xiàn)acebook使用其來自動發(fā)現(xiàn)有效的特征、特征組合,來作為LR模型中的特征,以提高 CTR預(yù)估(Click-Through Rate Prediction)的準確性(詳見參考文獻5、6);GBDT在淘寶的搜索及預(yù)測業(yè)務(wù)上也發(fā)揮了重要作用(詳見參考文獻7)。

一、Regression Decision Tree:回歸樹

回歸樹總體流程類似于分類樹,區(qū)別在于,回歸樹的每一個節(jié)點都會得一個預(yù)測值,以年齡為例,該預(yù)測值等于屬于這個節(jié)點的所有人年齡的平均值。分枝時窮舉每一個feature的每個閾值找最好的分割點,但衡量最好的標準不再是最大熵,而是最小化平方誤差。也就是被預(yù)測出錯的人數(shù)越多,錯的越離譜,平方誤差就越大,通過最小化平方誤差能夠找到最可靠的分枝依據(jù)。分枝直到每個葉子節(jié)點上人的年齡都唯一或者達到預(yù)設(shè)的終止條件(如葉子個數(shù)上限),若最終葉子節(jié)點上人的年齡不唯一,則以該節(jié)點上所有人的平均年齡做為該葉子節(jié)點的預(yù)測年齡。(引用自一篇博客,詳見參考文獻3)

回歸樹示例

回歸樹算法如下圖(截圖來自《統(tǒng)計學(xué)習方法》5.5.1 CART生成):

 

回歸樹生成算法

二、Boosting Decision Tree:提升樹算法

提升樹是迭代多棵回歸樹來共同決策。當采用平方誤差損失函數(shù)時,每一棵回歸樹學(xué)習的是之前所有樹的結(jié)論和殘差,擬合得到一個當前的殘差回歸樹,殘差的意義如公式:殘差 = 真實值 – 預(yù)測值 。提升樹即是整個迭代過程生成的回歸樹的累加。

舉個例子,參考自一篇博客(參考文獻 4),該博客舉出的例子較直觀地展現(xiàn)出多棵決策樹線性求和過程以及殘差的意義。

訓(xùn)練一個提升樹模型來預(yù)測年齡:

訓(xùn)練集是4個人,A,B,C,D年齡分別是14,16,24,26。樣本中有購物金額、上網(wǎng)時長、經(jīng)常到百度知道提問等特征。提升樹的過程如下:

 

提升樹示例

該例子很直觀的能看到,預(yù)測值等于所有樹值得累加,如A的預(yù)測值 = 樹1左節(jié)點 值 15 + 樹2左節(jié)點 -1 = 14。

因此,給定當前模型 fm-1(x),只需要簡單的擬合當前模型的殘差。現(xiàn)將回歸問題的提升樹算法敘述如下:

 

提升樹算法

三、Gradient Boosting Decision Tree:梯度提升決策樹

提升樹利用加法模型和前向分步算法實現(xiàn)學(xué)習的優(yōu)化過程。當損失函數(shù)時平方損失和指數(shù)損失函數(shù)時,每一步的優(yōu)化很簡單,如平方損失函數(shù)學(xué)習殘差回歸樹。

 

損失函數(shù)列表

但對于一般的損失函數(shù),往往每一步優(yōu)化沒那么容易,如上圖中的絕對值損失函數(shù)和Huber損失函數(shù)。針對這一問題,F(xiàn)reidman提出了梯度提升算法:利用最速下降的近似方法,即利用損失函數(shù)的負梯度在當前模型的值,作為回歸問題中提升樹算法的殘差的近似值,擬合一個回歸樹。(注:鄙人私以為,與其說負梯度作為殘差的近似值,不如說殘差是負梯度的一種特例)算法如下(截圖來自《The Elements of Statistical Learning》):

梯度提升決策樹算法

 

算法步驟解釋:

1、初始化,估計使損失函數(shù)極小化的常數(shù)值,它是只有一個根節(jié)點的樹,即ganma是一個常數(shù)值。

2、

(a)計算損失函數(shù)的負梯度在當前模型的值,將它作為殘差的估計

(b)估計回歸樹葉節(jié)點區(qū)域,以擬合殘差的近似值

(c)利用線性搜索估計葉節(jié)點區(qū)域的值,使損失函數(shù)極小化

(d)更新回歸樹

3、得到輸出的最終模型 f(x)

四、重要參數(shù)的意義及設(shè)置

推薦GBDT樹的深度:6;(橫向比較:DecisionTree/RandomForest需要把樹的深度調(diào)到15或更高)

以下摘自知乎上的一個問答(詳見參考文獻8),問題和回復(fù)都很好的闡述了這個參數(shù)設(shè)置的數(shù)學(xué)原理。

【問】xgboost/gbdt在調(diào)參時為什么樹的深度很少就能達到很高的精度?

用xgboost/gbdt在在調(diào)參的時候把樹的最大深度調(diào)成6就有很高的精度了。但是用DecisionTree/RandomForest的時候需要把樹的深度調(diào)到15或更高。用RandomForest所需要的樹的深度和DecisionTree一樣我能理解,因為它是用bagging的方法把DecisionTree組合在一起,相當于做了多次DecisionTree一樣。但是xgboost/gbdt僅僅用梯度上升法就能用6個節(jié)點的深度達到很高的預(yù)測精度,使我驚訝到懷疑它是黑科技了。請問下xgboost/gbdt是怎么做到的?它的節(jié)點和一般的DecisionTree不同嗎?

【答】

這是一個非常好的問題,題主對各算法的學(xué)習非常細致透徹,問的問題也關(guān)系到這兩個算法的本質(zhì)。這個問題其實并不是一個很簡單的問題,我嘗試用我淺薄的機器學(xué)習知識對這個問題進行回答。

一句話的解釋,來自周志華老師的機器學(xué)習教科書( 機器學(xué)習-周志華):Boosting主要關(guān)注降低偏差,因此Boosting能基于泛化性能相當弱的學(xué)習器構(gòu)建出很強的集成;Bagging主要關(guān)注降低方差,因此它在不剪枝的決策樹、神經(jīng)網(wǎng)絡(luò)等學(xué)習器上效用更為明顯。

隨機森林(random forest)和GBDT都是屬于集成學(xué)習(ensemble learning)的范疇。集成學(xué)習下有兩個重要的策略Bagging和Boosting。

Bagging算法是這樣做的:每個分類器都隨機從原樣本中做有放回的采樣,然后分別在這些采樣后的樣本上訓(xùn)練分類器,然后再把這些分類器組合起來。簡單的多數(shù)投票一般就可以。其代表算法是隨機森林。Boosting的意思是這樣,他通過迭代地訓(xùn)練一系列的分類器,每個分類器采用的樣本分布都和上一輪的學(xué)習結(jié)果有關(guān)。其代表算法是AdaBoost, GBDT。

其實就機器學(xué)習算法來說,其泛化誤差可以分解為兩部分,偏差(bias)和方差(variance)。這個可由下圖的式子導(dǎo)出(這里用到了概率論公式D(X)=E(X^2)-[E(X)]^2)。偏差指的是算法的期望預(yù)測與真實預(yù)測之間的偏差程度,反應(yīng)了模型本身的擬合能力;方差度量了同等大小的訓(xùn)練集的變動導(dǎo)致學(xué)習性能的變化,刻畫了數(shù)據(jù)擾動所導(dǎo)致的影響。這個有點兒繞,不過你一定知道過擬合。

如下圖所示,當模型越復(fù)雜時,擬合的程度就越高,模型的訓(xùn)練偏差就越小。但此時如果換一組數(shù)據(jù)可能模型的變化就會很大,即模型的方差很大。所以模型過于復(fù)雜的時候會導(dǎo)致過擬合。

當模型越簡單時,即使我們再換一組數(shù)據(jù),最后得出的學(xué)習器和之前的學(xué)習器的差別就不那么大,模型的方差很小。還是因為模型簡單,所以偏差會很大。

 

模型復(fù)雜度與偏差方差的關(guān)系圖

也就是說,當我們訓(xùn)練一個模型時,偏差和方差都得照顧到,漏掉一個都不行。

對于Bagging算法來說,由于我們會并行地訓(xùn)練很多不同的分類器的目的就是降低這個方差(variance) ,因為采用了相互獨立的基分類器多了以后,h的值自然就會靠近.所以對于每個基分類器來說,目標就是如何降低這個偏差(bias),所以我們會采用深度很深甚至不剪枝的決策樹。

對于Boosting來說,每一步我們都會在上一輪的基礎(chǔ)上更加擬合原數(shù)據(jù),所以可以保證偏差(bias),所以對于每個基分類器來說,問題就在于如何選擇variance更小的分類器,即更簡單的分類器,所以我們選擇了深度很淺的決策樹。

五、拓展

最近引起關(guān)注的一個Gradient Boosting算法:xgboost,在計算速度和準確率上,較GBDT有明顯的提升。xgboost 的全稱是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一個c++實現(xiàn),作者為正在華盛頓大學(xué)研究機器學(xué)習的大牛陳天奇 。xgboost最大的特點在于,它能夠自動利用CPU的多線程進行并行,同時在算法上加以改進提高了精度。它的處女秀是Kaggle的 希格斯子信號識別競賽,因為出眾的效率與較高的預(yù)測準確度在比賽論壇中引起了參賽選手的廣泛關(guān)注。值得我們在GBDT的基礎(chǔ)上對其進一步探索學(xué)習。

參考文獻

1、《The Elements of Statistical Learning》

2、《統(tǒng)計學(xué)習方法》

3、 分類樹與回歸樹的區(qū)別

4、 迭代決策樹入門教程

5、 CTR預(yù)估中GBDT與LR融合方案

6、Treelink算法介紹

 

7、 為什么xgboost/gbdt在調(diào)參時為什么樹的深度很少就能達到很高的精度?

責任編輯:趙寧寧 來源: 36大數(shù)據(jù)
相關(guān)推薦

2022-11-11 08:00:00

決策樹機器學(xué)習監(jiān)督學(xué)習

2017-11-21 13:00:20

機器學(xué)習決策樹可視化

2022-12-21 14:39:35

機器學(xué)習案發(fā)決策樹

2018-02-02 15:50:07

決策樹Apache Spar數(shù)據(jù)

2019-05-15 09:00:00

決策樹機器學(xué)習人工智能

2016-11-14 15:04:35

大數(shù)據(jù)信用風險評估

2012-08-06 09:04:01

決策樹建模

2017-09-11 13:33:44

大數(shù)據(jù)數(shù)據(jù)可視化決策樹

2017-05-10 15:41:29

機器學(xué)習算法數(shù)據(jù)

2017-07-18 16:25:31

機器學(xué)習算法決策樹

2017-12-12 12:24:39

Python決策樹

2017-02-23 08:45:36

Python決策樹數(shù)據(jù)集

2022-01-24 09:00:00

機器學(xué)習決策樹算法

2023-08-11 17:30:54

決策樹機器學(xué)習算法

2017-10-18 14:11:20

機器學(xué)習決策樹隨機森林

2021-11-08 07:11:49

決策樹數(shù)據(jù)分類器

2024-09-11 08:34:28

2020-11-02 13:54:41

Python可視化決策樹

2023-03-06 16:07:19

梯度提升算法機器學(xué)習

2022-10-19 11:33:07

決策樹策略搜索
點贊
收藏

51CTO技術(shù)棧公眾號