自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么基于樹(shù)的模型在表格數(shù)據(jù)上仍然優(yōu)于深度學(xué)習(xí)

人工智能 深度學(xué)習(xí)
在這篇文章中,我將詳細(xì)解釋這篇論文《Why do tree-based models still outperform deep learning on tabular data》這篇論文解釋了一個(gè)被世界各地的機(jī)器學(xué)習(xí)從業(yè)者在各種領(lǐng)域觀察到的現(xiàn)象——基于樹(shù)的模型在分析表格數(shù)據(jù)方面比深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)好得多。

在這篇文章中,我將詳細(xì)解釋這篇論文《Why do tree-based models still outperform deep learning on tabular data》這篇論文解釋了一個(gè)被世界各地的機(jī)器學(xué)習(xí)從業(yè)者在各種領(lǐng)域觀察到的現(xiàn)象——基于樹(shù)的模型在分析表格數(shù)據(jù)方面比深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)好得多。

論文的注意事項(xiàng)

這篇論文進(jìn)行了大量的預(yù)處理。例如像刪除丟失的數(shù)據(jù)會(huì)阻礙樹(shù)的性能,但是隨機(jī)森林非常適合缺少數(shù)據(jù)的情況,如果你的數(shù)據(jù)非常雜亂:包含大量的特征和維度。RF的魯棒性和優(yōu)點(diǎn)使其優(yōu)于更“先進(jìn)”的解決方案,因?yàn)楹笳吆苋菀壮霈F(xiàn)問(wèn)題。

其余的大部分工作都很標(biāo)準(zhǔn)。我個(gè)人不太喜歡應(yīng)用太多的預(yù)處理技術(shù),因?yàn)檫@可能會(huì)導(dǎo)致失去數(shù)據(jù)集的許多細(xì)微差別,但論文中所采取的步驟基本上會(huì)產(chǎn)生相同的數(shù)據(jù)集。但是需要說(shuō)明的是,在評(píng)估最終結(jié)果時(shí)要使用相同的處理方法。

論文還使用隨機(jī)搜索來(lái)進(jìn)行超參數(shù)調(diào)優(yōu)。這也是行業(yè)標(biāo)準(zhǔn),但根據(jù)我的經(jīng)驗(yàn),貝葉斯搜索更適合在更廣泛的搜索空間中進(jìn)行搜索。

了解了這些就可以深入我們的主要問(wèn)題了——為什么基于樹(shù)的方法勝過(guò)深度學(xué)習(xí)?

1、神經(jīng)網(wǎng)絡(luò)偏向過(guò)于平滑的解決方案

這是作者分享深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)無(wú)法與隨機(jī)森林競(jìng)爭(zhēng)的第一個(gè)原因。 簡(jiǎn)而言之,當(dāng)涉及到非平滑函數(shù)/決策邊界時(shí),神經(jīng)網(wǎng)絡(luò)很難創(chuàng)建最適合的函數(shù)。 隨機(jī)森林在怪異/鋸齒/不規(guī)則模式下做得更好。

如果我來(lái)猜測(cè)原因的話(huà),可能是在神經(jīng)網(wǎng)絡(luò)中使用了梯度,而梯度依賴(lài)于可微的搜索空間,根據(jù)定義這些空間是平滑的,所以無(wú)法區(qū)分尖銳點(diǎn)和一些隨機(jī)函數(shù)。 所以我推薦學(xué)習(xí)諸如進(jìn)化算法、傳統(tǒng)搜索等更基本的概念等 AI 概念,因?yàn)檫@些概念可以在 NN 失敗時(shí)的各種情況下取得很好的結(jié)果。

有關(guān)基于樹(shù)的方法(RandomForests)和深度學(xué)習(xí)者之間決策邊界差異的更具體示例,請(qǐng)查看下圖 -

在附錄中,作者對(duì)上述可視化進(jìn)行了下面說(shuō)明:

在這一部分中,我們可以看到 RandomForest 能夠?qū)W習(xí) MLP 無(wú)法學(xué)習(xí)的 x 軸(對(duì)應(yīng)日期特征)上的不規(guī)則模式。 我們展示了默認(rèn)超參數(shù)的這種差異,這是神經(jīng)網(wǎng)絡(luò)的典型行為,但是實(shí)際上很難(盡管并非不可能)找到成功學(xué)習(xí)這些模式的超參數(shù)。

2、無(wú)信息特性會(huì)影響類(lèi)似mlp的神經(jīng)網(wǎng)絡(luò)

另一個(gè)重要因素,特別是對(duì)于那些同時(shí)編碼多個(gè)關(guān)系的大型數(shù)據(jù)集的情況。如果向神經(jīng)網(wǎng)絡(luò)輸入不相關(guān)的特征結(jié)果會(huì)很糟糕(而且你會(huì)浪費(fèi)更多的資源訓(xùn)練你的模型)。這就是為什么花大量時(shí)間在EDA/領(lǐng)域探索上是如此重要。這將有助于理解特性,并確保一切順利運(yùn)行。

論文的作者測(cè)試了模型在添加隨機(jī)和刪除無(wú)用特性時(shí)的性能?;谒麄兊慕Y(jié)果,發(fā)現(xiàn)了2個(gè)很有趣的結(jié)果

刪除大量特性減少了模型之間的性能差距。這清楚地表明,樹(shù)型模型的一大優(yōu)勢(shì)是它們能夠判斷特征是否有用并且能夠避免無(wú)用特征的影響。

與基于樹(shù)的方法相比,向數(shù)據(jù)集添加隨機(jī)特征表明神經(jīng)網(wǎng)絡(luò)的衰退要嚴(yán)重得多。ResNet尤其受到這些無(wú)用特性的影響。transformer的提升可能是因?yàn)槠渲械淖⒁饬C(jī)制在一定程度上會(huì)有一些幫助。

對(duì)這種現(xiàn)象的一種可能解釋是決策樹(shù)的設(shè)計(jì)方式。 任何學(xué)習(xí)過(guò) AI 課程的人都會(huì)知道決策樹(shù)中的信息增益和熵的概念。這使得決策樹(shù)能夠通過(guò)比較剩下的特性來(lái)選擇最佳的路徑。

回到正題,在表格數(shù)據(jù)方面,還有最后一件事使 RF 比 NN 表現(xiàn)更好。 那就是旋轉(zhuǎn)不變性。

3、NNs 是旋轉(zhuǎn)不變性的,但是實(shí)際數(shù)據(jù)卻不是

神經(jīng)網(wǎng)絡(luò)是旋轉(zhuǎn)不變的。 這意味著如果對(duì)數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)操作,它不會(huì)改變它們的性能。 旋轉(zhuǎn)數(shù)據(jù)集后,不同模型的性能和排名發(fā)生了很大的變化,雖然ResNets一直是最差的, 但是旋轉(zhuǎn)后他保持原來(lái)的表現(xiàn),而所有其他模型的變化卻很大。

這很現(xiàn)象非常有趣:旋轉(zhuǎn)數(shù)據(jù)集到底意味著什么?整個(gè)論文中也沒(méi)有詳細(xì)的細(xì)節(jié)說(shuō)明(我已經(jīng)聯(lián)系了作者,并將繼續(xù)跟進(jìn)這個(gè)現(xiàn)象)。如果有任何想法,也請(qǐng)?jiān)谠u(píng)論中分享。

但是這個(gè)操作讓我們看到為什么旋轉(zhuǎn)方差很重要。根據(jù)作者的說(shuō)法,采用特征的線(xiàn)性組合(這就是使ResNets不變的原因)實(shí)際上可能會(huì)錯(cuò)誤地表示特征及其關(guān)系。

通過(guò)對(duì)原始數(shù)據(jù)的編碼獲得最佳的數(shù)據(jù)偏差,這些最佳的偏差可能會(huì)混合具有非常不同的統(tǒng)計(jì)特性的特征并且不能通過(guò)旋轉(zhuǎn)不變的模型來(lái)恢復(fù),會(huì)為模型提供更好的性能。

總結(jié)

這是一篇非常有趣的論文,雖然深度學(xué)習(xí)在文本和圖像數(shù)據(jù)集上取得了巨大進(jìn)步,但它在表格數(shù)據(jù)上的基本沒(méi)有優(yōu)勢(shì)可言。論文使用了 45 個(gè)來(lái)自不同領(lǐng)域的數(shù)據(jù)集進(jìn)行測(cè)試,結(jié)果表明即使不考慮其卓越的速度,基于樹(shù)的模型在中等數(shù)據(jù)(~10K 樣本)上仍然是最先進(jìn)的。

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2022-08-01 10:36:37

機(jī)器學(xué)習(xí)數(shù)據(jù)模型

2024-06-26 10:50:35

2023-08-13 19:45:12

DNS

2020-09-16 10:02:08

神經(jīng)網(wǎng)絡(luò)樹(shù)模型

2021-03-08 11:28:59

人工智能深度學(xué)習(xí)Python

2023-08-11 10:58:04

深度學(xué)習(xí)自然語(yǔ)言檢索增強(qiáng)

2022-03-28 11:51:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)模型

2014-07-16 09:45:36

DOS

2017-08-08 16:38:50

IT敏捷devops

2023-10-30 07:24:18

IT項(xiàng)目DevOps

2012-05-02 15:56:20

PHP

2020-04-16 11:19:55

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)層

2022-02-14 13:59:47

數(shù)據(jù)數(shù)據(jù)孤島大數(shù)據(jù)

2022-03-28 18:59:02

DockerFlask深度學(xué)習(xí)

2021-03-02 16:25:13

手機(jī)iPhone安卓

2021-04-03 12:39:20

SQL數(shù)據(jù)庫(kù)編程語(yǔ)言

2016-12-23 09:09:54

TensorFlowKubernetes框架

2017-12-15 14:10:20

深度學(xué)習(xí)本質(zhì)邊緣識(shí)別

2021-06-25 11:19:04

LinuxWindows操作系統(tǒng)

2018-05-09 09:55:36

數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)