自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為你的回歸問題選擇最佳機器學(xué)習(xí)算法

存儲 存儲軟件 算法
沒有一個ML算法能夠最佳地適用于解決所有問題。不同ML算法的性能在很大程度上取決于數(shù)據(jù)的大小和結(jié)構(gòu)。因此,如何選擇正確的算法往往是一個大難題,除非我們直接通過大量的試驗和錯誤來測試我們的算法。

在處理任何類型的機器學(xué)習(xí)(ML)問題時,我們有許多不同的算法可供選擇。而機器學(xué)習(xí)領(lǐng)域有一個得到大家共識的觀點,大概就是:沒有一個ML算法能夠***地適用于解決所有問題。不同ML算法的性能在很大程度上取決于數(shù)據(jù)的大小和結(jié)構(gòu)。因此,如何選擇正確的算法往往是一個大難題,除非我們直接通過大量的試驗和錯誤來測試我們的算法。

[[238819]]

但是,每個ML算法都有一些優(yōu)點和缺點,我們可以將它們用作指導(dǎo)。雖然一種算法并不總是比另一種更好,但是我們可以使用每種算法的一些屬性作為快速選擇正確算法和調(diào)優(yōu)超參數(shù)的指南。我們將介紹一些用于回歸問題的著名ML算法,并根據(jù)它們的優(yōu)缺點設(shè)置使用它們的指導(dǎo)方針。這篇文章將幫助您為回歸問題選擇***的ML算法!

線性和多項式回歸

線性回歸

從簡單的情況開始。單變量線性回歸是一種用于使用線性模型例如一條線對單個輸入自變量(特征變量)和輸出因變量之間的關(guān)系進行建模的技術(shù)。更普遍的情況是多變量線性累加,其中為多個獨立輸入變量(特征變量)和輸出因變量之間的關(guān)系創(chuàng)建了一個模型。模型保持線性,因為輸出是輸入變量的線性組合。

第三種最普遍的情況叫做多項式回歸模型現(xiàn)在變成了特征變量的非線性組合,例如可以是指數(shù)變量,和余弦等,但這需要知道數(shù)據(jù)與輸出的關(guān)系?;貧w模型可以使用隨機梯度下降(SGD)進行訓(xùn)練。

優(yōu)點:

  • 快速建模,當(dāng)要建模的關(guān)系不是非常復(fù)雜,而且你沒有很多數(shù)據(jù)時,這是非常有用的。
  • 線性回歸很容易理解哪些對業(yè)務(wù)決策非常有用。

缺點:

  • 對于非線性數(shù)據(jù),多項式回歸的設(shè)計是非常具有挑戰(zhàn)性的,因為必須有一些關(guān)于數(shù)據(jù)結(jié)構(gòu)和特征變量之間關(guān)系的信息。
  • 因此,當(dāng)涉及到高度復(fù)雜的數(shù)據(jù)時,這些模型并不像其他模型那樣好。

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)由一組相互連接的被稱作神經(jīng)元的節(jié)點組成。數(shù)據(jù)中的輸入特征變量作為多變量線性組合傳遞給這些神經(jīng)元,其中每個特征變量乘以的值稱為權(quán)重。然后將非線性應(yīng)用于這種線性組合,使神經(jīng)網(wǎng)絡(luò)能夠建立復(fù)雜的非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)可以有多個層,其中一層的輸出以同樣的方式傳遞給下一層。在輸出端,通常不應(yīng)用非線性。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練使用隨機梯度下降(SGD)和反向傳播算法(兩者都顯示在上面的GIF中)。

優(yōu)點:

  • 由于神經(jīng)網(wǎng)絡(luò)可以有許多具有非線性的層(和參數(shù)),因此它們在建模高度復(fù)雜的非線性關(guān)系時非常有效。
  • 我們通常不需要擔(dān)心,神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)在學(xué)習(xí)任何類型的特征變量關(guān)系時都很靈活。
  • 研究表明,簡單地向網(wǎng)絡(luò)提供更多的訓(xùn)練數(shù)據(jù),無論是全新的,還是增加原始數(shù)據(jù)集,都有利于網(wǎng)絡(luò)性能。

缺點:

  • 由于這些模型的復(fù)雜性,它們并不容易解釋和理解。
  • 對于訓(xùn)練而言,它們可能具有相當(dāng)?shù)奶魬?zhàn)性和計算密集性,需要仔細(xì)進行超參數(shù)調(diào)整,設(shè)定學(xué)習(xí)進度計劃。
  • 它們需要大量的數(shù)據(jù)才能獲得高性能,在“小數(shù)據(jù)”情況下,它們往往會被其他ML算法超越。

回歸樹和隨機森林

隨機森林

從基本情況開始。決策樹是一種直觀的模型,通過一個遍歷樹的分支,并根據(jù)節(jié)點上的決策選擇下一個分支。樹誘導(dǎo)是將一組訓(xùn)練實例作為輸入的任務(wù),決定哪些屬性最適合拆分,分割數(shù)據(jù)集,并在產(chǎn)生的拆分?jǐn)?shù)據(jù)集上重復(fù)出現(xiàn),直到所有的訓(xùn)練實例都被分類為止。構(gòu)建樹時,目標(biāo)是對創(chuàng)建可能的***純度子節(jié)點的屬性進行分割,這將使對數(shù)據(jù)集中的所有實例進行分類時,需要進行的分割數(shù)量保持***。純度是由信息增益的概念來衡量的,這一概念涉及為了對其進行適當(dāng)?shù)姆诸悾枰獙σ粋€以前不可見的實例了解多少。在實踐中,通過比較熵,或?qū)Ξ?dāng)前數(shù)據(jù)集分區(qū)的單個實例進行分類所需的信息量,對單個實例進行分類,如果當(dāng)前的數(shù)據(jù)集分區(qū)要在給定的屬性上進一步分區(qū)的話。

隨機森林只是一組決策樹。輸入向量在多個決策樹中運行。對于回歸,取所有樹的輸出值的平均值;對于分類,使用投票方案來決定最終的類。

優(yōu)點:

  • 擅長學(xué)習(xí)復(fù)雜的、高度非線性的關(guān)系。它們通??梢赃_(dá)到相當(dāng)高的性能,比多項式回歸更好,而且通常與神經(jīng)網(wǎng)絡(luò)相當(dāng)。
  • 很容易解釋和理解。雖然最終的訓(xùn)練模型可以學(xué)習(xí)復(fù)雜的關(guān)系,但是在訓(xùn)練過程中建立的決策邊界是很容易理解和實用的。

缺點:

  • 由于訓(xùn)練決策樹的性質(zhì),它們可能傾向于主要的過度擬合。一個完整的決策樹模型可能過于復(fù)雜,包含不必要的結(jié)構(gòu)。雖然這有時可以通過適當(dāng)?shù)臉淠拘藜艉透蟮碾S機森林組合來緩解。
  • 使用更大的隨機森林組合來實現(xiàn)更高的性能帶來了速度慢和需要更多內(nèi)存的缺點。

***

希望你喜歡這篇文章,并學(xué)到一些新的和有用的東西。

 

責(zé)任編輯:武曉燕 來源: IT168
相關(guān)推薦

2017-02-28 14:17:03

機器學(xué)習(xí)算法

2023-04-04 08:00:00

LazyPredic機器學(xué)習(xí)ML模型

2022-03-17 17:08:05

機器學(xué)習(xí)算法類型

2020-11-06 13:09:59

的機器學(xué)習(xí)

2020-05-26 18:35:00

機器學(xué)習(xí)人工智能AI

2024-05-23 16:48:42

機器學(xué)習(xí)算法人工智能

2017-08-25 14:05:01

機器學(xué)習(xí)算法模型

2023-11-29 14:34:15

機器學(xué)習(xí)統(tǒng)計學(xué)

2020-12-19 10:54:25

機器學(xué)習(xí)線性回歸算法

2020-12-23 07:54:56

Python機器學(xué)習(xí)邏輯回歸算法

2018-07-03 15:26:35

算法機器學(xué)習(xí)數(shù)據(jù)

2023-11-28 12:08:56

機器學(xué)習(xí)算法人工智能

2017-05-25 11:14:21

機器學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)

2017-05-25 13:37:46

機器學(xué)習(xí)算法神經(jīng)網(wǎng)絡(luò)

2021-04-18 22:06:29

機器學(xué)習(xí)算法數(shù)據(jù)

2023-11-02 08:32:11

機器學(xué)習(xí)人工智能

2022-12-06 17:02:10

機器學(xué)習(xí)模型設(shè)置

2014-08-22 10:06:46

機器學(xué)習(xí)

2019-01-24 13:40:58

機器學(xué)習(xí)深度學(xué)習(xí)人工智能

2017-05-31 09:12:51

機器學(xué)習(xí)算法數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號