自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

人工智能 機(jī)器學(xué)習(xí) 算法
本文不僅試圖解釋算法的工作原理,而且要直觀地理解算法的工作原理,以提供這種燈泡啊哈! 時刻。

大多數(shù)人都在兩個營地中:

  • 我不了解這些機(jī)器學(xué)習(xí)算法。
  • 我了解算法的工作原理,但不了解其工作原理。

本文不僅試圖解釋算法的工作原理,而且要直觀地理解算法的工作原理,以提供這種燈泡啊哈! 時刻。

[[348334]]

決策樹

決策樹使用水平線和垂直線劃分要素空間。 例如,考慮下面一個非常簡單的決策樹,該決策樹具有一個條件節(jié)點和兩個類節(jié)點,指示一個條件以及滿足該條件的訓(xùn)練點將屬于哪個類別。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

請注意,標(biāo)記為每種顏色的字段與該區(qū)域內(nèi)實際上是該顏色或(大致)熵的數(shù)據(jù)點之間存在很多重疊。 構(gòu)造決策樹以最小化熵。 在這種情況下,我們可以增加一層復(fù)雜性。 如果要添加另一個條件; 如果x小于6,y大于6,我們可以將該區(qū)域中的點指定為紅色。 此舉降低了熵。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

在每個步驟中,決策樹算法都會嘗試找到一種構(gòu)建樹的方法,以使熵最小化。 將熵更正式地看作是某個分隔線(條件)所具有的"混亂"或"混亂",而與"信息增益"相反的是,分隔線為模型增加了多少信息和洞察力。 具有最高信息增益(以及最低熵)的要素拆分位于頂部。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

條件可能會將其一維特征分解為如下形式:

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

請注意,條件1具有清晰的分隔,因此熵低且信息增益高。 條件3不能說相同,這就是為什么它位于決策樹底部附近的原因。 樹的這種構(gòu)造確保其可以保持盡可能輕巧。

您可以在此處閱讀有關(guān)熵及其在決策樹以及神經(jīng)網(wǎng)絡(luò)(交叉熵作為損失函數(shù))中的用法的更多信息。

隨機(jī)森林

隨機(jī)森林是決策樹的袋裝(引導(dǎo)聚合)版本。 主要思想是對數(shù)個決策樹分別訓(xùn)練一個數(shù)據(jù)子集。 然后,輸入通過每個模型,并且它們的輸出通過類似平均值的函數(shù)進(jìn)行匯總以產(chǎn)生最終輸出。 套袋是組合學(xué)習(xí)的一種形式。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

您需要確定下一家餐廳。 要向某人提出建議,您必須回答各種是/否問題,這將使他們做出您應(yīng)該去哪家餐廳的決定。

您愿意只問一個朋友還是問幾個朋友,然后找到方式或普遍共識?

除非您只有一個朋友,否則大多數(shù)人都會回答第二個。 該類比提供的見解是,每棵樹都有某種"思維多樣性",因為它們是在不同的數(shù)據(jù)上訓(xùn)練的,因此具有不同的"體驗"。

這種類比,干凈和簡單,從來沒有真正讓我脫穎而出。 在現(xiàn)實世界中,單朋友選項的經(jīng)驗少于所有朋友,但在機(jī)器學(xué)習(xí)中,決策樹和隨機(jī)森林模型是在相同的數(shù)據(jù)上訓(xùn)練的,因此也具有相同的體驗。 集成模型實際上沒有接收任何新信息。 如果我可以向一個全知的朋友提出建議,我不會反對。

在相同數(shù)據(jù)上訓(xùn)練的模型如何隨機(jī)抽取數(shù)據(jù)子集以模擬人為的"多樣性",其效果如何比在整個數(shù)據(jù)上訓(xùn)練的模型更好?

拍攝正弦波,并帶有大量正態(tài)分布的噪聲。 這是您的單個決策樹分類器,它自然是一個高方差模型。

將選擇100個"近似值"。 這些逼近器沿正弦波隨機(jī)選擇點并生成正弦曲線擬合,就像在數(shù)據(jù)子集上訓(xùn)練決策樹一樣。 然后將這些擬合平均,以形成袋裝曲線。 結(jié)果? -更平滑的曲線。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

套袋有效的原因在于,它通過人為地使模型更具"信心",從而減少了模型的差異并有助于提高泛化能力。 這也就是為什么裝袋在諸如Logistic回歸之類的低方差模型中效果不佳的原因。

您可以在這里閱讀更多關(guān)于直覺的信息,以及關(guān)于套袋成功的更嚴(yán)格的證明。

支持向量機(jī)

支持向量機(jī)依靠"支持向量"的概念來最大化兩個類別之間的距離,試圖找到一種可以最好地劃分?jǐn)?shù)據(jù)的超平面。

不幸的是,大多數(shù)數(shù)據(jù)集并不是那么容易分離,如果能夠分離,SVM可能不是處理它的最佳算法。 考慮此一維分離任務(wù); 沒有良好的分隔符,因為任何一種分隔都會導(dǎo)致將兩個獨立的類歸為同一類。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

> One proposal for a split.

SVM通過使用所謂的"內(nèi)核技巧"來強(qiáng)大地解決此類問題,該技巧將數(shù)據(jù)投影到新的維度上,從而簡化了分離任務(wù)。 例如,讓我們創(chuàng)建一個新的尺寸,將其簡單定義為x²(x是原始尺寸):

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

現(xiàn)在,將數(shù)據(jù)投影到新的維度(每個數(shù)據(jù)點以兩個維度表示為(x,x²))之后,數(shù)據(jù)就可以清晰地分離了。

使用各種內(nèi)核(最常見的是多項式,Sigmoid和RBF內(nèi)核),內(nèi)核技巧使繁重的工作創(chuàng)造了一個轉(zhuǎn)換后的空間,從而使分離任務(wù)變得簡單。

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的頂峰。 他們的發(fā)現(xiàn)以及對它的無窮變化和改進(jìn)使它成為了自己領(lǐng)域的主題,即深度學(xué)習(xí)。 誠然,神經(jīng)網(wǎng)絡(luò)的成功仍然是不完整的("神經(jīng)網(wǎng)絡(luò)是沒人能理解的矩陣乘法"),但是最簡單的解釋方法是通過通用近似定理(UAT)。

每種監(jiān)督算法的核心都是試圖對數(shù)據(jù)的某些基礎(chǔ)功能進(jìn)行建模。 通常這是一個回歸平面或特征邊界。 考慮這個函數(shù)y =x²,可以用幾個水平步長將其建模為任意精度。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

這本質(zhì)上就是神經(jīng)網(wǎng)絡(luò)可以做的。 也許除了水平步長之外,模型關(guān)系可能會更復(fù)雜一些(例如下面的二次和線性線),但是神經(jīng)網(wǎng)絡(luò)的核心是分段函數(shù)逼近器。

啊哈,原來如此!4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

每個節(jié)點都委托給分段功能的一部分,網(wǎng)絡(luò)的目的是激活負(fù)責(zé)部分特征空間的某些神經(jīng)元。 例如,如果要對有胡須或沒有胡須的男人的圖像進(jìn)行分類,則應(yīng)將幾個節(jié)點專門委派給經(jīng)常出現(xiàn)胡須的像素位置。 在多維空間中的某個位置,這些節(jié)點表示一個數(shù)值范圍。

再次注意,"神經(jīng)網(wǎng)絡(luò)為什么起作用"的問題仍然沒有得到回答。 UAT并未回答這個問題,但指出在某些人類的解釋下,神經(jīng)網(wǎng)絡(luò)可以為任何功能建模。 可解釋/可解釋AI的領(lǐng)域正在涌現(xiàn),以通過激活最大化和敏感性分析等方法來回答這些問題。

您可以在此處閱讀更深入的解釋并查看通用近似定理的可視化。

在所有四種算法以及許多其他算法中,這些算法在低維情況下看起來都非常簡單。 機(jī)器學(xué)習(xí)的一個關(guān)鍵實現(xiàn)是,我們聲稱在AI中看到的許多"魔術(shù)"和"智能"實際上是一個隱藏在高維偽裝下的簡單算法。

將區(qū)域劃分為正方形的決策樹很簡單,但是將高維空間劃分為超立方體的決策樹卻不那么容易。 SVM執(zhí)行內(nèi)核技巧以提高一維到二維的可分離性是可以理解的,但是SVM在數(shù)百個大維數(shù)據(jù)集上執(zhí)行相同的操作幾乎是神奇的。

我們對機(jī)器學(xué)習(xí)的欽佩和困惑是基于我們對高維空間缺乏了解。 學(xué)習(xí)如何解決高維問題并了解本機(jī)空間中的算法,有助于直觀理解。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2017-09-15 18:13:57

機(jī)器學(xué)習(xí)深度學(xué)習(xí)語音識別

2010-08-25 21:50:36

配置DHCP

2009-04-29 01:39:57

破解美萍萬象

2024-07-25 09:20:00

地圖場景

2018-01-05 12:39:23

網(wǎng)吧電腦故障

2024-10-14 13:07:40

Spring框架Boot

2020-03-09 17:46:49

AMD7nmN7P

2023-06-06 07:08:27

網(wǎng)絡(luò)防火墻應(yīng)用網(wǎng)關(guān)

2022-12-06 07:24:26

2012-07-04 13:36:08

無線網(wǎng)絡(luò)H3C

2022-09-27 07:00:58

QoS服務(wù)帶寬

2020-10-27 11:01:40

5G網(wǎng)絡(luò)移動

2022-10-08 00:00:04

網(wǎng)絡(luò)快捷支付TCP

2023-05-30 07:48:25

2020-07-28 08:06:24

機(jī)器學(xué)習(xí)技術(shù)人工智能

2023-06-13 07:29:22

2020-12-17 07:57:18

機(jī)器學(xué)習(xí)算法

2023-11-02 08:32:11

機(jī)器學(xué)習(xí)人工智能

2022-01-12 23:42:48

網(wǎng)頁復(fù)制鼠標(biāo)

2020-05-11 10:15:41

人工智能AI器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號