自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

作者：聞數(shù)起舞 2020-10-26 07:03:35

人工智能機(jī)器學(xué)習(xí) 算法

本文不僅試圖解釋算法的工作原理，而且要直觀地理解算法的工作原理，以提供這種燈泡啊哈! 時刻。

大多數(shù)人都在兩個營地中：

我不了解這些機(jī)器學(xué)習(xí)算法。
我了解算法的工作原理，但不了解其工作原理。

本文不僅試圖解釋算法的工作原理，而且要直觀地理解算法的工作原理，以提供這種燈泡啊哈! 時刻。

決策樹

決策樹使用水平線和垂直線劃分要素空間。例如，考慮下面一個非常簡單的決策樹，該決策樹具有一個條件節(jié)點和兩個類節(jié)點，指示一個條件以及滿足該條件的訓(xùn)練點將屬于哪個類別。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

請注意，標(biāo)記為每種顏色的字段與該區(qū)域內(nèi)實際上是該顏色或(大致)熵的數(shù)據(jù)點之間存在很多重疊。構(gòu)造決策樹以最小化熵。在這種情況下，我們可以增加一層復(fù)雜性。如果要添加另一個條件; 如果x小于6，y大于6，我們可以將該區(qū)域中的點指定為紅色。此舉降低了熵。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

在每個步驟中，決策樹算法都會嘗試找到一種構(gòu)建樹的方法，以使熵最小化。將熵更正式地看作是某個分隔線(條件)所具有的"混亂"或"混亂"，而與"信息增益"相反的是，分隔線為模型增加了多少信息和洞察力。具有最高信息增益(以及最低熵)的要素拆分位于頂部。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

條件可能會將其一維特征分解為如下形式：

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

請注意，條件1具有清晰的分隔，因此熵低且信息增益高。條件3不能說相同，這就是為什么它位于決策樹底部附近的原因。樹的這種構(gòu)造確保其可以保持盡可能輕巧。

您可以在此處閱讀有關(guān)熵及其在決策樹以及神經(jīng)網(wǎng)絡(luò)(交叉熵作為損失函數(shù))中的用法的更多信息。

隨機(jī)森林

隨機(jī)森林是決策樹的袋裝(引導(dǎo)聚合)版本。主要思想是對數(shù)個決策樹分別訓(xùn)練一個數(shù)據(jù)子集。然后，輸入通過每個模型，并且它們的輸出通過類似平均值的函數(shù)進(jìn)行匯總以產(chǎn)生最終輸出。套袋是組合學(xué)習(xí)的一種形式。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

您需要確定下一家餐廳。要向某人提出建議，您必須回答各種是/否問題，這將使他們做出您應(yīng)該去哪家餐廳的決定。

您愿意只問一個朋友還是問幾個朋友，然后找到方式或普遍共識?

除非您只有一個朋友，否則大多數(shù)人都會回答第二個。該類比提供的見解是，每棵樹都有某種"思維多樣性"，因為它們是在不同的數(shù)據(jù)上訓(xùn)練的，因此具有不同的"體驗"。

這種類比，干凈和簡單，從來沒有真正讓我脫穎而出。在現(xiàn)實世界中，單朋友選項的經(jīng)驗少于所有朋友，但在機(jī)器學(xué)習(xí)中，決策樹和隨機(jī)森林模型是在相同的數(shù)據(jù)上訓(xùn)練的，因此也具有相同的體驗。集成模型實際上沒有接收任何新信息。如果我可以向一個全知的朋友提出建議，我不會反對。

在相同數(shù)據(jù)上訓(xùn)練的模型如何隨機(jī)抽取數(shù)據(jù)子集以模擬人為的"多樣性"，其效果如何比在整個數(shù)據(jù)上訓(xùn)練的模型更好?

拍攝正弦波，并帶有大量正態(tài)分布的噪聲。這是您的單個決策樹分類器，它自然是一個高方差模型。

將選擇100個"近似值"。這些逼近器沿正弦波隨機(jī)選擇點并生成正弦曲線擬合，就像在數(shù)據(jù)子集上訓(xùn)練決策樹一樣。然后將這些擬合平均，以形成袋裝曲線。結(jié)果? -更平滑的曲線。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

套袋有效的原因在于，它通過人為地使模型更具"信心"，從而減少了模型的差異并有助于提高泛化能力。這也就是為什么裝袋在諸如Logistic回歸之類的低方差模型中效果不佳的原因。

您可以在這里閱讀更多關(guān)于直覺的信息，以及關(guān)于套袋成功的更嚴(yán)格的證明。

支持向量機(jī)

支持向量機(jī)依靠"支持向量"的概念來最大化兩個類別之間的距離，試圖找到一種可以最好地劃分?jǐn)?shù)據(jù)的超平面。

不幸的是，大多數(shù)數(shù)據(jù)集并不是那么容易分離，如果能夠分離，SVM可能不是處理它的最佳算法。考慮此一維分離任務(wù); 沒有良好的分隔符，因為任何一種分隔都會導(dǎo)致將兩個獨立的類歸為同一類。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

> One proposal for a split.

SVM通過使用所謂的"內(nèi)核技巧"來強(qiáng)大地解決此類問題，該技巧將數(shù)據(jù)投影到新的維度上，從而簡化了分離任務(wù)。例如，讓我們創(chuàng)建一個新的尺寸，將其簡單定義為x²(x是原始尺寸)：

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

現(xiàn)在，將數(shù)據(jù)投影到新的維度(每個數(shù)據(jù)點以兩個維度表示為(x，x²))之后，數(shù)據(jù)就可以清晰地分離了。

使用各種內(nèi)核(最常見的是多項式，Sigmoid和RBF內(nèi)核)，內(nèi)核技巧使繁重的工作創(chuàng)造了一個轉(zhuǎn)換后的空間，從而使分離任務(wù)變得簡單。

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的頂峰。他們的發(fā)現(xiàn)以及對它的無窮變化和改進(jìn)使它成為了自己領(lǐng)域的主題，即深度學(xué)習(xí)。誠然，神經(jīng)網(wǎng)絡(luò)的成功仍然是不完整的("神經(jīng)網(wǎng)絡(luò)是沒人能理解的矩陣乘法")，但是最簡單的解釋方法是通過通用近似定理(UAT)。

每種監(jiān)督算法的核心都是試圖對數(shù)據(jù)的某些基礎(chǔ)功能進(jìn)行建模。通常這是一個回歸平面或特征邊界。考慮這個函數(shù)y =x²，可以用幾個水平步長將其建模為任意精度。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

這本質(zhì)上就是神經(jīng)網(wǎng)絡(luò)可以做的。也許除了水平步長之外，模型關(guān)系可能會更復(fù)雜一些(例如下面的二次和線性線)，但是神經(jīng)網(wǎng)絡(luò)的核心是分段函數(shù)逼近器。

啊哈，原來如此！4種流行的機(jī)器學(xué)習(xí)算法的頓悟時刻

每個節(jié)點都委托給分段功能的一部分，網(wǎng)絡(luò)的目的是激活負(fù)責(zé)部分特征空間的某些神經(jīng)元。例如，如果要對有胡須或沒有胡須的男人的圖像進(jìn)行分類，則應(yīng)將幾個節(jié)點專門委派給經(jīng)常出現(xiàn)胡須的像素位置。在多維空間中的某個位置，這些節(jié)點表示一個數(shù)值范圍。

再次注意，"神經(jīng)網(wǎng)絡(luò)為什么起作用"的問題仍然沒有得到回答。 UAT并未回答這個問題，但指出在某些人類的解釋下，神經(jīng)網(wǎng)絡(luò)可以為任何功能建模。可解釋/可解釋AI的領(lǐng)域正在涌現(xiàn)，以通過激活最大化和敏感性分析等方法來回答這些問題。

您可以在此處閱讀更深入的解釋并查看通用近似定理的可視化。

在所有四種算法以及許多其他算法中，這些算法在低維情況下看起來都非常簡單。機(jī)器學(xué)習(xí)的一個關(guān)鍵實現(xiàn)是，我們聲稱在AI中看到的許多"魔術(shù)"和"智能"實際上是一個隱藏在高維偽裝下的簡單算法。

將區(qū)域劃分為正方形的決策樹很簡單，但是將高維空間劃分為超立方體的決策樹卻不那么容易。 SVM執(zhí)行內(nèi)核技巧以提高一維到二維的可分離性是可以理解的，但是SVM在數(shù)百個大維數(shù)據(jù)集上執(zhí)行相同的操作幾乎是神奇的。

我們對機(jī)器學(xué)習(xí)的欽佩和困惑是基于我們對高維空間缺乏了解。學(xué)習(xí)如何解決高維問題并了解本機(jī)空間中的算法，有助于直觀理解。

責(zé)任編輯：趙寧寧來源：今日頭條

機(jī)器學(xué)習(xí)算法

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="o14p2"></blockquote>

<blockquote id="o14p2"><mark id="o14p2"></mark></blockquote>