自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小白也看得懂的機器學(xué)習(xí)模型工作原理

人工智能 機器學(xué)習(xí)
本文中筆者將解釋什么是機器學(xué)習(xí)以及不同類型的機器學(xué)習(xí),再介紹常見的模型。本文里,筆者不會介紹任何數(shù)學(xué)運算,小白請放心食用。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)

很多面試官都喜歡問這個問題:“假設(shè)我是個5歲的小孩兒,請向我解釋[某項技術(shù)]。”給幼兒園的小朋友講清楚機器學(xué)習(xí)可能有點夸張,實際上這一問題的要求就是,盡可能簡單地解釋某一技術(shù)。

[[324730]]

這就是筆者在本文中嘗試做到的事。筆者將解釋什么是機器學(xué)習(xí)以及不同類型的機器學(xué)習(xí),再介紹常見的模型。本文里,筆者不會介紹任何數(shù)學(xué)運算,小白請放心食用。

對于沒有或幾乎沒有數(shù)據(jù)科學(xué)背景的成年人來說,它應(yīng)該是容易弄懂的(如果不能,請在評論區(qū)告訴我)。

機器學(xué)習(xí)的定義

小白也看得懂的機器學(xué)習(xí)模型工作原理

機器學(xué)習(xí)圖

機器學(xué)習(xí)是指將大量數(shù)據(jù)加載到計算機程序中并選擇一種模型“擬合”數(shù)據(jù),使得計算機(在無需你幫助的情況下)得出預(yù)測。計算機創(chuàng)建模型的方式是通過算法進行的,算法既包括簡單的方程式(如直線方程式),又包括非常復(fù)雜的邏輯/數(shù)學(xué)系統(tǒng),使計算機得出最佳預(yù)測。

機器學(xué)習(xí)恰如其名,一旦選擇要使用的模型并對其進行調(diào)整(也就是通過調(diào)整來改進模型),機器就會使用該模型來學(xué)習(xí)數(shù)據(jù)中的模式。然后,輸入新的條件(觀測值),它就能預(yù)測結(jié)果!

有監(jiān)督機器學(xué)習(xí)的定義

監(jiān)督學(xué)習(xí)是一種機器學(xué)習(xí),其中放入模型中的數(shù)據(jù)被“標(biāo)記”。簡單來說,標(biāo)記也就意味著觀察結(jié)果(也就是數(shù)據(jù)行)是已知的。

例如,如果你的模型正嘗試預(yù)測你的朋友是否會去打高爾夫球,那么可能會有溫度、星期幾等變量。如果你的數(shù)據(jù)被標(biāo)記,那么當(dāng)你的朋友真的去打高爾夫了,你也會有一個值為1的變量,當(dāng)他們沒有去打高爾夫,變量的值則為0。

無監(jiān)督機器學(xué)習(xí)的定義

在標(biāo)記數(shù)據(jù)時,無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)恰好相反。在無監(jiān)督學(xué)習(xí)的情況下,你不知道朋友是否會去打高爾夫球——這都由計算機通過模型找到模式來猜測已經(jīng)發(fā)生了什么或預(yù)測將會發(fā)生什么。

有監(jiān)督機器學(xué)習(xí)模型

1. 邏輯回歸

在遇到分類問題時,可使用邏輯回歸。這意味著目標(biāo)變量(也就是需要預(yù)測的變量)由不同類別組成。這些類別可以是“是/否”,也可以是代表客戶滿意度的1到10之間的數(shù)字。

邏輯回歸模型用方程式創(chuàng)建包含數(shù)據(jù)的曲線,然后用該曲線預(yù)測新觀測的結(jié)果。

小白也看得懂的機器學(xué)習(xí)模型工作原理

邏輯回歸圖

上圖中,新觀測值的預(yù)測值為0,因為它位于曲線的左側(cè)。如果查看此曲線上的數(shù)據(jù),就能解釋清楚了,因為圖中“預(yù)測值為0”的區(qū)域里,大多數(shù)數(shù)據(jù)點的y值都為0。

2. 線性回歸

線性回歸是人們通常知道的最早的機器學(xué)習(xí)模型之一。這是因為僅使用一個x變量時,它的算法(即幕后方程式)相對容易理解——畫出一條最適合的直線,這是小學(xué)階段教授的內(nèi)容。然后,這條最佳擬合線可以預(yù)測出新的數(shù)據(jù)點(參見下圖)。

小白也看得懂的機器學(xué)習(xí)模型工作原理

線性回歸圖

線性回歸與邏輯回歸類似,但是當(dāng)目標(biāo)變量連續(xù)時,才能使用線性回歸,這意味著線性回歸可以用任何數(shù)值。實際上,任何具有連續(xù)目標(biāo)變量的模型都可以歸類為“回歸”。連續(xù)變量的一個例子是房屋的售價。

線性回歸也很容易解釋。模型方程式包含每個變量的系數(shù),并且這些系數(shù)指示目標(biāo)變量隨著自變量(x變量)中的每個變化而變化的量。

以房價為例,這意味著你可以查看回歸方程式,并可能這樣說道:“哦,這告訴我,房屋面積(x變量)每增加1平方英尺,售價(目標(biāo)變量)就增加25美元。”

3. K近鄰算法(KNN)

該模型可用于分類或回歸!“K近鄰算法”這個名字并不會造成混淆。該模型首先要繪制出所有數(shù)據(jù)。其中,“ K”部分是指模型為了確定預(yù)測值應(yīng)使用的最鄰近數(shù)據(jù)點的數(shù)量(如下圖)。你可以選擇K,然后可以使用這些值來查看哪個值提供最佳預(yù)測。

小白也看得懂的機器學(xué)習(xí)模型工作原理

K近鄰算法圖

K = __圈中的所有數(shù)據(jù)點都可以對這個新數(shù)據(jù)點的目標(biāo)變量值進行“投票”。得票最多的那個值是KNN為新數(shù)據(jù)點預(yù)測的值。

上圖中,最近的點中有2個是1類,而1個是2類。因此,模型將為此數(shù)據(jù)點預(yù)測為1類。如果模型試圖預(yù)測數(shù)值而非類別,則所有“投票”都是取平均值的數(shù)值,從而獲得預(yù)測值。

4. 支持向量機

支持向量機在數(shù)據(jù)點之間建立邊界來運行,其中一類中的大多數(shù)落在邊界的一側(cè)(在2D情況下又稱為線),而另一類中的大多數(shù)落在另一側(cè)。

小白也看得懂的機器學(xué)習(xí)模型工作原理

支持向量機圖

其工作方式是機器力求找出具有最大邊距的邊界。邊距是指每個類的最近點與邊界之間的距離。然后繪制新的數(shù)據(jù)點,并根據(jù)它們落在邊界的哪一側(cè)將其分類。

筆者對此模型的解釋是根據(jù)分類情況來的,不過你也可以用SVM進行回歸。

5. 決策樹和隨機森林

[[324733]]

圖源:unsplash

無監(jiān)督機器學(xué)習(xí)模型

接著到了“深水區(qū)”,我們來看看無監(jiān)督學(xué)習(xí)。提醒一下,這意味著數(shù)據(jù)集未標(biāo)記,因此不知道觀察結(jié)果。

1. k均值聚類

在用K表示聚類時,必須首先假設(shè)數(shù)據(jù)集中有K個聚類。由于不知道數(shù)據(jù)中實際上有多少個組,因此必須嘗試不同的K值,并使用可視化和度量標(biāo)準(zhǔn)來查看哪個K值行得通。K表示最適合圓形和相似大小的聚類。

k均值聚類算法首先選擇最佳的K個數(shù)據(jù)點,以形成K個聚類中每個聚類的中心。然后,它對每個點重復(fù)以下兩個步驟:

  • 將數(shù)據(jù)點分配到最近的聚類中心
  • 通過獲取此聚類中所有數(shù)據(jù)點的平均值來創(chuàng)建一個新中心

小白也看得懂的機器學(xué)習(xí)模型工作原理

K均值聚類圖

2. DBSCAN聚類

DBSCAN聚類模型與K均值聚類的不同之處在于,它不需要輸入K的值,并且它還可以找到任何形狀的聚類。你無需指定聚類數(shù),而是輸入聚類中所需的最小數(shù)據(jù)點數(shù),并在數(shù)據(jù)點周圍半徑之內(nèi)搜索聚類。

DBSCAN將為您找到聚類,然后,你可以更改用于創(chuàng)建模型的值,直到獲得對數(shù)據(jù)集有意義的聚類為止。

小白也看得懂的機器學(xué)習(xí)模型工作原理

此外,DBSCAN模型會分類“噪聲”點(即,遠離所有其他觀測值的點)。數(shù)據(jù)點非??拷鼤r,此模型比K均值的效果更好。

3. 神經(jīng)網(wǎng)絡(luò)

在筆者看來,神經(jīng)網(wǎng)絡(luò)是最酷、最神秘的模型。它們之所以被稱為“神經(jīng)網(wǎng)絡(luò)”,是因為它們是根據(jù)我們大腦中神經(jīng)元的工作方式進行建模的。這些模型在數(shù)據(jù)集中尋找模式;有時它們會發(fā)現(xiàn)人類可能永遠無法識別的模式。

神經(jīng)網(wǎng)絡(luò)可以很好地處理圖像和音頻等復(fù)雜數(shù)據(jù)。從面部識別到文本分類,這些都是我們現(xiàn)在經(jīng)??吹降能浖澈蟮倪壿嬙?。

[[324735]]

圖源:unsplash

有時你可能會有困惑的地方,即使專家也無法完全理解為什么計算機得出這個結(jié)論。在某些情況下,我們在乎的只是它擅長預(yù)測!

不過有時我們會關(guān)心計算機如何得出其預(yù)測結(jié)果的,比如是否正在用模型來確定哪些求職者會獲得第一輪面試的機會。

希望本文能讓你加深對這些模型的理解,還能使你意識到它們是多么酷炫!

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2020-03-17 19:39:50

區(qū)塊鏈區(qū)塊鏈技術(shù)

2024-12-18 18:53:48

2022-01-20 08:49:24

OTDR光纖

2015-10-10 11:43:19

數(shù)據(jù)漫畫人才

2015-12-15 14:08:31

2025-04-14 00:00:00

MCPjson 信息地理編碼

2019-12-25 09:02:48

HTTPSHTTP安全

2022-08-16 21:01:56

runAsyncreload數(shù)據(jù)

2018-01-08 14:24:32

程序員段子工程師

2025-03-10 12:06:46

2022-06-06 08:02:21

ahooks架構(gòu)hooks

2020-05-19 09:11:20

機器學(xué)習(xí)技術(shù)數(shù)據(jù)

2020-10-28 07:08:03

Linux零拷貝內(nèi)核

2021-03-18 11:45:49

人工智能機器學(xué)習(xí)算法

2020-05-19 14:00:09

人工智能機器學(xué)習(xí)AI

2020-06-19 07:59:35

人工智能

2020-01-14 11:07:43

網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全技術(shù)周刊

2021-11-18 08:09:40

Python爬蟲Python基礎(chǔ)
點贊
收藏

51CTO技術(shù)棧公眾號