自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)都是什么?終于有人講明白了

人工智能 機(jī)器學(xué)習(xí)
本節(jié)概述機(jī)器學(xué)習(xí)及其三個(gè)分類(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))。首先,與機(jī)器學(xué)習(xí)相關(guān)的術(shù)語(yǔ)有人工智能(Artificial Intelligence,AI)、機(jī)器學(xué)習(xí)(Machine Learning,ML)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等,這里對(duì)這些術(shù)語(yǔ)進(jìn)行簡(jiǎn)單的整理。

 01 術(shù)語(yǔ)整理

本節(jié)概述機(jī)器學(xué)習(xí)及其三個(gè)分類(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))。首先,與機(jī)器學(xué)習(xí)相關(guān)的術(shù)語(yǔ)有人工智能(Artificial Intelligence,AI)、機(jī)器學(xué)習(xí)(Machine Learning,ML)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等,這里對(duì)這些術(shù)語(yǔ)進(jìn)行簡(jiǎn)單的整理。

[[337936]]

AI意味著人工智能,其定義因研究人員而異。從廣義上講,它指“像人類一樣具有智能的系統(tǒng)和配備這種系統(tǒng)的機(jī)器人”。實(shí)現(xiàn)AI的方法之一是機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)可以簡(jiǎn)單地描述為“向系統(tǒng)提供數(shù)據(jù)(稱為訓(xùn)練數(shù)據(jù)或?qū)W習(xí)數(shù)據(jù))并通過(guò)數(shù)據(jù)自動(dòng)確定系統(tǒng)的參數(shù)(變量值)”。相反,基于規(guī)則的系統(tǒng)是非機(jī)器學(xué)習(xí)系統(tǒng)的一個(gè)例子。在基于規(guī)則的系統(tǒng)中,由人類來(lái)清楚地定義分支條件的參數(shù),例如實(shí)現(xiàn)代碼中所存在的if語(yǔ)句等。

另一方面,機(jī)器學(xué)習(xí)自動(dòng)根據(jù)訓(xùn)練數(shù)據(jù)確定代碼中的參數(shù),以使系統(tǒng)運(yùn)行良好。之所以稱為機(jī)器學(xué)習(xí),正是因?yàn)橄到y(tǒng)能根據(jù)訓(xùn)練數(shù)據(jù)計(jì)算和確定系統(tǒng)運(yùn)行所需的參數(shù)。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種。機(jī)器學(xué)習(xí)可分為三大類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。我們稍后會(huì)討論這三個(gè)分類,這里只需要認(rèn)識(shí)到強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一部分即可。

接下來(lái)是深度學(xué)習(xí)。深度學(xué)習(xí)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的算法之一。機(jī)器學(xué)習(xí)的算法包括邏輯回歸、支持向量機(jī)(Support Vector Machine,SVM)、決策樹(shù)、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中的一種。

最后是深度強(qiáng)化學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。

 

02 監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)

這里對(duì)三種機(jī)器學(xué)習(xí)(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí))分別進(jìn)行介紹。

首先說(shuō)明監(jiān)督學(xué)習(xí)。

例如,“對(duì)郵政編碼中的手寫(xiě)數(shù)字進(jìn)行分類”是一種監(jiān)督學(xué)習(xí)。郵政編碼分類系統(tǒng)將每個(gè)數(shù)字的手寫(xiě)圖像分類為0~9中的一個(gè)。諸如0到9的數(shù)據(jù)的分類目標(biāo)被稱為標(biāo)簽或類。這種系統(tǒng)被稱為監(jiān)督學(xué)習(xí),因?yàn)榻o事先提供的訓(xùn)練數(shù)據(jù)預(yù)先標(biāo)記出了正確的標(biāo)簽。換句話說(shuō),帶標(biāo)簽的訓(xùn)練數(shù)據(jù)成了系統(tǒng)的教師。

監(jiān)督學(xué)習(xí)包括學(xué)習(xí)階段和推理階段。我們將以圖為例來(lái)解釋手寫(xiě)數(shù)字的分類(見(jiàn)圖1.1)。

 

監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)都是什么?終于有人講明白了

 

▲圖1.1 使用監(jiān)督學(xué)習(xí)區(qū)分手寫(xiě)數(shù)字的示例

在學(xué)習(xí)階段,準(zhǔn)備許多0到9的手寫(xiě)數(shù)字圖像數(shù)據(jù),這些數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)有一個(gè)標(biāo)簽(0到9中的某個(gè)數(shù)值),根據(jù)標(biāo)簽可以找到關(guān)于手寫(xiě)數(shù)字圖像的正確答案信息,例如“此手寫(xiě)數(shù)字圖像為1”。在學(xué)習(xí)階段,當(dāng)將手寫(xiě)數(shù)字圖像輸入系統(tǒng)時(shí),調(diào)整(學(xué)習(xí))系統(tǒng)的參數(shù)以盡量將輸入圖像分類為正確的標(biāo)簽。

在應(yīng)用階段,將無(wú)標(biāo)簽的未知手寫(xiě)數(shù)字圖像數(shù)據(jù)輸入系統(tǒng),圖像被分類為0到9中的某一個(gè)輸出標(biāo)簽并給出結(jié)果。如果已經(jīng)學(xué)習(xí)到正確的結(jié)果,當(dāng)輸入未知的手寫(xiě)數(shù)字圖像時(shí),系統(tǒng)將輸出正確的數(shù)值標(biāo)簽。除了手寫(xiě)數(shù)字的分類之外,還可使用監(jiān)督學(xué)習(xí)來(lái)對(duì)圖像、聲音和文本數(shù)據(jù)進(jìn)行分類。

此外,除了上面例子中提到的分類任務(wù),監(jiān)督學(xué)習(xí)也用于回歸等任務(wù)。

接下來(lái),介紹非監(jiān)督學(xué)習(xí)。用一個(gè)詞表達(dá)非監(jiān)督學(xué)習(xí)就是“分組”。它將大量數(shù)據(jù)中類似的數(shù)據(jù)分為一組(稱為聚類)。例如,“根據(jù)購(gòu)買數(shù)據(jù)對(duì)客戶進(jìn)行分組的系統(tǒng)”是非監(jiān)督學(xué)習(xí)。根據(jù)購(gòu)買歷史記錄的特征對(duì)客戶進(jìn)行分組,可以為每個(gè)組實(shí)施不同的銷售策略。

我們使用圖來(lái)說(shuō)明購(gòu)買數(shù)據(jù)分析的例子(見(jiàn)圖1.2)。假設(shè)存儲(chǔ)了每個(gè)客戶過(guò)去一年的購(gòu)買數(shù)量和每次平均消費(fèi)金額的數(shù)據(jù),并對(duì)此數(shù)據(jù)進(jìn)行分析。根據(jù)這些數(shù)據(jù),客戶可以分為兩組。A組(左上角)是以較低頻次購(gòu)買高價(jià)商品的組,B組(右下角)是多次重復(fù)但每次消費(fèi)金額較低的組。

 

監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)都是什么?終于有人講明白了

 

▲圖1.2 使用非監(jiān)督學(xué)習(xí)根據(jù)購(gòu)買數(shù)據(jù)對(duì)客戶分組的示例

使用非監(jiān)督學(xué)習(xí)進(jìn)行分組將有助于了解每個(gè)客戶所屬的組,并針對(duì)每個(gè)組實(shí)施優(yōu)秀銷售策略(盡管部分業(yè)務(wù)還需要更詳細(xì)的分析)。除了本例中提到的分組(聚類)以外,非監(jiān)督學(xué)習(xí)也用于降維和推薦系統(tǒng)。

最后,我們討論強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是一種主要用于“時(shí)變系統(tǒng)控制規(guī)則構(gòu)建”和“對(duì)戰(zhàn)博弈策略構(gòu)建”的方法。例如,強(qiáng)化學(xué)習(xí)用于機(jī)器人的步行控制和圍棋對(duì)戰(zhàn)程序(見(jiàn)圖1.3)。

 

 

▲圖1.3 強(qiáng)化學(xué)習(xí)示例(機(jī)器人步行控制和圍棋比賽系統(tǒng))

在我們熟悉的例子中,可能更容易想象一個(gè)孩子學(xué)會(huì)騎自行車的情形。當(dāng)一個(gè)孩子學(xué)習(xí)騎自行車時(shí),并沒(méi)有人去教其諸如牛頓力學(xué)等力學(xué)法則以及如何騎車的詳細(xì)方法,也不必通過(guò)觀看視頻來(lái)學(xué)習(xí)騎自行車。事實(shí)上,自己嘗試騎自行車,在多次失敗的過(guò)程中找到一種騎自行車的方法。

強(qiáng)化學(xué)習(xí)正如學(xué)騎自行車的例子,它是一種學(xué)習(xí)方法,它在不知道控制對(duì)象的物理定律的情況下重復(fù)試錯(cuò),以學(xué)習(xí)到所希望的控制方法。

強(qiáng)化學(xué)習(xí)中沒(méi)有帶標(biāo)簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),但這并不意味著根本沒(méi)有監(jiān)督信息。系統(tǒng)根據(jù)強(qiáng)化學(xué)習(xí)程序運(yùn)行,在獲得所需結(jié)果時(shí)給出稱為獎(jiǎng)勵(lì)的信號(hào)。例如,在機(jī)器人的步行控制中,可以走的距離就是獎(jiǎng)勵(lì)。在圍棋的比賽程序中,贏或輸?shù)慕Y(jié)果就是獎(jiǎng)勵(lì)。失敗時(shí)的獎(jiǎng)勵(lì)是負(fù)值,也稱為懲罰。

如果想通過(guò)監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)機(jī)器人的步行控制,就需要盡可能多的“如果腿的關(guān)節(jié)處于這個(gè)角度并且速度是某值,那么就像這樣轉(zhuǎn)動(dòng)電動(dòng)機(jī)A”這樣的模式,并預(yù)先給出其正確的做法。然而,當(dāng)機(jī)器人行走時(shí),對(duì)于每個(gè)時(shí)刻變化的狀態(tài),很難預(yù)先給出控制該電動(dòng)機(jī)的正確做法。

另一方面,在強(qiáng)化學(xué)習(xí)中,將行走距離作為獎(jiǎng)勵(lì)提供給步行控制系統(tǒng),并且重復(fù)試驗(yàn)多次。

這樣一來(lái),強(qiáng)化學(xué)習(xí)系統(tǒng)會(huì)根據(jù)重復(fù)試驗(yàn)和獲得的獎(jiǎng)勵(lì)自行改變控制規(guī)則,以“如果之前的試驗(yàn)中所做改變使我可以走得更遠(yuǎn),則這種改變是正確的”為基礎(chǔ)。因此,可以在不教導(dǎo)機(jī)器人如何行走的情況下讓機(jī)器人能漸漸行走更長(zhǎng)的距離。

即使在像圍棋這樣的對(duì)戰(zhàn)游戲的策略構(gòu)建中,也無(wú)須在每個(gè)階段將強(qiáng)者視為教師數(shù)據(jù)來(lái)進(jìn)行教導(dǎo),僅通過(guò)將成功或失敗作為獎(jiǎng)勵(lì)來(lái)重復(fù)試驗(yàn)即可。這樣做,強(qiáng)化學(xué)習(xí)系統(tǒng)會(huì)一點(diǎn)一點(diǎn)地改變游戲方式并變得更強(qiáng)。

學(xué)到的圍棋或?qū)⑵逑到y(tǒng)比設(shè)計(jì)者本人更強(qiáng)大,這一點(diǎn)通過(guò)強(qiáng)化學(xué)習(xí)可以很容易實(shí)現(xiàn)。只聽(tīng)這個(gè)解釋,強(qiáng)化學(xué)習(xí)就像魔術(shù),但在實(shí)踐中卻存在著種種困難。

強(qiáng)化學(xué)習(xí)主要適用于“時(shí)變系統(tǒng)控制規(guī)則構(gòu)建”和“對(duì)戰(zhàn)博弈策略構(gòu)建”,本書(shū)以前者“系統(tǒng)控制”為目標(biāo)任務(wù),通過(guò)編寫(xiě)相關(guān)程序來(lái)學(xué)習(xí)強(qiáng)化學(xué)習(xí)。

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2022-02-15 09:04:44

機(jī)器學(xué)習(xí)人工智能監(jiān)督學(xué)習(xí)

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2019-10-14 10:40:03

機(jī)器學(xué)習(xí)人工智能非監(jiān)督學(xué)習(xí)

2015-10-12 10:37:42

學(xué)習(xí)算法檢測(cè)

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2021-12-06 17:38:51

強(qiáng)化學(xué)習(xí)工具人工智能

2022-06-27 14:53:18

監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-07-23 09:55:59

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2022-03-25 10:35:20

機(jī)器學(xué)習(xí)深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2023-12-01 16:27:05

機(jī)器學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)

2022-06-14 07:07:57

網(wǎng)絡(luò)威脅無(wú)監(jiān)督數(shù)據(jù)泄露

2023-11-15 18:40:27

半監(jiān)督學(xué)習(xí)人工智能

2021-12-30 20:20:46

機(jī)器學(xué)習(xí)銷售語(yǔ)言

2022-05-13 11:05:00

網(wǎng)絡(luò)威脅無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)攻擊

2023-11-28 12:12:46

機(jī)器學(xué)習(xí)算法

2022-11-12 13:50:39

學(xué)習(xí)模型計(jì)算機(jī)算法

2022-05-17 16:38:40

數(shù)據(jù)訓(xùn)練

2019-03-29 14:10:35

無(wú)監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)