自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這幾個(gè)機(jī)器學(xué)習(xí)核心問題,不會數(shù)學(xué)也能搞定!

人工智能 機(jī)器學(xué)習(xí) 開發(fā)工具
人工智能已成為未來的趨勢,那么,如何用一種通俗易懂的方式闡述機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最重要的話題?

如何用一種通俗易懂的方式闡述機(jī)器學(xué)習(xí)和人工智能領(lǐng)域最重要的話題?

人工智能已成為未來的趨勢。汽車可以自動駕駛,計(jì)算機(jī)在圍棋比賽上打敗了人類,機(jī)器人也在搶走人類的工作。不久后,機(jī)器人將推翻人類的政府,奴役我們的后代……好吧,或許這并不會發(fā)生。但這樣也回避了問題的實(shí)質(zhì):人工智能的極限是什么?

[[267701]]

答案顯而易見——這取決于對人工智能的定義。如果將人工智能定義為只會下圍棋的電腦,那未來的圍棋程序會比現(xiàn)在更先進(jìn)。但可惜的是,沒有人會用這個(gè)定義。奔馳在宣傳他們的智能駕駛時(shí),大約不會是在談?wù)撍麄兊钠嚾绾蜗聡濉5催^來說,你可以像市場營銷人員那樣去定義人工智能——你們公司在產(chǎn)品中使用了人工智能,我們的產(chǎn)品也是。沒人清楚知道我們的產(chǎn)品是如何實(shí)現(xiàn)人工智能的,但它絕對不是人工智障,所以這就成了。

那么,到底什么是智能呢?經(jīng)過對人類大腦、心理學(xué),甚至螞蟻社會的大量研究,可以得出這樣的結(jié)論——智能包括兩個(gè)主要部分:第一,識別模式的能力;第二,運(yùn)用這些模式來實(shí)現(xiàn)目標(biāo)的能力。

對此有很多解釋,但有一個(gè)例子很清楚地說明了這一結(jié)論:想想那些非常聰明的人,比如說,在數(shù)學(xué)領(lǐng)域非常聰明的人。想象一下這類人在數(shù)學(xué)課上是不是都不太專心——為什么?因?yàn)樗?她知識吸收地非常快。他/她意識到了這一模式,并決定在剩下的課堂時(shí)間里不再集中注意力。這些人也可能很快完成作業(yè),因?yàn)樗?她善于將課堂上學(xué)到的知識(又稱模式)運(yùn)用到作業(yè)中。

這個(gè)定義也適用于其他類型的智能。例如,具有藝術(shù)才能的人似乎能夠識別出什么將會是好的藝術(shù),并利用這種直覺創(chuàng)造新的、好的藝術(shù)。如果這還沒有足夠的說服力,要知道,維基百科也為智能提供了一個(gè)類似的定義,你肯定不想和維基百科爭論,它可是互聯(lián)網(wǎng)上最可靠的知識來源。

來源:boredpanda.com

有一個(gè)專門研究算法的領(lǐng)域,它創(chuàng)建模型,從數(shù)據(jù)中提取模式,并將其應(yīng)用于其他數(shù)據(jù),這就是機(jī)器學(xué)習(xí)。有一個(gè)機(jī)器學(xué)習(xí)中最重要的概念之一——過度擬合。過度擬合只是一種花哨的說法,表示模型發(fā)現(xiàn)的模式過于復(fù)雜,導(dǎo)致預(yù)測未來點(diǎn)時(shí)出現(xiàn)問題。

機(jī)器學(xué)習(xí)

來源:wikipedia.org

假設(shè)你的任務(wù)是畫一條線將紅點(diǎn)和藍(lán)點(diǎn)分開,但是這些點(diǎn)的顏色可能是隨機(jī)性的,也就是數(shù)據(jù)有些混亂。黑線似乎是一個(gè)合理的解決方案,它并沒有正確地對所有的點(diǎn)進(jìn)行分類,但其似乎考慮到了邊界上的一些點(diǎn)是可以朝任何方向移動的。綠線成功地分離了所有的點(diǎn),但不同之處在于: 我們標(biāo)黃了一些區(qū)域,在這些區(qū)域里,如果是按照綠線劃分,一個(gè)新點(diǎn)會被歸為紅色,而如果是按照黑線劃分,一個(gè)新點(diǎn)會被歸為藍(lán)色。

機(jī)器學(xué)習(xí)

這肯定不是通過MicrosoftWord完成的??梢允褂脤I(yè)的軟件,比如Photoshop。

那么,相信大家會同意這一點(diǎn),即標(biāo)黃區(qū)域更可能包含藍(lán)色而不是紅色的點(diǎn)。這就是過度擬合——綠線在現(xiàn)有點(diǎn)(訓(xùn)練點(diǎn))上區(qū)分地比較好,但在新的點(diǎn)(測試點(diǎn))上卻區(qū)分地相對較差。

我們可以這樣說,產(chǎn)生綠線的模型在訓(xùn)練點(diǎn)上發(fā)現(xiàn)了太多的模式。這個(gè)模型太善于去發(fā)現(xiàn)模式,所以在應(yīng)用模式時(shí),沒有意識到其發(fā)現(xiàn)的模式可能并不適用于新的點(diǎn)。那么,最核心的問題在于發(fā)現(xiàn)哪些模式是有效的,哪些只是數(shù)據(jù)自身的干擾。

許多聰明的人試圖用一些非常巧妙的方法來解決這個(gè)問題,他們使用長方程和大量的希臘字母來防止模型找到像綠色這樣奇怪的線,這個(gè)步驟叫做正則化。無論是在訓(xùn)練過程中添加正則化,還是在模型本身中加入正則化,這些都是改進(jìn)機(jī)器學(xué)習(xí)的方法。

但其實(shí),我們略過了最重要的一步。在求助于復(fù)雜的數(shù)學(xué)之前,我們忘了問“為什么”。是的,總是有關(guān)于“為什么天空是藍(lán)色的”,或者“為什么我們存在于宇宙中”這樣的問題,但這些都不是這里提及的問題(不是你要尋找的問題)。我們更關(guān)心的是為什么智能在一般情況下是有效的。我們試圖去找出哪種模式能夠奏效,但還沒有確定為什么任何模式都奏效。為什么下一個(gè)點(diǎn)應(yīng)該是藍(lán)色或紅色;為什么不能是紫色的呢?

事實(shí)上,我們也不知道是誰第一個(gè)提出這個(gè)問題,但幸運(yùn)的是,都會有人自始至終決定要想出一個(gè)答案:之所以有些模式能奏效,是因?yàn)槔L制測試數(shù)據(jù)應(yīng)該獨(dú)立于訓(xùn)練數(shù)據(jù),并且兩者應(yīng)該來自相同的分布。這只是一種數(shù)學(xué)上的說法,測試模型時(shí),我們不應(yīng)該讓其受不同于訓(xùn)練時(shí)環(huán)境的影響。下一個(gè)點(diǎn)是紫色的可能性很小,是因?yàn)槲覀円呀?jīng)看到了很多點(diǎn),沒有一個(gè)是紫色的。畢竟,當(dāng)擲一個(gè)六面骰子時(shí),我們不能預(yù)計(jì)一半正面一半反面,但可以預(yù)計(jì)的是,如果以同樣的方式投擲相同的硬幣,應(yīng)該會得到類似的結(jié)果。借用一句勵志名言:“如果你總是在做一直在做的事情,就會得到一直在得到的東西。”

機(jī)器學(xué)習(xí)

好吧,這是由Microsoft Word完成的。

這與區(qū)分實(shí)際模式和過度擬合有什么關(guān)系呢? 如果你注意到上圖,過度擬合的主要原因是綠線模型試圖擬合了一些異常值。假設(shè)可以通過某種方式將這些點(diǎn)分組到不同的區(qū)域,其中一些區(qū)域包含異常值并且不符合找到的模式(黃色區(qū)域),而另一些區(qū)域包含確實(shí)符合找到的模式的點(diǎn)(綠色區(qū)域)。

直觀地說,“綠色”區(qū)域的范圍應(yīng)該更大,包含更多的點(diǎn),并且在預(yù)測未來的點(diǎn)時(shí)更準(zhǔn)確。換句話講,如果更多的點(diǎn)出現(xiàn)在“綠色”區(qū)域,我們預(yù)計(jì)它們是紅色的。另一方面,如果更多的點(diǎn)出現(xiàn)在“黃色”區(qū)域,雖然有些會是紅色的,我們會認(rèn)為大部分會是藍(lán)色的。

當(dāng)然,為了得到更多的點(diǎn),我們總是可以收集更多的數(shù)據(jù)。但有時(shí)候,你會發(fā)現(xiàn)自己只是一個(gè)貧窮的本科生,沒有別人擁有的經(jīng)費(fèi)、時(shí)間或資源。無論如何,有時(shí)收集更多的數(shù)據(jù)是不可行的。因此,與其這樣做,我們可以忽略部分訓(xùn)練數(shù)據(jù),并用被我們遺漏的點(diǎn)來“添加”點(diǎn)!

這也不是一個(gè)新概念——這是使用了驗(yàn)證集(我們在驗(yàn)證集中驗(yàn)證那些模型從訓(xùn)練集中找到的模式)。使用驗(yàn)證集來確定特定的過擬合區(qū)域是一種新方法。然而,人們沒有這樣做是有原因的。

“綠色”區(qū)域看起來很不錯,但首先,它們很難找到,其次,這些區(qū)域的構(gòu)建依賴于數(shù)據(jù)。簡單來說,有些區(qū)域明顯是“綠色”的,有些區(qū)域明顯是“黃色”的,但是有些區(qū)域很難確定顏色,因?yàn)檫@些區(qū)域是圍繞訓(xùn)練數(shù)據(jù)建立的。這個(gè)問題的解決方法依賴于與美國相同的基本原則。如果針對不同數(shù)據(jù)訓(xùn)練的兩個(gè)模型得到了相同的“黃色”區(qū)域,那就會很奇怪。

因此,對于第一個(gè)模型中不確定的區(qū)域,如果基于不同數(shù)據(jù)的模型來重復(fù)這個(gè)著色過程,便可以根據(jù)第二個(gè)模型來決定它們的顏色! 如果這個(gè)模型發(fā)現(xiàn)了相同的區(qū)域,那么我們可以非??隙ㄋ皇桥既话l(fā)現(xiàn)的,所以它應(yīng)該是“綠色“的。相反,如果第二個(gè)模型沒有找到該區(qū)域,那么很可能是干擾,應(yīng)該將其涂成“黃色”。

那么,要如何確定這些區(qū)域呢? 通過找集群! 你可能會問,什么是找集群?

機(jī)器學(xué)習(xí)

來源:wikiepdia.org

找集群就是在數(shù)據(jù)中找到集群。如圖所示,找集群就是在數(shù)據(jù)中找到三個(gè)集群。同一集群中的點(diǎn)看起來與模型相似。如果有多種方法可以轉(zhuǎn)換這些點(diǎn)并在模型中繪制(例如,在神經(jīng)網(wǎng)絡(luò)的每一層中),那么根據(jù)定義,在所有圖中處于相同集群中的點(diǎn)對模型來說是不可區(qū)分的。這很清晰——如果模型能夠區(qū)分它們,那么它們在某個(gè)時(shí)候就會在不同的集群中。無論如何,如果定義了這些總是在同一個(gè)集群中的點(diǎn)的位置,那么現(xiàn)在就有了各自的區(qū)域了!

機(jī)器學(xué)習(xí)就是尋找能夠分離點(diǎn)的算法(還有回歸)。算法傾向于找到綠線,因?yàn)檫@將最小化分類錯誤。機(jī)器學(xué)習(xí)的挑戰(zhàn)在于找到一種可以得到黑線的算法,因?yàn)檫@可能在新的點(diǎn)上更有效。正則化,也就是巧妙的數(shù)學(xué),幫助我們得到更接近黑線的東西。

責(zé)任編輯:趙寧寧 來源: 讀芯術(shù)
相關(guān)推薦

2020-12-07 10:59:01

Python數(shù)據(jù)工具

2022-12-27 10:35:20

TensorFlow

2021-02-06 23:00:39

機(jī)器學(xué)習(xí)工程人工智能

2022-02-10 08:07:41

機(jī)器學(xué)習(xí)低代碼開發(fā)

2015-09-15 14:44:37

大數(shù)據(jù)核心問題

2022-07-02 08:40:00

并發(fā)編程

2009-01-13 09:33:00

2022-05-31 09:42:49

工具編輯器

2023-11-08 08:43:08

calc函數(shù)CSS

2024-12-16 15:50:51

2019-10-10 09:34:19

Python網(wǎng)絡(luò)爬蟲GitHub

2021-09-16 15:06:33

漏洞管理漏洞網(wǎng)絡(luò)攻擊

2020-06-27 08:41:31

機(jī)器學(xué)習(xí)數(shù)學(xué)算法

2020-06-30 09:06:05

機(jī)器學(xué)習(xí)數(shù)學(xué)深度學(xué)習(xí)

2022-05-20 08:47:42

企業(yè)云安全云環(huán)境

2015-09-28 16:56:01

2016-01-15 14:48:56

2010-01-19 10:09:36

2025-02-10 11:11:47

2023-03-14 12:13:11

數(shù)據(jù)中心系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號