自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何向普通人解釋機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘

人工智能 機(jī)器學(xué)習(xí)
隨著數(shù)據(jù)科學(xué)在人工智能發(fā)展中大放異彩,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)進(jìn)入了越來(lái)越多人的視野。而對(duì)于很多人來(lái)說(shuō),諸如機(jī)器學(xué)習(xí)之類的名次聽(tīng)起來(lái)是神乎其技,但其真正的內(nèi)涵卻不為一般人所知。那么到底什么是機(jī)器學(xué)習(xí),如何用通俗易懂的語(yǔ)言來(lái)解釋?我們通過(guò)以下幾重境界來(lái)解釋。

[[210849]]

隨著數(shù)據(jù)科學(xué)在人工智能發(fā)展中大放異彩,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)進(jìn)入了越來(lái)越多人的視野。而對(duì)于很多人來(lái)說(shuō),諸如機(jī)器學(xué)習(xí)之類的名次聽(tīng)起來(lái)是神乎其技,但其真正的內(nèi)涵卻不為一般人所知。

特別是對(duì)于從事數(shù)據(jù)科學(xué)領(lǐng)域的人來(lái)說(shuō),如何向外行人解釋自己所從事的工作幾乎是一個(gè)超級(jí)難題。那么到底什么是機(jī)器學(xué)習(xí),如何用通俗易懂的語(yǔ)言來(lái)解釋?我們通過(guò)以下幾重境界來(lái)解釋。

一、專業(yè)理論型

百科定義+專業(yè)術(shù)語(yǔ),讓人聽(tīng)起來(lái)不明覺(jué)厲,實(shí)則一臉懵逼

機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。

它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。

機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐、證券市場(chǎng)分析、DNA序列測(cè)序、語(yǔ)音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用。

機(jī)器學(xué)習(xí)從本質(zhì)上來(lái)說(shuō)是一種學(xué)習(xí)結(jié)構(gòu), 整個(gè)結(jié)構(gòu)包括環(huán)境、知識(shí)庫(kù)和執(zhí)行三個(gè)部分。 在整個(gè)過(guò)程中,環(huán)境向系統(tǒng)提供信息,系統(tǒng)利用這些信息修改知識(shí)庫(kù),以增進(jìn)系統(tǒng)執(zhí)行部分完成任務(wù)的效能,執(zhí)行部分根據(jù)知識(shí)庫(kù)完成任務(wù),同時(shí)把獲得的信息反饋給學(xué)習(xí)部分,從而繼續(xù)改進(jìn)知識(shí)庫(kù)。

在具體的應(yīng)用中,環(huán)境、知識(shí)和執(zhí)行部分決定了具體的工作內(nèi)容,學(xué)習(xí)部分所需要解決的問(wèn)題完全由上述三部分確定。 簡(jiǎn)單來(lái)說(shuō),機(jī)器學(xué)習(xí)就是計(jì)算機(jī)利用已有的數(shù)據(jù),得出了某種模型,并利用此模型預(yù)測(cè)未來(lái)的一種方法, 這與人腦的思考方式非常類似。

 

二、以小見(jiàn)大型

以某種機(jī)器學(xué)習(xí)具體的案例來(lái)說(shuō)明,讓人恍然大悟

一開(kāi)始我們先來(lái)看一個(gè)人為設(shè)計(jì)的場(chǎng)景。假設(shè)一個(gè)房間里神奇地漂浮著無(wú)數(shù)個(gè)小球。我們想搞清楚這些小球停留的位置是否存在著一種特定的結(jié)構(gòu)。比方說(shuō),小球是不是更易集中在某一特定區(qū)域?是不是故意避開(kāi)某些點(diǎn)位?它們是均勻分布于整個(gè)空間嗎?

但是房間一片漆黑,我們什么也看不見(jiàn)。于是我們找來(lái)了一部帶閃光燈的照相機(jī),想把漂浮在整個(gè)房間的小球都拍下來(lái)。照片猶如下圖一樣:

 

就算小球的位置之間確實(shí)存在某種聯(lián)系,從這張照片上我們也看不出個(gè)所以然。看上去小球就像是均勻分布的一樣。所以我們嘗試著換了下位置,從新的角度拍下了第二張照片。

 

照片上的小球看起來(lái)還是隨機(jī)分布的,沒(méi)有任何規(guī)律。讓我們換個(gè)高點(diǎn)的角度試試看。

 

呃,還是看不出有什么規(guī)律來(lái)。那我們***再換個(gè)低點(diǎn)的角度試一次。

 

啊哈,這次有點(diǎn)意思了:看起來(lái)小球集中分布在靠近屋頂和地面的兩個(gè)區(qū)域,中間這段沒(méi)有一個(gè)小球。因此,為了發(fā)現(xiàn)這個(gè)規(guī)律,我們?cè)谂恼諘r(shí)就必須找到一個(gè)“好”的角度。如果角度不對(duì),那我們永遠(yuǎn)都不可能找出任何規(guī)律。

在上面這個(gè)例子中,我們想說(shuō)的其實(shí)是三維數(shù)據(jù)點(diǎn)。每個(gè)小球的位置都可以由3個(gè)數(shù)字來(lái)表示,每個(gè)數(shù)字分別代表它在XYZ三條軸上的位置。在實(shí)際的電腦運(yùn)算中,數(shù)據(jù)點(diǎn)的位置會(huì)由更多的數(shù)字組合來(lái)表示。

比如醫(yī)院病人的病歷可能會(huì)包含500組數(shù)字,包括他的生日年月日、身高、體重、血壓、最近一次的看病記錄、膽固醇指標(biāo)等等。我們會(huì)想要搞清楚不同病人的數(shù)據(jù)點(diǎn)之間是否存在某種規(guī)律,如心臟病人的數(shù)據(jù)點(diǎn)是否會(huì)集中分布?如果數(shù)據(jù)點(diǎn)確實(shí)會(huì)集中分布,當(dāng)我們發(fā)現(xiàn)新入院病人的數(shù)據(jù)點(diǎn)也出現(xiàn)同樣的趨勢(shì)時(shí),我們就可以推斷這位病人很可能犯心臟病。當(dāng)然,實(shí)際操作起來(lái)肯定不會(huì)如此簡(jiǎn)單。

一個(gè)人是不可能用肉眼看到這些數(shù)據(jù)點(diǎn)的。人怎么可能分得清500個(gè)維度呢?就像在上面那個(gè)例子中,沒(méi)有人能看得清“黑屋”中小球,我們也同樣看不見(jiàn)500個(gè)維度中的那些數(shù)據(jù)點(diǎn)。我們可以用二維圖片來(lái)展示位于三維空間中的數(shù)據(jù)點(diǎn),用同樣的方法,我們也可以更低維度的“照片”來(lái)表現(xiàn)擁有500個(gè)維度的數(shù)據(jù)點(diǎn)。

只有從合適的“角度”拍下“照片”,我們才可以從中找出不同數(shù)據(jù)點(diǎn)之間的規(guī)律,不然將很難有所發(fā)現(xiàn)。這就是人們所說(shuō)的如何從“大數(shù)據(jù)”中“發(fā)現(xiàn)見(jiàn)解”。

三、曉之以情,動(dòng)之以理

這樣來(lái)說(shuō),你家寵物應(yīng)該都可以聽(tīng)明白了

買點(diǎn)芒果去

假設(shè)有一天你準(zhǔn)備去買點(diǎn)芒果。有個(gè)小販擺放了一車。你可以一個(gè)一個(gè)挑,然后小販根據(jù)你挑的芒果的斤兩來(lái)算錢(在印度的典型情況)。顯然,你想挑最甜最熟的芒果對(duì)吧(因?yàn)樾∝準(zhǔn)前疵⒐闹亓縼?lái)算錢,而不是按芒果的品質(zhì)來(lái)算錢的)??墒悄銣?zhǔn)備怎么挑呢?

你記得奶奶和你說(shuō)過(guò), 嫩黃的芒果比暗黃的甜。 所以你有了一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn):只挑嫩黃的芒果。你檢查各個(gè)芒果的顏色, 挑了些嫩黃的,買單,走人,爽不?

可事實(shí)沒(méi)那么簡(jiǎn)單。

生活是很復(fù)雜的

你回到家,開(kāi)始慢慢品嘗你的芒果。你發(fā)現(xiàn)有一些芒果沒(méi)有想的那么甜。你焦慮了。顯然,奶奶的智慧不夠啊。挑芒果可不是看看顏色那么簡(jiǎn)答的。

經(jīng)過(guò)深思熟慮(并且嘗了各種不同類型的芒果), 你發(fā)現(xiàn)那些大個(gè)兒的,嫩黃的芒果絕對(duì)是甜的,而小個(gè)兒,嫩黃的芒果,只有一半的時(shí)候是甜的(比如你買了100個(gè)嫩黃的芒果,50個(gè)比較大,50個(gè)比較小, 那么你會(huì)發(fā)現(xiàn)50個(gè)大個(gè)兒的芒果是甜的,而50個(gè)小個(gè)兒的芒果,平均只有25個(gè)是甜的)。

你對(duì)自己的發(fā)現(xiàn)非常開(kāi)心,下次去買芒果的時(shí)候你就將這些規(guī)則牢牢的記在心里。但是下次再來(lái)到市集的時(shí)候,你發(fā)現(xiàn)你最喜歡的那家芒果攤搬出了鎮(zhèn)子。于 是你決定從其它賣芒果的小販那里購(gòu)買芒果,但是這位小販的芒果和之前那位產(chǎn)地不同?,F(xiàn)在,你突然發(fā)現(xiàn)你之前學(xué)到的挑芒果辦法(大個(gè)兒的嫩黃的芒果最甜)又 行不通了。你得從頭再學(xué)過(guò)。你在那位小販那里,品嘗了各類芒果,你發(fā)現(xiàn)在這里,小個(gè)兒、暗黃的芒果其實(shí)才是最甜的。

沒(méi)多久,你在其它城市的遠(yuǎn)房表妹來(lái)看你。你準(zhǔn)備好好請(qǐng)她吃頓芒果。但是她說(shuō)芒果甜不甜無(wú)所謂,她要的芒果一定要是最多汁的。于是,你又用你的方法品嘗了各種芒果,發(fā)現(xiàn)比較軟的芒果比較多汁。

之后,你搬去了其它國(guó)家。在那里,芒果吃起來(lái)和你家鄉(xiāng)的味道完全不一樣。你發(fā)現(xiàn)綠芒果其實(shí)比黃芒果好吃。

再接著,你娶了一位討厭芒果的太太。她喜歡吃蘋果。你得天天去買蘋果。于是,你之前積累的那些挑芒果的經(jīng)驗(yàn)一下子變的一文不值。你得用同樣的方法,去學(xué)習(xí)蘋果的各項(xiàng)物理屬性和它的味道間的關(guān)系。你確實(shí)這樣做了,因?yàn)槟銗?ài)她。

有請(qǐng)計(jì)算機(jī)程序出場(chǎng)

現(xiàn)在想象一下,最近你正在寫一個(gè)計(jì)算機(jī)程序幫你挑選芒果(或者蘋果)。你會(huì)寫下如下的規(guī)則:

if(顏色是嫩黃 and 尺寸是大的 and 購(gòu)自最喜歡的小販): 芒果是甜的

if(軟的): 芒果是多汁的

………………

你會(huì)用這些規(guī)則來(lái)挑選芒果。你甚至?xí)屇愕男〉苋グ凑者@個(gè)規(guī)則列表去買芒果,而且確定他一定會(huì)買到你滿意的芒果。

但是一旦在你的芒果實(shí)驗(yàn)中有了新的發(fā)現(xiàn), 你就不得不手動(dòng)修改這份規(guī)則列表。你得搞清楚影響芒果質(zhì)量的所有因素的錯(cuò)綜復(fù)雜的細(xì)節(jié)。

如果問(wèn)題越來(lái)越復(fù)雜, 則你要針對(duì)所有的芒果類型,手動(dòng)地制定挑選規(guī)就變得非常困難。你的研究將讓你拿到芒果科學(xué)的博士學(xué)位(如果有這樣的學(xué)位的話)。

可誰(shuí)有那么多時(shí)間去做這事兒呢。

有請(qǐng)機(jī)器學(xué)習(xí)算法

機(jī)器學(xué)習(xí)算法是由普通的算法演化而來(lái)。通過(guò)自動(dòng)地從提供的數(shù)據(jù)中學(xué)習(xí),它會(huì)讓你的程序變得更“聰明”。

你從市場(chǎng)上的芒果里隨機(jī)的抽取一定的樣品(訓(xùn)練數(shù)據(jù)), 制作一張表格, 上面記著每個(gè)芒果的物理屬性, 比如顏色, 大小, 形狀, 產(chǎn)地, 賣家, 等等。(這些稱之為特征)。

還記錄下這個(gè)芒果甜不甜, 是否多汁,是否成熟(輸出變量)。你將這些數(shù)據(jù)提供給一個(gè)機(jī)器學(xué)習(xí)算法(分類算法/回歸算法),然后它就會(huì)學(xué)習(xí)出一個(gè)關(guān)于芒果的物理屬性和它的質(zhì)量之間關(guān)系的模型。

下次你再去市集, 只要測(cè)測(cè)那些芒果的特性(測(cè)試數(shù)據(jù)),然后將它輸入一個(gè)機(jī)器學(xué)習(xí)算法。算法將根據(jù)之前計(jì)算出的模型來(lái)預(yù)測(cè)芒果是甜的,熟的, 并且/還是多汁的。

該算法內(nèi)部使用的規(guī)則其實(shí)就是類似你之前手寫在紙上的那些規(guī)則(例如, 決策樹(shù)),或者更多涉及到的東西,但是基本上你就不需要擔(dān)心這個(gè)了。

瞧,你現(xiàn)在可以滿懷自信的去買芒果了,根本不用考慮那些挑選芒果的細(xì)節(jié)。更重要的是,你可以讓你的算法隨著時(shí)間越變?cè)胶茫ㄔ鰪?qiáng)學(xué)習(xí)),當(dāng)它讀進(jìn)更多 的訓(xùn)練數(shù)據(jù), 它就會(huì)更加準(zhǔn)確,并且在做了錯(cuò)誤的預(yù)測(cè)之后自我修正。但是最棒的地方在于,你可以用同樣的算法去訓(xùn)練不同的模型, 比如預(yù)測(cè)蘋果質(zhì)量的模型, 桔子的,香蕉的,葡萄的,櫻桃的,西瓜的,讓所有你心愛(ài)的人開(kāi)心:)

 

這,就是專屬于你的機(jī)器學(xué)習(xí),很炫酷吧。 

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2018-03-09 15:37:30

2013-11-28 09:34:16

大數(shù)據(jù)

2021-03-22 22:48:45

加密貨幣比特幣以太坊

2016-02-18 12:01:00

2011-09-16 13:30:23

Emacs

2021-09-12 22:42:41

5G互聯(lián)網(wǎng)基站

2025-02-19 08:50:05

2021-10-17 22:22:22

區(qū)塊鏈比特幣數(shù)字貨幣

2021-02-09 00:44:10

人工智能大數(shù)據(jù)機(jī)械化

2013-10-29 09:13:14

程序員數(shù)據(jù)挖掘

2023-07-10 11:38:49

2024-03-21 16:29:08

2009-03-24 14:18:34

LinuxClouderaHadoop

2021-10-13 06:31:52

APT網(wǎng)絡(luò)安全惡意軟件

2010-06-07 09:39:38

Hadoop云計(jì)算

2021-04-30 05:29:06

人工智能AI無(wú)人機(jī)

2016-04-11 14:35:59

機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘數(shù)據(jù)模型

2019-08-28 09:27:25

2018-09-14 10:09:42

微軟人工智能開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)