自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)挖掘領(lǐng)域十大經(jīng)典算法之—樸素貝葉斯算法(附代碼)

大數(shù)據(jù) 算法
NaïveBayes算法,又叫樸素貝葉斯算法,樸素:特征條件獨(dú)立;貝葉斯:基于貝葉斯定理。屬于監(jiān)督學(xué)習(xí)的生成模型,實(shí)現(xiàn)簡(jiǎn)單,沒(méi)有迭代,并有堅(jiān)實(shí)的數(shù)學(xué)理論(即貝葉斯定理)作為支撐。在大量樣本下會(huì)有較好的表現(xiàn),不適用于輸入向量的特征條件有關(guān)聯(lián)的場(chǎng)景。

簡(jiǎn)介

NaïveBayes算法,又叫樸素貝葉斯算法,樸素:特征條件獨(dú)立;貝葉斯:基于貝葉斯定理。屬于監(jiān)督學(xué)習(xí)的生成模型,實(shí)現(xiàn)簡(jiǎn)單,沒(méi)有迭代,并有堅(jiān)實(shí)的數(shù)學(xué)理論(即貝葉斯定理)作為支撐。在大量樣本下會(huì)有較好的表現(xiàn),不適用于輸入向量的特征條件有關(guān)聯(lián)的場(chǎng)景。

數(shù)據(jù)挖掘領(lǐng)域十大經(jīng)典算法之—樸素貝葉斯算法(附代碼)

基本思想

(1)病人分類的例子

某個(gè)醫(yī)院早上收了六個(gè)門診病人,如下表:

 

現(xiàn)在又來(lái)了第七個(gè)病人,是一個(gè)打噴嚏的建筑工人。請(qǐng)問(wèn)他患上感冒的概率有多大?

根據(jù)貝葉斯定理:

 

因此,這個(gè)打噴嚏的建筑工人,有66%的概率是得了感冒。同理,可以計(jì)算這個(gè)病人患上過(guò)敏或腦震蕩的概率。比較這幾個(gè)概率,就可以知道他最可能得什么病。

這就是貝葉斯分類器的基本方法:在統(tǒng)計(jì)資料的基礎(chǔ)上,依據(jù)某些特征,計(jì)算各個(gè)類別的概率,從而實(shí)現(xiàn)分類。

(2)樸素貝葉斯分類器的公式

假設(shè)某個(gè)體有n項(xiàng)特征(Feature),分別為F1、F2、…、Fn?,F(xiàn)有m個(gè)類別(Category),分別為C1、C2、…、Cm。貝葉斯分類器就是計(jì)算出概率***的那個(gè)分類,也就是求下面這個(gè)算式的***值:

 

由于 P(F1F2…Fn) 對(duì)于所有的類別都是相同的,可以省略,問(wèn)題就變成了求

 

的***值。

樸素貝葉斯分類器則是更進(jìn)一步,假設(shè)所有特征都彼此獨(dú)立,因此

 

上式等號(hào)右邊的每一項(xiàng),都可以從統(tǒng)計(jì)資料中得到,由此就可以計(jì)算出每個(gè)類別對(duì)應(yīng)的概率,從而找出***概率的那個(gè)類。

雖然”所有特征彼此獨(dú)立”這個(gè)假設(shè),在現(xiàn)實(shí)中不太可能成立,但是它可以大大簡(jiǎn)化計(jì)算,而且有研究表明對(duì)分類結(jié)果的準(zhǔn)確性影響不大。

(3)拉普拉斯平滑(Laplace smoothing)

也就是參數(shù)為1時(shí)的貝葉斯估計(jì),當(dāng)某個(gè)分量在總樣本某個(gè)分類中(觀察樣本庫(kù)/訓(xùn)練集)從沒(méi)出現(xiàn)過(guò),會(huì)導(dǎo)致整個(gè)實(shí)例的計(jì)算結(jié)果為0。為了解決這個(gè)問(wèn)題,使用拉普拉斯平滑/加1平滑進(jìn)行處理。

它的思想非常簡(jiǎn)單,就是對(duì)先驗(yàn)概率的分子(劃分的計(jì)數(shù))加1,分母加上類別數(shù);對(duì)條件概率分子加1,分母加上對(duì)應(yīng)特征的可能取值數(shù)量。這樣在解決零概率問(wèn)題的同時(shí),也保證了概率和依然為1。

eg:假設(shè)在文本分類中,有3個(gè)類,C1、C2、C3,在指定的訓(xùn)練樣本中,某個(gè)詞語(yǔ)F1,在各個(gè)類中觀測(cè)計(jì)數(shù)分別為=0,990,10,即概率為P(F1/C1)=0,P(F1/C2)=0.99,P(F1/C3)=0.01,對(duì)這三個(gè)量使用拉普拉斯平滑的計(jì)算方法如下:

  1. 1/1003 = 0.001,991/1003=0.988,11/1003=0.011 

實(shí)際應(yīng)用場(chǎng)景

  • 文本分類
  • 垃圾郵件過(guò)濾
  • 病人分類
  • 拼寫檢查

樸素貝葉斯模型

樸素貝葉斯常用的三個(gè)模型有:

  • 高斯模型:處理特征是連續(xù)型變量的情況
  • 多項(xiàng)式模型:最常見,要求特征是離散數(shù)據(jù)
  • 伯努利模型:要求特征是離散的,且為布爾類型,即true和false,或者1和0

代碼實(shí)現(xiàn)

基于多項(xiàng)式模型的樸素貝葉斯算法(在github獲取)

 

測(cè)試數(shù)據(jù)集為MNIST數(shù)據(jù)集,獲取地址train.csv

運(yùn)行結(jié)果

 

 

責(zé)任編輯:未麗燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2018-10-27 15:47:35

CART算法決策樹

2016-01-29 11:00:55

數(shù)據(jù)挖掘算法大數(shù)據(jù)

2018-05-03 09:36:53

算法數(shù)據(jù)挖掘C4.5

2018-04-25 08:10:50

算法k-means代碼

2013-02-25 09:46:35

數(shù)據(jù)挖掘算法ICDM

2011-01-26 09:14:43

數(shù)據(jù)挖掘

2018-11-14 09:40:05

排序算法Java編程語(yǔ)言

2021-10-31 07:38:37

排序算法代碼

2019-08-28 11:08:51

排序算法Java

2017-07-24 10:36:37

Python機(jī)器學(xué)習(xí)樸素貝葉斯

2017-07-18 10:50:38

前端JavaScript排序算法

2022-03-10 12:03:33

Python算法代碼

2021-11-08 15:12:48

排序算法面試

2012-09-24 10:13:35

貝葉斯

2010-08-31 14:01:48

CSS

2017-07-27 14:21:44

2017-11-07 11:17:40

樸素貝葉斯畫像數(shù)據(jù)數(shù)據(jù)挖掘

2018-02-01 18:45:12

機(jī)器學(xué)習(xí)算法線性回歸

2017-03-29 14:50:18

2021-01-26 05:33:07

排序算法快速
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)