大數(shù)據(jù)算法及應(yīng)用場景首篇:統(tǒng)計(jì)與分布
算法是大數(shù)據(jù)的最核心價(jià)值部分。大數(shù)據(jù)的挖掘是從海量、不完整、噪聲、模糊、隨機(jī)、碎片數(shù)據(jù)中發(fā)現(xiàn)其中隱藏的價(jià)值,以及潛在的有用信息和知識(shí)的過程。什么情況用什么算法呢?今天給大家做個(gè)大數(shù)據(jù)算法入門。
一、統(tǒng)計(jì)分布
統(tǒng)計(jì)分布(frequency distribution)亦稱“次數(shù)(頻數(shù))分布(分配)”。在統(tǒng)計(jì)分組的基礎(chǔ)上,將總體中的所有單位按組歸類整理,形成總體單位在各組間的分布。分布在各組中的單位數(shù)叫做次數(shù)或頻數(shù)。各組次數(shù)與總次數(shù)(全部總體單位數(shù))之比,稱為比率或頻率。將各組別與次數(shù)依次編排而成的數(shù)列就叫做統(tǒng)計(jì)分布數(shù)列,簡稱分布數(shù)列或分配數(shù)列。它可以反映總體中所有單位在各組間的分布狀態(tài)和分布特征,研究這種分布特征是統(tǒng)計(jì)分析的一項(xiàng)重要內(nèi)容。如上的BLABLA的一堆,具體來看看到底能干什么吧。
1)平均值
舉個(gè)栗子!中國男人背上“油膩”一詞好幾年了,根據(jù)《2017中國人運(yùn)動(dòng)報(bào)告》數(shù)據(jù)顯示,至少在步行量上,男生要高于女生:男生平均每天走5874步,女生日均步數(shù)達(dá)到5268步。注重運(yùn)動(dòng)加上更新一下觀念,中國男人或許能保持一下少年感。

2)同比和環(huán)比
同比一般情況下是今年第n月與去年第n月比。
環(huán)比,表示連續(xù)2個(gè)單位周期(比如連續(xù)兩月)內(nèi)的量的變化比。

3)高斯分布
正態(tài)分布(Normal distribution),也稱“常態(tài)分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二項(xiàng)分布的漸近公式中得到。C.F.高斯在研究測量誤差時(shí)從另一個(gè)角度導(dǎo)出了它。P.S.拉普拉斯和高斯研究了它的性質(zhì)。是一個(gè)在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,在統(tǒng)計(jì)學(xué)的許多方面有著重大的影響力。

高斯分布怎么用?舉個(gè)栗子:這張圖大家都見過吧。收集盡量多的用戶的開機(jī)時(shí)間,然后,查看時(shí)間的分布如何。


4)柏松分布
Poisson分布,是一種統(tǒng)計(jì)與概率學(xué)里常見到的離散概率分布,由法國數(shù)學(xué)家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時(shí)發(fā)表。

小小柏松分布在大數(shù)據(jù)領(lǐng)域可以解決大大的問題!干貨來了!
栗子1:玩電商和倉儲(chǔ)的,進(jìn)來看看。已知某家小雜貨店,平均每周售出2個(gè)水果罐頭。請問該店水果罐頭的***庫存量是多少?
假定不存在季節(jié)因素,可以近似認(rèn)為,這個(gè)問題滿足以下三個(gè)條件:
- a.顧客購買水果罐頭是小概率事件。
- b.購買水果罐頭的顧客是獨(dú)立的,不會(huì)互相影響。
- c.顧客購買水果罐頭的概率是穩(wěn)定的。
在統(tǒng)計(jì)學(xué)上,只要某類事件滿足上面三個(gè)條件,它就服從"泊松分布"。

根據(jù)公式,計(jì)算得到每周銷量的分布:從上表可見,如果存貨4個(gè)罐頭,95%的概率不會(huì)缺貨(平均每19周發(fā)生一次);如果存貨5個(gè)罐頭,98%的概率不會(huì)缺貨(平均59周發(fā)生一次)。
5)伯努利分布
伯努利分布(英語:Bernoulli distribution,又名兩點(diǎn)分布或者0-1分布,是一個(gè)離散型概率分布,為紀(jì)念瑞士科學(xué)家雅各布·伯努利而命名。)。通俗講,一件事情,只有兩種可能的結(jié)果。伯努利分布描述了其中一種結(jié)果的概率為a,另一種結(jié)果的概率為100%-a。再通俗的講,生一次孩子,生男孩子概率為p,生女孩紙概率1-p,這個(gè)就是伯努利分布。
