自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我用Excel發(fā)現(xiàn)了數(shù)據(jù)分析的本質(zhì):回歸分析

大數(shù)據(jù) 數(shù)據(jù)分析
其實絕大多數(shù)的數(shù)據(jù)分析問題,都可以歸納為一個問題:相關(guān)性問題。相關(guān)性分析是數(shù)據(jù)統(tǒng)計學(xué)中的基礎(chǔ)思想,主要就是為了探究數(shù)據(jù)之間是否具有關(guān)聯(lián)性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關(guān)聯(lián)。

最近很多人都問我,為什么感覺數(shù)據(jù)分析越學(xué)越亂,經(jīng)常是學(xué)了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯(lián)系起來。

這其實就回歸到了一個至關(guān)重要的問題:數(shù)據(jù)分析的本質(zhì)是什么?

事物都是萬變不離其宗的,一切外在的方法都是為了事物本質(zhì)而服務(wù)的,數(shù)據(jù)分析自然也不例外,今天我們就來探討一下數(shù)據(jù)分析的本質(zhì)。

數(shù)據(jù)分析的本質(zhì)

其實絕大多數(shù)的數(shù)據(jù)分析問題,都可以歸納為一個問題:相關(guān)性問題。

相關(guān)性分析是數(shù)據(jù)統(tǒng)計學(xué)中的基礎(chǔ)思想,主要就是為了探究數(shù)據(jù)之間是否具有關(guān)聯(lián)性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關(guān)聯(lián)。

比如,常年吸煙者的數(shù)量是否與肺癌患者的數(shù)量成正相關(guān)、健身者與感冒患者之間是否成負相關(guān)等等,這些例子都是簡單的相關(guān)性判斷

在數(shù)據(jù)分析中,更常見的則是更為復(fù)雜的相關(guān)性分析,也就是為了找到變量之間的相關(guān)系數(shù),簡單說就是為了找到Y(jié)=A+B*X之中的B。

比如,用戶點擊率與網(wǎng)站訪問量之間是否有關(guān)系、廣告曝光量與投入成本的關(guān)系等等,這個方程的求取過程也就是所謂的“回歸分析”。

回歸分析在統(tǒng)計學(xué)中包含了很多類別,比如一元回歸、多遠回歸、方差回歸、線性回歸、非線性回歸等,但我們不必涉及這么深,只需要了解其本質(zhì)即可。

我們就拿廣告曝光量與投入成本這個例子來解剖一下數(shù)據(jù)分析中的回歸:

回歸分析

首先我們假設(shè)一個數(shù)據(jù)分析中常見的場景:

小李是公司里負責(zé)市場廣告的,某一次公司要舉辦大型活動,要求小李在線上廣告上達到50w次的曝光量,于是小李寫了一份方案提出要加大投入費用。而老板則覺得廣告的投入費用太大,沒有必要拿那么多錢,而小李則覺得多投入才有效果。

那么,對于究竟應(yīng)該投入多少廣告成本呢?

1、分析目的

于是我們就找到了本次數(shù)據(jù)分析的目的,就是要找到廣告曝光量與費用成本之間的因果關(guān)系,也就是投入多少錢,廣告曝光就能對應(yīng)提高多少嗎?

但是普通的統(tǒng)計方法是沒辦法得到嚴格的因果關(guān)系的,因此我們只能退而求其次地用回歸分析來研究其相關(guān)關(guān)系和影響因子,用相關(guān)性代替因果關(guān)系。

2、確定變量

然后,我們要確定X、Y各是什么。

在這里Y自然就是廣告曝光,也就是因變量,在數(shù)據(jù)分析中是指業(yè)務(wù)指標或者核心需求,比如銷售額這種我們關(guān)心的能夠隨著其他因素的變化而變化的指標。

X自然就是投入成本,也就是自變量,在數(shù)據(jù)分析中是指用來解釋業(yè)務(wù)指標的因子。

回歸分析的任務(wù)就是,通過研究X和Y的相關(guān)關(guān)系,嘗試去解釋Y的形成機制,進而達到通過X去預(yù)測Y的目的。那么,X到底會長成什么樣呢?

通常情況下X不是一個變量,而是多個變量,比如影響廣告曝光的不止是投入成本,還可能是網(wǎng)站SEO等,在實際情況中我們需要將X一個個都找出來,最終的回歸方程就變成了:

這里我們再添加一些其他的影響因素,比如費用投入X2、人力投入X3、投放時間X4、廣告點擊率X5、對象人群量X6、定價X7、投入廣告位數(shù)量X8和定向設(shè)置量X9。

3、建立回歸模型

為了找到X與Y之間的變量關(guān)系,我們可以通過建立回歸模式來實現(xiàn),這里就用Excel的回歸功能簡單實操一下。

將數(shù)據(jù)直接導(dǎo)入excel中,在“選項”菜單中選擇“加載項”,在“加載項”多行文本框中使用滾動條找到并選中“分析工具庫”,然后點擊最下方的“轉(zhuǎn)到”:

打開“加載宏”的選項中選擇“數(shù)據(jù)分析庫”,然后點擊“確定”,就可以將數(shù)據(jù)分析庫加載到Excel中。

 然后點擊“數(shù)據(jù)”菜單欄中的“數(shù)據(jù)分析”,在跳出的對話框中點擊“回歸”,然后下拉選取對應(yīng)的X、Y區(qū)域,選擇“正態(tài)分布”,點擊“確定”即可。

這樣就可以得到最終的結(jié)果

4、回歸方程檢驗

有了回歸方程,我們還需要檢驗一下擬合情況如何。我們主要看的指標有4個:最上面的回歸統(tǒng)計表中的Multiple R以及R Square,中間表格中的Significance F,以及下方格中的P-value。

  • Multiple R:也就是R值,大于等于0.8即代表正相關(guān),這里我們的R值是0.91,表明廣告曝光與投入是正相關(guān)。
  • R Square:R的平方值是指擬合系數(shù),這個數(shù)值越大則代表回歸擬合的越好,這里為0.83,說明擬合效果很好。
  • Significance F:是指顯著性檢驗度,這個值越小就代表因變量和自變量之間的關(guān)聯(lián)性越顯著,這里數(shù)值等于0.006,說明成本投入是影響廣告曝光最顯著的因素。
  • P-value:是指系數(shù)的顯著性檢驗度,一般大于0.05就不具有統(tǒng)計學(xué)意義了,小于0.05說明具有統(tǒng)計學(xué)意義。這里數(shù)值基本都小于0.05,說明這個結(jié)果極具統(tǒng)計學(xué)意義。

5、回歸方程

最終按照圖中得到值就可以得到回歸方程,這樣小李再向老板申請廣告投入費用的時候,就不怕被老板說了。

最后簡單總結(jié)一下。什么是回歸分析?回歸分析一句話:就是研究XY相關(guān)性的分析。

我們碰到的絕大多數(shù)數(shù)據(jù)分析問題,仔細想一下,都可以被規(guī)范成一個回歸分析的問題。而對于真實的工作而言,能否把這個問題,成功的規(guī)范成為一個回歸分析問題,是實際項目成功的關(guān)鍵。而規(guī)范是否成功的一個具體表現(xiàn)就是:第一,因變量Y是否定義清晰;第二,解釋性變量X是否精準有力。

 

責(zé)任編輯:姜華 來源: 數(shù)據(jù)分析不是個事兒
相關(guān)推薦

2024-06-03 11:43:55

2024-05-20 08:25:55

2020-03-10 10:43:21

機器學(xué)習(xí)人工智能計算機

2020-08-04 08:48:34

數(shù)據(jù)彈屏技術(shù)

2019-04-26 13:13:47

Excel數(shù)據(jù)分析招聘信息

2021-11-11 11:27:55

大數(shù)據(jù)分析系統(tǒng)

2018-08-28 12:07:42

微信數(shù)據(jù)分析

2020-04-01 08:40:44

Vue.jsweb開發(fā)

2018-03-07 09:35:08

Python淘寶數(shù)據(jù)

2017-08-03 15:20:19

大數(shù)據(jù)數(shù)據(jù)分析

2020-05-15 15:09:51

R語言數(shù)據(jù)分析

2020-05-18 08:42:23

CSS背景圖像前端開發(fā)

2021-06-09 11:06:00

數(shù)據(jù)分析Excel

2024-04-28 12:47:03

數(shù)據(jù)業(yè)務(wù)

2023-06-26 00:19:13

2024-07-08 11:33:45

2021-10-29 11:45:26

Python代碼Python 3.

2017-05-02 17:22:05

數(shù)據(jù)

2021-10-15 06:22:07

勒索軟件攻擊數(shù)據(jù)泄露

2019-05-07 18:45:21

崩潰應(yīng)用程序Android
點贊
收藏

51CTO技術(shù)棧公眾號