自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

大數(shù)據(jù) 數(shù)據(jù)分析
如果一個(gè)人想快速進(jìn)行有效的統(tǒng)計(jì)分析,就應(yīng)該尋求一個(gè)直觀的統(tǒng)計(jì)環(huán)境來計(jì)算數(shù)據(jù)。而 R 在數(shù)據(jù)的統(tǒng)計(jì)分析中占主導(dǎo)地位。下面是我對(duì) R 如何優(yōu)于 Python 的經(jīng)驗(yàn)。

我們從下圖可以看出 R 的 TIOBE 指數(shù),在2018年1月達(dá)到峰值后,該語言開始出現(xiàn)顯著下降。然而,自3月份以來,指數(shù)明顯回升。 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

這是什么原因?

很明顯是因?yàn)樾鹿诓《驹谌虮l(fā),而引發(fā)了大家對(duì)統(tǒng)計(jì)數(shù)據(jù)的興趣。 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

因此,如果一個(gè)人想快速進(jìn)行有效的統(tǒng)計(jì)分析,就應(yīng)該尋求一個(gè)直觀的統(tǒng)計(jì)環(huán)境來計(jì)算數(shù)據(jù)。而 R 在數(shù)據(jù)的統(tǒng)計(jì)分析中占主導(dǎo)地位。

下面是我對(duì) R 如何優(yōu)于 Python 的經(jīng)驗(yàn):

1.在分析時(shí)間序列數(shù)據(jù)時(shí),R 可以優(yōu)于 Python

如果你從事過時(shí)間序列分析,那么你可能很熟悉所謂的 ARIMA(自回歸綜合移動(dòng)平均線)模型。

這是一個(gè)可以用來根據(jù)時(shí)間序列的結(jié)構(gòu)進(jìn)行預(yù)測(cè)的模型。ARIMA 模型由坐標(biāo)(p、d、q)組成:

  • p 代表自回歸項(xiàng)的數(shù)量,即用于預(yù)測(cè)未來值的過去時(shí)間值的觀察數(shù)。例如,如果 p 的值是2,那么這意味著序列中前兩次時(shí)間觀測(cè)值被用來預(yù)測(cè)未來的趨勢(shì)。
  • d 表示使時(shí)間序列平穩(wěn)所需的差異數(shù)(即具有恒定均值、方差和自相關(guān)的差分)。例如,如果d=1,則意味著必須獲得級(jí)數(shù)的第一個(gè)差分才能將其轉(zhuǎn)換為平穩(wěn)差。
  • q 代表模型中先前預(yù)測(cè)誤差的移動(dòng)平均值,或誤差項(xiàng)的滯后值。例如,如果 q 的值為1,那么這意味著我們?cè)谀P椭杏幸粋€(gè)誤差項(xiàng)的滯后值。

但是,R 和 Python 都允許基于最佳擬合自動(dòng)選擇這些坐標(biāo)??梢允褂?R 中的 auto.arima 和Python中的 pyramid 來完成。金字塔中的 auto-arima 函數(shù)是在原有的 R 函數(shù)的基礎(chǔ)上發(fā)展起來的,即 R 是第一個(gè)能夠自動(dòng)選擇 p、d、q 坐標(biāo)的語言。

2.回歸分析

對(duì)于回歸分析,在某些情況下,與 Python 相比,R 可以使用更少的代碼行來運(yùn)行分析。

讓我們舉個(gè)例子。假設(shè)我們正在運(yùn)行回歸以基于各種因素來預(yù)測(cè)股票收益,例如公司股息、收益和債轉(zhuǎn)股。

現(xiàn)在,假設(shè)我們希望測(cè)試多重共線性,即測(cè)試是否有任何自變量彼此顯著相關(guān),從而導(dǎo)致結(jié)果的偏差。 回歸(reg1)運(yùn)行如下: 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

現(xiàn)在,我們需要計(jì)算方差膨脹因子。 計(jì)算方法如下: 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

但是,我們不需要在 R 中手動(dòng)計(jì)算該值。相反,可以使用 car 庫,按如下所示調(diào)用 VIF 函數(shù): 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

VIF 統(tǒng)計(jì)數(shù)據(jù)處于常用閾值5和10之下,這表明模型中不存在多重共線性。

但是,使用 Python 的過程要復(fù)雜一些。

使用 sklearn 時(shí),我們將分別獲得每個(gè)變量的 VIF。例如,讓我們?cè)囍业焦上⒆兞康?VIF 值。 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

在上述示例中,必須首先手動(dòng)計(jì)算 R 平方統(tǒng)計(jì),然后僅計(jì)算一個(gè)變量的 VIF 統(tǒng)計(jì): 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

我們已經(jīng)得到了這個(gè)變量的 VIF,但是為了達(dá)到這個(gè)目的還需要采取更多的步驟。此外,要找到其他兩個(gè)變量的 VIF 值,必須對(duì)每個(gè)變量重復(fù)此過程。

從這個(gè)角度來看,R 仍然可以證明在快速生成統(tǒng)計(jì)信息時(shí)更直觀。

3.直觀的統(tǒng)計(jì)分析

Python中的 pyplot 和 seaborn 等庫在生成統(tǒng)計(jì)圖時(shí)已經(jīng)變得非常流行。

但是,除了 shinny 的交互式可視化功能之外,R 的快速生成統(tǒng)計(jì)信息能力更加強(qiáng)大。

這是一個(gè)在 Shiny 中生成的累積二項(xiàng)式概率圖的示例,可以通過操縱左側(cè)的滑塊(單個(gè)概率)來計(jì)算某個(gè)事件在指定次數(shù)的試驗(yàn)中發(fā)生的累積概率。 

在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

對(duì)于那些可能不擅長編寫代碼,但正在尋找一種有效的方式來操縱統(tǒng)計(jì)信息并快速產(chǎn)生洞察力的人來說,這種工具具有巨大的價(jià)值。 而且,Shiny 本身就是一個(gè)非常直觀的 R 語言庫,并不難學(xué)!

你可以直接在以下 GitHub 庫中使用Shiny Web App:

  • https://github.com/MGCodesandStats/shiny-web-apps/tree/master/probability

要運(yùn)行該應(yīng)用程序,只需:

  • 下載資料庫
  • 單擊 Shiny Web App 文件夾,然后在 RStudio 中打開 ui.R 和 server.R 文件。
  • 完成此操作后,只需選擇“運(yùn)行應(yīng)用程序”按鈕,上面的應(yīng)用程序就會(huì)顯示: 
在數(shù)據(jù)統(tǒng)計(jì)分析面前,R語言是“王者”,Python只能當(dāng)“小弟”

總結(jié)

Python在機(jī)器學(xué)習(xí)方面表現(xiàn)出色,并且在通用編程方面將繼續(xù)主導(dǎo)R。

從技術(shù)上講,R 不是編程語言,而是一種統(tǒng)計(jì)環(huán)境。

但是,統(tǒng)計(jì)學(xué)作為一個(gè)領(lǐng)域?qū)⒁驗(yàn)?R 語言而繼續(xù)存在。

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2011-09-29 09:48:27

RHadoop數(shù)據(jù)庫

2014-10-28 14:59:42

手游付費(fèi)行為數(shù)據(jù)統(tǒng)計(jì)分析

2020-05-15 15:21:58

SPSS數(shù)據(jù)分析

2021-06-10 09:53:04

數(shù)據(jù)統(tǒng)計(jì)統(tǒng)計(jì)分析數(shù)據(jù)

2011-03-14 14:41:59

大數(shù)據(jù)數(shù)據(jù)中心

2016-10-18 14:13:21

數(shù)據(jù)統(tǒng)計(jì)模型

2019-09-18 09:05:58

技術(shù)SQLDevOps

2015-08-19 09:40:51

統(tǒng)計(jì)分析

2024-11-07 11:10:34

Python腳本統(tǒng)計(jì)分析

2017-09-17 09:29:26

APP大數(shù)據(jù)架構(gòu)

2015-02-27 09:53:06

Countly

2010-12-30 09:44:10

C#Attribute

2012-09-25 14:18:51

Linux桌面環(huán)境

2011-05-27 13:56:04

網(wǎng)站流量

2015-01-05 17:28:02

JMP

2009-06-29 15:25:21

SessionJSP

2014-06-04 09:42:41

工業(yè)控制系統(tǒng)APT

2020-03-31 14:57:56

數(shù)據(jù)挖掘OLAP統(tǒng)計(jì)

2010-06-07 17:26:41

Mrtg教程

2022-02-18 12:58:35

go-monitor工具服務(wù)質(zhì)量
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)