做數(shù)據(jù)分析必須學(xué)R的4個理由
R 是一種靈活的編程語言,專為促進(jìn)探索性數(shù)據(jù)分析、經(jīng)典統(tǒng)計(jì)學(xué)測試和高級圖形學(xué)而設(shè)計(jì)。R 擁有豐富的、仍在不斷擴(kuò)大的數(shù)據(jù)包庫,處于統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析和數(shù)據(jù)挖掘發(fā)展的前沿。R 已證明自己是不斷成長的大數(shù)據(jù)領(lǐng)域的一個有用工具,并且已集成到多個商用包中,比如 IBM SPSS® 和 InfoSphere®,以及 Mathematica。
本文提供了一位統(tǒng)計(jì)學(xué)家Catherine Dalzell對 R 的價(jià)值的看法。
為什么選擇 R?
R 可以執(zhí)行統(tǒng)計(jì)。您可以將它視為 SAS Analytics 等分析系統(tǒng)的競爭對手,更不用提 StatSoft STATISTICA 或 Minitab 等更簡單的包。政府、企業(yè)和制藥行業(yè)中許多專業(yè)統(tǒng)計(jì)學(xué)家和方法學(xué)家都將其全部職業(yè)生涯都投入到了 IBM SPSS 或 SAS 中,但卻沒有編寫過一行 R 代碼。所以從某種程度上講,學(xué)習(xí)和使用 R 的決定事關(guān)企業(yè)文化和您希望如何工作。我在統(tǒng)計(jì)咨詢實(shí)踐中使用了多種工具,但我的大部分工作都是在 R 中完成的。以下這些示例給出了我使用 R 的原因:
R 是一種強(qiáng)大的腳本語言。我最近被要求分析一個范圍研究的結(jié)果。研究人員檢查了 1,600 篇研究論文,并依據(jù)多個條件對它們的內(nèi)容進(jìn)行編碼,事實(shí)上,這些條件是大量具有多個選項(xiàng)和分叉的條件。它們的數(shù)據(jù)(曾經(jīng)扁平化到一個 Microsoft® Excel® 電子表格上)包含 8,000 多列,其中大部分都是空的。研究人員希望統(tǒng)計(jì)不同類別和標(biāo)題下的總數(shù)。R 是一種強(qiáng)大的腳本語言,能夠訪問類似 Perl 的正則表達(dá)式來處理文本。凌亂的數(shù)據(jù)需要一種編程語言資源,而且盡管 SAS 和 SPSS 提供了腳本語言來執(zhí)行下拉菜單意外的任務(wù),但 R 是作為一種編程語言編寫的,所以是一種更適合該用途的工具。
R 走在時代的前沿。統(tǒng)計(jì)學(xué)中的許多新發(fā)展最初都是以 R 包的形式出現(xiàn)的,然后才被引入到商業(yè)平臺中。我最近獲得了一項(xiàng)對患者回憶的醫(yī)療研究的數(shù)據(jù)。對于每位患者,我們擁有醫(yī)生建議的治療項(xiàng)目數(shù)量,以及患者實(shí)際記住的項(xiàng)目數(shù)量。自然模型是貝塔—二項(xiàng)分布。這從上世紀(jì) 50 年代就已知道,但將該模型與感興趣的變量相關(guān)聯(lián)的估算過程是最近才出現(xiàn)的。像這樣的數(shù)據(jù)通常由廣義估計(jì)方程式 (general estimating equations, GEE) 處理,但 GEE 方法是漸進(jìn)的,而且假設(shè)抽樣范圍很廣。我想要一種具有貝塔—二項(xiàng) R 的廣義線性模型。一個***的 R 包估算了這一模型:Ben Bolker 編寫的 betabinom。而 SPSS 沒有。
集成文檔發(fā)布。 R ***地集成了 LaTeX 文檔發(fā)布系統(tǒng),這意味著來自 R 的統(tǒng)計(jì)輸出和圖形可嵌入到可供發(fā)布的文檔中。這不是所有人都用得上,但如果您希望便攜異步關(guān)于數(shù)據(jù)分析的書籍,或者只是不希望將結(jié)果復(fù)制到文字處理文檔,最短且***雅的路徑就是通過 R 和 LaTeX。
沒有成本。作為一個小型企業(yè)的所有者,我很喜歡 R 的免費(fèi)特定。即使對于更大的企業(yè),知道您能夠臨時調(diào)入某個人并立即讓他們坐在工作站旁使用***的分析軟件,也很不錯。無需擔(dān)憂預(yù)算。