從對抗到融合,教你充分利用R+Python!
如果你從事數(shù)據(jù)科學(xué)的工作,可能會立即想到兩種編程語言:R和Python。
事實上,R和Python本身是很好的工具,但通常被認(rèn)為是競爭對手。今天推薦的這篇文章將會把兩者進行比較,而不是將它們視為兩種選擇。
如果你在Google搜索欄中輸入R vs Python,會立即獲得大量有關(guān)一方的優(yōu)勢的文章。
產(chǎn)生這種結(jié)果的原因之一,是人們根據(jù)他們根據(jù)對編程語言使用的選擇將數(shù)據(jù)科學(xué)領(lǐng)域劃分為陣營,一個R營地和一個Python營地。而且這兩個陣營往往不能和諧相處,其中的成員都相信他們的語言優(yōu)于對方。因此,在某種程度上,分歧并不在于工具,而在于——
為什么不同時使用呢?
數(shù)據(jù)科學(xué)中有很少一部分人同時使用Python和R。但事實上,有很多人雖然只用一種編程語言,但他們也想要使用另一個軟件的某些功能。例如,R用戶有時會想要使用Python本機的面向?qū)ο竽芰?,同樣,一些Python用戶也想用R中的各種統(tǒng)計分布。
上圖是Red Monk在2018年第三季度進行的調(diào)查結(jié)果。這個調(diào)查數(shù)據(jù)來源于Stack Overflow和Github上的語言的流行度,它清楚地表明R和Python普及度都比較高。因此,沒有內(nèi)在的理由說明為什么我們不能在同一個項目上同時使用二者。我們的最終目標(biāo)應(yīng)該是更好地分析并獲得更好的理解,編程語言的選擇不應(yīng)成為實現(xiàn)這一目標(biāo)的障礙。
R與Python回顧
讓我們來看看這些語言以及它們的優(yōu)缺點。
Python
自1991年發(fā)布以來,Python一直非常受歡迎,并廣泛用于數(shù)據(jù)處理。優(yōu)點有:
- 面向?qū)ο蟮恼Z言。
- 廣泛的用途。
- 有很多擴展(功能)和強大的社區(qū)支持。
- 簡單,易與理解和學(xué)習(xí)。
- 在pandas,numpy和scikit-learn這樣的軟件包上,Python是機器學(xué)習(xí)活動的***選擇。
但是,與R不同,Python沒有用于統(tǒng)計計算的專用包。
R
R的***個版本發(fā)布于1995年,從那時起它就成為業(yè)界最常用的數(shù)據(jù)科學(xué)工具之一。
- 幾乎包含所有可以想到的統(tǒng)計應(yīng)用程序的安裝包。CRAN目前擁有超過10k的包。
- 配備了完備的?可視化庫,如ggplot2。
- 能夠進行獨立分析。
性能良好的R不是最快的語言,并且在處理大型數(shù)據(jù)集時有時可能會內(nèi)存過多。
充分利用這兩種語言
我們能否同時利用R的統(tǒng)計能力和Python的編程能力?當(dāng)我們可以輕松地在R或Python腳本中嵌入SQL代碼時,為什么不將R和Python混合在一起呢?
基本上有兩種方法可以在一個項目中同時使用Python和R.
在Python中使用R
- PypeR
(http://bioinfo.ihb.ac.cn/softwares/PypeR/)
PypeR提供了一種簡單的方法,通過管道從Python訪問R。PypeR也包含在Python的Package Index中,它提供了一種更方便的安裝方式。當(dāng)Python和R之間不需要頻繁的交互式數(shù)據(jù)傳輸時,PypeR特別有用。通過管道運行R,Python程序在流程操作系統(tǒng)平臺(包括Windows 、GNU Linux和Mac OS)的子流程控制下,可以獲得內(nèi)存控制和可移植性方面的靈活性。
pyRserve
(https://pypi.org/project/pyRserve/)
pyRserve使用Rserve作為RPC連接網(wǎng)關(guān)。通過這種連接,可以在Python中用R設(shè)置變量,也可以遠程調(diào)用R函數(shù)。R對象作為Python實現(xiàn)的類的實例公開,在許多情況下R函數(shù)作為這些對象的綁定方法。
- rpy2
(https://rpy2.bitbucket.io/)
rpy2在Python進程中運行嵌入式R。它創(chuàng)建了一個框架,可以將Python對象轉(zhuǎn)換為R對象,將它們傳遞給R函數(shù),并將R輸出轉(zhuǎn)換回Python對象。rpy2更常用,并且在積極開發(fā)中。
在Python中使用R的一個優(yōu)點是可以在Python中輕易使用R的強大軟件包,如ggplot2,tidyr,dplyr等。舉一個例子,讓我們看看如何在Python中使用ggplot2進行映射。
https://rpy2.github.io/doc/latest/html/graphics.html#plot
https://rpy2.github.io/doc/latest/html/graphics.html#geometry
在R中使用Python
我們可以使用下面其中一種替代方法在Python中運行R腳本:
- rJython
(https://r-forge.r-project.org/projects/rjython/)
該包通過Jython實現(xiàn)了Python的接口。它旨在讓其他包能夠與R一起嵌入python代碼。
- rPython
(https://cran.r-project.org/web/packages/rPython/index.html)
rPython又是一個允許R調(diào)用Python的包。它使得在R中運行Python代碼,進行函數(shù)調(diào)用,分配和檢索變量等成為可能。
- SnakeCharmR
(https://github.com/asieira/SnakeCharmR)
SnakeCharmR是rPython的現(xiàn)代版本。它是'rPython'的一個分支,它用了'jsonlite'并且比rPython有很多進步之處。
- PythonInR
(https://bitbucket.org/Floooo/pythoninr/)
PythonInR通過提供從內(nèi)部與Python交互的函數(shù),使得從R內(nèi)部訪問Python變得非常容易。
- reticulate
(https://github.com/rstudio/reticulate)
網(wǎng)狀軟件包為Python和R之間的互操作性提供了一套全面的工具。在上述所有選擇中,這個是最廣泛使用的,更是因為它正在被Rstudio積極開發(fā)。Reticulate在R會話中嵌入Python會話,實現(xiàn)無縫、高性能的互操作性。該軟件包使你能夠?qū)ython代碼網(wǎng)格化為R,從而創(chuàng)建一個將兩種語言編織在一起的新項目。
網(wǎng)狀包提供以下設(shè)施:
- 以各種方式從R調(diào)用Python,包括R Markdown,獲取Python腳本,導(dǎo)入Python模塊以及在R會話中以交互方式使用Python。
- R和Python對象之間的轉(zhuǎn)換(例如,R和Pandas數(shù)據(jù)幀之間,或R矩陣和NumPy數(shù)組之間)。
- 靈活地綁定到不同版本的Python,包括虛擬環(huán)境和Conda環(huán)境。
結(jié)論
R和Python都是非常強大的語言,其中任何一種語言都足以執(zhí)行數(shù)據(jù)分析任務(wù)。但是,對于這兩者來說肯定存在一些優(yōu)缺點,如果我們能夠利用兩者的優(yōu)勢,一定可以做得更好。無論如何,對二者進行充分的了解能夠讓我們在更多的環(huán)境中進行工作。