Python正在取代R,成為數(shù)據(jù)科學(xué)界新寵
R:不是真正的語言
人們學(xué)習(xí)R很困難的一部分原因是,它并不是一種真正的編程語言。John Cook是一位R專家,他曾說:“R是一個做統(tǒng)計的交互環(huán)境,不是一種真正的編程語言。把R看做包含有編程語言的交互環(huán)境會更有幫助。”
但正如Bob Muenchen強調(diào)的,R甚至對于那些精通SAS和SPSS數(shù)據(jù)統(tǒng)計工具的人來說都是困難的。關(guān)于R為分析師降低了復(fù)雜性的問題,還有待爭議,雖然R包含宏和矩陣語言,此外,你還需要掌握像SPSS等工具。但是對于那些期待R去實現(xiàn)類似Stata的功能的人,他們注定要失望。
綜合考慮,R的與眾不同使它較難學(xué)習(xí)。
Python降低數(shù)據(jù)科學(xué)技術(shù)壁壘

然而,Python更加平易近人。一方面,各種各樣的開發(fā)人員都熟悉Python并在廣泛的應(yīng)用領(lǐng)域使用它。不像R幾乎只用于數(shù)據(jù)分析,一個開發(fā)人員在第一次編寫他的網(wǎng)站腳本或其他應(yīng)用程序時,就可以體驗到Python。
隨著企業(yè)竭盡所能地使用數(shù)據(jù),他們也正在努力尋找合格的數(shù)據(jù)科學(xué)家。然而,正如Gartner的Svetlana Sicular所假設(shè)的,在本公司內(nèi)對員工培訓(xùn)一些簡單的大數(shù)據(jù)技術(shù),比培訓(xùn)新雇傭的數(shù)據(jù)科學(xué)家復(fù)雜的商業(yè)知識更有效率。
Python”所向披靡“
但是,除了可以利用現(xiàn)成的Python開發(fā)者資源,用Python語言做數(shù)據(jù)科學(xué)的最大好處之一是:在不同的應(yīng)用程序中使用一種編程語言所增加的效率。德克薩斯大學(xué)奧斯汀分校研究助理Tal Yarkoni解釋說:“事實證明,使用一種語言來做所有的開發(fā)和分析的好處是相當(dāng)可觀的。一方面,當(dāng)你可以用同一種語言做所有的事情的時候,你就不必一直提醒自己:Ruby使用blocks而不是comprehensions,在Python中得到數(shù)組的大小應(yīng)當(dāng)調(diào)用len(array),而不是array.length……
另外,你不需要再擔(dān)心項目的不同模塊采用不同語言的接口問題。沒有什么比在Python中解析一些文本數(shù)據(jù),然后將它轉(zhuǎn)換成內(nèi)部使用所需要的格式,最后才發(fā)現(xiàn)必須將它以另一種格式寫到磁盤上,以便R或者MATLAB去做分析更煩人的了。只要使用單一的語言,所有這些開銷都將消失。”
我們可以夸贊某個技術(shù)完美地解決了一個問題,但往往勝出的技術(shù)是解決一系列問題的通用工具。正如AppNexus優(yōu)化和分析主管David Himrod指出:“AppNexus面臨的最大挑戰(zhàn)之一是如何讓不同的員工使用相同的技術(shù)來工作。Python為具有不同背景的員工(尤其是工程師,數(shù)學(xué)家和分析師)提供了一種常見的、容易理解的語言,可用于公司將新功能進行標(biāo)準(zhǔn)化。”
使用Python的主流數(shù)據(jù)科學(xué)
相比R豐富的數(shù)據(jù)分析能力,Python尚有很多不足,但是它正在迅速的縮小差距。請記?。篜ython成功的關(guān)鍵并不是它比R或其他分析工具能夠處理更神秘的功能,而在于它的平易近人和通用的性質(zhì)。數(shù)據(jù)科學(xué)正在走出頭號怪胎的領(lǐng)域,上個月在紐約舉行的O'Reilly's Strata會議這一點尤為明顯:過去的與會者多是學(xué)術(shù)領(lǐng)域的博士,現(xiàn)在則是關(guān)鍵的業(yè)務(wù)分析師和其他被企業(yè)要求去弄清楚大數(shù)據(jù)業(yè)務(wù)的人。
相比R,這種新的,早期的“數(shù)據(jù)科學(xué)家”,將更多地使用Python。Python使用起來相對簡單,而且他們可能已經(jīng)將其用于一個項目中了。至于在其他市場,相比于那些功能強大但復(fù)雜的工具,熟悉或者容易學(xué)習(xí)的工具更容易取勝。


2023-05-29 16:57:06




