自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)時(shí)代,R 語(yǔ)言已蓄勢(shì)待發(fā)

譯文
系統(tǒng) 新聞 大數(shù)據(jù)
當(dāng)今系統(tǒng)收集的遙測(cè)數(shù)據(jù)類型變得多種多樣,并且為了深入理解,需要對(duì)數(shù)據(jù)進(jìn)行過濾;同時(shí),開源應(yīng)用變得越來廣受歡迎,這一切都在改變著 R 這一用于統(tǒng)計(jì)分析與可視化的語(yǔ)言。隨著時(shí)代的發(fā)展,R語(yǔ)言也在不斷的衍變,并成為了當(dāng)前很多大數(shù)據(jù)應(yīng)用當(dāng)中的一個(gè)環(huán)節(jié)。

【51CTO 6月5日外電頭條】上世紀(jì)60年代,大型機(jī)被引入學(xué)術(shù)領(lǐng)域與企業(yè)。從那時(shí)至今,統(tǒng)計(jì)分析一直存在。

然而,當(dāng)今系統(tǒng)收集的遙測(cè)數(shù)據(jù)類型變得多種多樣,并且為了深入理解,需要對(duì)數(shù)據(jù)進(jìn)行過濾;同時(shí),開源應(yīng)用變得越來廣受歡迎,這一切都在改變著 R 這一用于統(tǒng)計(jì)分析與可視化的語(yǔ)言。R 還有一個(gè)別名:統(tǒng)計(jì)領(lǐng)域的紅帽子。

所有人都喜歡 R 語(yǔ)言,尤其是大數(shù)據(jù)產(chǎn)品銷售商,比如數(shù)據(jù)倉(cāng)庫(kù)與 Hadoop 數(shù)據(jù)過濾器。部分原因在于,R 作為開源語(yǔ)言吸引了大量的統(tǒng)計(jì)學(xué)家與定量分析師,由這些聰明人構(gòu)成的社區(qū)能夠***該語(yǔ)言開發(fā)。

字母語(yǔ)言的盛宴

對(duì)于美國(guó)賽仕研究所(SAS Institute)開發(fā)的專有工具和大型機(jī)時(shí)代肇始之初的 SPSS 統(tǒng)計(jì)軟件,以及它們?cè)诜植际接?jì)算時(shí)代的后繼產(chǎn)品,情況并非如此。

正如可將 Linux 視為 Unix 的開源式模仿,R 編程語(yǔ)言大量借鑒了 S 語(yǔ)言。S 語(yǔ)言由貝爾實(shí)驗(yàn)室的約翰·錢伯斯(John Chambers)于 1976 年創(chuàng)建,而在此十幾年前出現(xiàn)的 SPSS 和 SAS 工具,令人尊敬但價(jià)格昂貴。S 語(yǔ)言的出現(xiàn)是對(duì)其作出的反擊。在很大程度上,S 語(yǔ)言可以看作 VAX 與 Unix 小型計(jì)算機(jī)時(shí)代的產(chǎn)物,而 R 語(yǔ)言是 PC 與 Linxu 時(shí)代的果實(shí)。

1996 年,羅斯·艾卡(Ross Ihaka)和羅伯特·簡(jiǎn)特曼(Robert Gentleman)共同創(chuàng)建了R 語(yǔ)言。這兩位來自新西蘭奧克蘭大學(xué)的統(tǒng)計(jì)學(xué)教授現(xiàn)在依然是 R 語(yǔ)言開發(fā)團(tuán)隊(duì)的核心成員。(順便指出:S 語(yǔ)言的創(chuàng)建者錢伯斯也是該團(tuán)隊(duì)的核心成員。某些用于 S 語(yǔ)言的數(shù)據(jù)處理線程不做任何更改即可在 R 語(yǔ)言環(huán)境中運(yùn)行,并非巧合。)

R 語(yǔ)言可視為 S 語(yǔ)言的現(xiàn)代化實(shí)現(xiàn)。S-PLUS 語(yǔ)言也是如此。一家名為 Insightful 的公司在 2004 年從Lucent Technologies 公司獲得 S 語(yǔ)言授權(quán),創(chuàng)建了 S-PLUS。Insightful 公司在 2008 年被 Tibco Software 公司收購(gòu)。

革命來臨

與 S 以及一定程度上的擴(kuò)展 S-PLUS 不同,R 并非是在象牙塔里閉門造車而編寫出了的代碼。它是由統(tǒng)計(jì)學(xué)家與程序員構(gòu)成的社區(qū)的產(chǎn)物,這一社區(qū)創(chuàng)建了 2500 多種插件,可處理各種各樣的數(shù)據(jù),并針對(duì)特定數(shù)據(jù)類型或行業(yè)進(jìn)行相應(yīng)的統(tǒng)計(jì)分析。

根據(jù) Revolution Analytics 公司的評(píng)估,在世界各地有 200 多萬定量分析師在使用 R 語(yǔ)言。該公司成立于 2007 年,提供了一種 R 語(yǔ)言的并行實(shí)現(xiàn)。從創(chuàng)始之初,該公司一直對(duì) R 語(yǔ)言采取核心開源策略,為開源語(yǔ)言包提供支持,同時(shí)對(duì) R 語(yǔ)言環(huán)境進(jìn)行擴(kuò)展,以便能夠在計(jì)算機(jī)集群更好地運(yùn)行并與 Hadoop 集群進(jìn)行協(xié)作。

時(shí)至今日,尚未有人對(duì) SPSS (2009 年 7 月被 IBM 收購(gòu))的開源對(duì)應(yīng)物 PSPP 進(jìn)行商業(yè)化,不過,毫無疑問,隨著 PSSP 的成熟, 將會(huì)看到商業(yè)化的那一天到來。

Revolution Analytics 公司在 2008 年從 Intel Capital 獲得了一些種子資金,并于 2009 年獲得 900 萬美元的風(fēng)險(xiǎn)投資,之后該公司開始在其 R Enterprise 產(chǎn)品中推廣 R 專有擴(kuò)展。該公司的這一策略并不僅僅是令 R 語(yǔ)言社區(qū)感到滿意。從那時(shí)起,Revolution Analytics 開始對(duì)底層 R 統(tǒng)計(jì)引擎進(jìn)行并行化處理,以便能夠在多核/多線程處理與服務(wù)器集群上更好的運(yùn)行;增加 NoSQL 類格式 XDF,幫助對(duì)數(shù)據(jù)機(jī)進(jìn)行并行化;同時(shí)增加對(duì)本地 SAS 文件格式以及轉(zhuǎn)化為 XDF 的支持。

不久以前,該公司對(duì)其 R 實(shí)現(xiàn)進(jìn)行調(diào)整,以便 Hadoop 集群的每個(gè)節(jié)點(diǎn)都可以對(duì) Hadoop 集群上存儲(chǔ)在 Hadoop 分布式文件系統(tǒng)中的數(shù)據(jù)進(jìn)行本地 R 分析,并對(duì)這些計(jì)算的結(jié)果進(jìn)行整合,類似 MapReduce 對(duì)非結(jié)構(gòu)化數(shù)據(jù)的操作。

過去幾年里,Revolution Analytics 公司從 R 社區(qū)里獲得大量的營(yíng)養(yǎng)。不過,其他公司也在做一些有趣的事情,將 R 工具集成至其自身的產(chǎn)品中,令從巨量數(shù)據(jù)中尋求答案的分析師的工作變得更加方便。

并行世界

Netezza 公司在2010 年 2 月開放 Netezza 軟件棧,其目的是為了在數(shù)據(jù)倉(cāng)儲(chǔ)空間獲得競(jìng)爭(zhēng)對(duì)手所沒有的某些優(yōu)勢(shì)。Netezza 是一家數(shù)據(jù)倉(cāng)儲(chǔ)應(yīng)用制造商,其產(chǎn)品是基于高度定制及并行化的PostgreSQL 數(shù)據(jù)庫(kù)版本,利用 FPGA(現(xiàn)場(chǎng)可編程門陣列)提升在 x86 集群上的運(yùn)行性能。

Netezza 利用一組 API 開發(fā)其軟件開發(fā)環(huán)境,這組 API 允許 SAS 和 R 算法在其倉(cāng)儲(chǔ)應(yīng)用中并行運(yùn)行。同樣,它還為Java、C++、Fortran 和 Python 應(yīng)用提供訪問數(shù)據(jù)倉(cāng)庫(kù)的鉤子(hook),并利用 FPGA 而不是 SQL 數(shù)據(jù)庫(kù)查詢語(yǔ)言提取儲(chǔ)存在倉(cāng)庫(kù)中的數(shù)據(jù)。

7 個(gè)月之后,當(dāng)大數(shù)據(jù)將成為一個(gè)大市場(chǎng)這一趨勢(shì)更加清晰可見時(shí),IBM 以 17 億美元的價(jià)格將 Netezza 收購(gòu)。

2010 年 10 月,數(shù)據(jù)倉(cāng)庫(kù)制造商 Teradata 利用 TeradataR 軟件包在其同名數(shù)據(jù)倉(cāng)庫(kù)中增加了自己的數(shù)據(jù)庫(kù)內(nèi)(in-database)分析。

這將 Teradata Warehouse Miner 工具轉(zhuǎn)變?yōu)?R 控制臺(tái)的一個(gè)插件,可在 Teradata 數(shù)據(jù)中執(zhí)行 44 種不同的分析函數(shù),同時(shí)任何在數(shù)據(jù)倉(cāng)庫(kù)中的存儲(chǔ)流程都對(duì) R 開發(fā)并可從 R 程序調(diào)用。另有 20 個(gè)函數(shù)可讓 R 在 Teradata 環(huán)境中運(yùn)行。

Oracle 的加入

甚至連 Oracle 也加入了 R 語(yǔ)言行動(dòng)。2 月份,該公司推出Advanced Analytics 工具,作為 Oracle 數(shù)據(jù)庫(kù)與 R 分析引擎之間的橋接。

Advanced Analytics 是 Oracle 在其 11g R2 數(shù)據(jù)庫(kù)中部署的 Data Mining 附件。當(dāng) R 程序員需要運(yùn)行統(tǒng)計(jì)例程時(shí),他們可以在數(shù)據(jù)挖掘工具箱中調(diào)用等同的 SQL 函數(shù),并在該數(shù)據(jù)庫(kù)中運(yùn)行。

如果沒有這樣的 SQL 函數(shù),遍歷數(shù)據(jù)庫(kù)節(jié)點(diǎn)(如果為集群)的嵌入式 R 引擎將運(yùn)行 R 例程,收集匯總數(shù)據(jù)并作為結(jié)果將其返回 R 控制臺(tái)。

另外,Oracle 為其 Big Data Appliance 提供了一個(gè)名為 R Connector for Hadoop 的工具,這是一個(gè)在 Oracle Exa x86 集群上運(yùn)行的 Cloudera CDH3 Hadoop 環(huán)境。該連接器可讓 R 控制臺(tái)與在 Big Data Appliance 上運(yùn)行的Hadoop 分布式文件系統(tǒng)和NoSQL 數(shù)據(jù)庫(kù)進(jìn)行通信。

原文:R is ready for big data

責(zé)任編輯:yangsai 來源: 51CTO.com
相關(guān)推薦

2011-03-30 13:34:07

Firefox 4.2

2012-06-19 09:39:51

VMware

2016-11-15 14:38:56

大數(shù)據(jù)應(yīng)用數(shù)據(jù)革命

2013-04-19 10:34:08

2015-07-08 14:40:55

新炬數(shù)據(jù)資產(chǎn)大數(shù)據(jù)

2013-10-08 15:49:04

2016-11-08 12:46:17

醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)

2021-05-28 16:39:29

RSAC2021

2018-03-06 09:49:28

云計(jì)算PaaSIaaS

2009-11-06 10:02:37

接入網(wǎng)技術(shù)

2009-06-29 10:03:05

WLAN802.11n無線網(wǎng)絡(luò)

2013-06-25 10:24:16

4GTD-LTEMarvell

2016-10-26 11:59:21

華為智慧城市

2012-07-24 10:18:29

IPv4IPv6

2012-10-15 10:17:22

2010-08-16 09:45:40

Rails 3Ruby on Rai

2014-09-01 10:08:56

華為HCC

2011-04-08 09:31:57

平板電腦版Chrome

2011-03-11 11:30:56

云計(jì)算非關(guān)系數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)