四大機(jī)器學(xué)習(xí)編程語言對(duì)比:R、Python、MATLAB、Octave
本文作者是一位機(jī)器學(xué)習(xí)工程師,他比較了四種機(jī)器學(xué)習(xí)編程語言(工具):R、Python、MATLAB 和 OCTAVE。作者列出了這些語言(工具)的優(yōu)缺點(diǎn),希望對(duì)想開始學(xué)習(xí)它們的人有用。
圖源:Pixabay.com
GitHub 地址:https://github.com/mjbahmani/10-steps-to-become-a-data-scientist
R語言
R 是一種用于統(tǒng)計(jì)計(jì)算和圖的語言及環(huán)境。它是一個(gè) GNU 項(xiàng)目,與貝爾實(shí)驗(yàn)室的 John Chambers 及其同事開發(fā)的 S 語言及環(huán)境類似。R 可以視為 S 的一種不同實(shí)現(xiàn)。二者存在一些重要差異,但使用 S 寫的很多代碼在 R 下運(yùn)行時(shí)無需修改。
優(yōu)點(diǎn):
- 端到端開發(fā)到執(zhí)行(一些 brokers package 允許執(zhí)行,IB)
- 開發(fā)速度快(比 Python 的代碼少 60%)
- 開源包多
- 成熟的量化交易包(quantstrat、quantmod、performanceanalyitics、xts)
- 社區(qū)最大
- 使用 rcpp 可以整合 R 和 C++/C
缺點(diǎn):
- 比 Python 慢,尤其是在迭代循環(huán)和非向量化函數(shù)中
- 比 Matlab 繪圖差,難以實(shí)現(xiàn)交互式圖表
- 創(chuàng)建獨(dú)立應(yīng)用程序的能力有限
Python
Python 是一種用于通用編程的解釋型高級(jí)編程語言,由 Guido van Rossum 創(chuàng)建并于 1991 年首次發(fā)布。Python 的設(shè)計(jì)強(qiáng)調(diào)代碼可讀性,使用了大量空格。它的結(jié)構(gòu)使其在大規(guī)模和小規(guī)模編程中都能清晰明了。
優(yōu)點(diǎn):
- 端到端開發(fā)到執(zhí)行(一些 brokers package 允許執(zhí)行,IB)
- 開源包(Pandas、Numpy、scipy)
- 交易包(zipline、pybacktest、pyalgotrade)
- 最適合一般編程和應(yīng)用程序開發(fā)
- 可連接 R、C++ 和其他語言的「膠水」語言
- 總體速度最快,尤其是在迭代循環(huán)中
缺點(diǎn):
- 有一些不成熟的包,尤其是交易包
- 有些包與其他包不兼容或包含重疊
- 在金融領(lǐng)域的社區(qū)比 R 小
- 與 R 或 Matlab 相比,相同操作需要更多代碼
- 追蹤靜默錯(cuò)誤(silent error)可能需要很長時(shí)間(即使使用可視化調(diào)試器/IDE)
MATLAB
MATLAB(matrix laboratory)是一種多范型數(shù)值計(jì)算環(huán)境。作為 MathWorks 開發(fā)的一種專用編程語言,MATLAB 允許矩陣運(yùn)算、函數(shù)和數(shù)據(jù)繪圖、算法實(shí)現(xiàn)、用戶界面創(chuàng)建,以及與用其他語言(包括 C、C++、C#、Java、Fortran、Python)寫成的程序進(jìn)行交互。
盡管 MATLAB 的設(shè)計(jì)初衷是數(shù)值計(jì)算,但其中的可選工具箱使用 MuPAD symbolic engine,具備符號(hào)計(jì)算能力。額外的包 Simulink 添加了圖多領(lǐng)域模擬和針對(duì)動(dòng)態(tài)和嵌入系統(tǒng)的基于模型的設(shè)計(jì)。
優(yōu)點(diǎn):
- 最快的數(shù)學(xué)和計(jì)算平臺(tái),尤其是向量化運(yùn)算/線性矩陣代數(shù)。
- 適合所有數(shù)學(xué)和交易領(lǐng)域的商業(yè)級(jí)軟件。
- 腳本簡短,但高度集成了所有包。
- 擁有圖和交互式圖表的最佳可視化
- 具備良好測試和支持。
- 易于管理多線程支持和垃圾收集
- 最好的調(diào)試器
缺點(diǎn):
- 無法執(zhí)行,必須轉(zhuǎn)換成另一種語言。
- 昂貴:每個(gè) license 大約 1000 美元,每添加一個(gè)包需要額外支付 50+ 美元。
- 無法與其他語言很好地集成。
- 很難檢測出交易系統(tǒng)中的偏差(它是為數(shù)學(xué)和工程模擬而構(gòu)建的),因此可能需要廣泛的測試。
- 糟糕的迭代循環(huán)性能。
- 無法開發(fā)單獨(dú)的應(yīng)用。
Octave
Octave 可以看作是商業(yè)語言 MATLAB 的 GNU 版本,它是一種腳本矩陣語言(scripting matrix language),其語法有大約 95% 可與 MATLAB 兼容。Octave 由工程師設(shè)計(jì),因此預(yù)裝了工程師常用的程序,其中很多時(shí)間序列分析程序、統(tǒng)計(jì)程序、文件命令和繪圖命令與 MATLAB 語言相同。
優(yōu)點(diǎn):
- 首先,目前沒有可用的魯棒性 Octave 編譯器,且沒有必要有,因?yàn)樵撥浖梢悦赓M(fèi)安裝。
- Octave 和 Matlab 的語言元素相同,除了一些個(gè)例,如嵌套函數(shù)。Octave 仍然處于積極開發(fā)的狀態(tài),每一個(gè)偏離 Matlab 語法之處都被視為 bug 或者至少是待解決問題。
- Octave 有很多可用工具箱,只要程序不要求圖輸出,那么在不進(jìn)行大量更改的前提下,使用 Octave 運(yùn)行和使用 Matlab 運(yùn)行差不多。
- 圖方面的能力是 Matlab 的優(yōu)勢。Matlab 最新版本包括 GUI 設(shè)計(jì)器,包含大量很棒的可視化特征。
- Octave 使用 GNU Plot 或 JHandles 作為圖程序包,JHandles 與 Matlab 中的圖程序包更接近一些。但是,Octave 不具備類似 GUI 設(shè)計(jì)器的組件,其可視化機(jī)制很受限且不與 Matlab 兼容。
- 集成開發(fā)環(huán)境也是類似的情況:Octave 有一個(gè) QTOctave 項(xiàng)目,但仍處于早期階段。
- Octave 社區(qū)的合作很可能幫助該軟件很快提供更好、更兼容的圖以及 GUI 能力。
缺點(diǎn):
它只是 MATLAB 的免費(fèi)開源版本,無法帶給用戶新的東西。
下表列舉了數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師的常用工具,讀者可以查看這些工具的流行度。
原文鏈接:
https://towardsdatascience.com/r-vs-python-vs-matlab-vs-octave-c28cd059aa69
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】