推薦！國外程序員整理的機(jī)器學(xué)習(xí)資源大全

作者：toolate 2014-07-22 10:13:04

開發(fā) 開發(fā)工具后端

本列表選編了一些機(jī)器學(xué)習(xí)領(lǐng)域牛B的框架、庫以及軟件（按編程語言排序）。

C++

計(jì)算機(jī)視覺

CCV —基于C語言/提供緩存/核心的機(jī)器視覺庫，新穎的機(jī)器視覺庫
OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口，并支持Windows, Linux, Android and Mac OS操作系統(tǒng)。

通用機(jī)器學(xué)習(xí)

MLPack
DLib
ecogg
shark

Closure

通用機(jī)器學(xué)習(xí)

Closure Toolbox—Clojure語言庫與工具的分類目錄

Go

自然語言處理

go-porterstemmer—一個(gè)Porter詞干提取算法的原生Go語言凈室實(shí)現(xiàn)
paicehusk—Paice/Husk詞干提取算法的Go語言實(shí)現(xiàn)
snowball—Go語言版的Snowball詞干提取器

通用機(jī)器學(xué)習(xí)

Go Learn— Go語言機(jī)器學(xué)習(xí)庫
go-pr —Go語言機(jī)器學(xué)習(xí)包.
bayesian—Go語言樸素貝葉斯分類庫。
go-galib—Go語言遺傳算法庫。

數(shù)據(jù)分析/數(shù)據(jù)可視化

go-graph—Go語言圖形庫。
SVGo—Go語言的SVG生成庫。

Java

自然語言處理

CoreNLP—斯坦福大學(xué)的CoreNLP提供一系列的自然語言處理工具，輸入原始英語文本，可以給出單詞的基本形式（下面Stanford開頭的幾個(gè)工具都包含其中）。
Stanford Parser—一個(gè)自然語言解析器。
Stanford POS Tagger —一個(gè)詞性分類器。
Stanford Name Entity Recognizer—Java實(shí)現(xiàn)的名稱識(shí)別器
Stanford Word Segmenter—分詞器，很多NLP工作中都要用到的標(biāo)準(zhǔn)預(yù)處理步驟。
Tregex, Tsurgeon and Semgrex —用來在樹狀數(shù)據(jù)結(jié)構(gòu)中進(jìn)行模式匹配，基于樹關(guān)系以及節(jié)點(diǎn)匹配的正則表達(dá)式（名字是“tree regular expressions”的縮寫）。
Stanford Phrasal:最新的基于統(tǒng)計(jì)短語的機(jī)器翻譯系統(tǒng)， java編寫
Stanford Tokens Regex—用以定義文本模式的框架。
Stanford Temporal Tagger—SUTime是一個(gè)識(shí)別并標(biāo)準(zhǔn)化時(shí)間表達(dá)式的庫。
Stanford SPIED—在種子集上使用模式，以迭代方式從無標(biāo)簽文本中學(xué)習(xí)字符實(shí)體
Stanford Topic Modeling Toolbox —為社會(huì)科學(xué)家及其他希望分析數(shù)據(jù)集的人員提供的主題建模工具。
Twitter Text Java—Java實(shí)現(xiàn)的推特文本處理庫
MALLET -—基于Java的統(tǒng)計(jì)自然語言處理、文檔分類、聚類、主題建模、信息提取以及其他機(jī)器學(xué)習(xí)文本應(yīng)用包。
OpenNLP—處理自然語言文本的機(jī)器學(xué)習(xí)工具包。
LingPipe —使用計(jì)算機(jī)語言學(xué)處理文本的工具包。

通用機(jī)器學(xué)習(xí)

MLlib in Apache Spark—Spark中的分布式機(jī)器學(xué)習(xí)程序庫
Mahout —分布式的機(jī)器學(xué)習(xí)庫
Stanford Classifier —斯坦福大學(xué)的分類器
Weka—Weka是數(shù)據(jù)挖掘方面的機(jī)器學(xué)習(xí)算法集。
ORYX—提供一個(gè)簡單的大規(guī)模實(shí)時(shí)機(jī)器學(xué)習(xí)/預(yù)測分析基礎(chǔ)架構(gòu)。

數(shù)據(jù)分析/數(shù)據(jù)可視化

Hadoop—大數(shù)據(jù)分析平臺(tái)
Spark—快速通用的大規(guī)模數(shù)據(jù)處理引擎。
Impala —為Hadoop實(shí)現(xiàn)實(shí)時(shí)查詢

Javascript

自然語言處理

Twitter-text-js —JavaScript實(shí)現(xiàn)的推特文本處理庫
NLP.js —javascript及coffeescript編寫的NLP工具
natural—Node下的通用NLP工具
Knwl.js—JS編寫的自然語言處理器

通用機(jī)器學(xué)習(xí)

Convnet.js—訓(xùn)練深度學(xué)習(xí)模型的JavaScript庫。
Clustering.js—用JavaScript實(shí)現(xiàn)的聚類算法，供Node.js及瀏覽器使用。
Decision Trees—Node.js實(shí)現(xiàn)的決策樹，使用ID3算法。
Node-fann —Node.js下的快速人工神經(jīng)網(wǎng)絡(luò)庫。
Kmeans.js—k-means算法的簡單Javascript實(shí)現(xiàn)，供Node.js及瀏覽器使用。
LDA.js —供Node.js用的LDA主題建模工具。
Learning.js—邏輯回歸/c4.5決策樹的JavaScript實(shí)現(xiàn)
Machine Learning—Node.js的機(jī)器學(xué)習(xí)庫。
Node-SVM—Node.js的支持向量機(jī)
Brain —JavaScript實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)
Bayesian-Bandit —貝葉斯強(qiáng)盜算法的實(shí)現(xiàn)，供Node.js及瀏覽器使用。

Julia

通用機(jī)器學(xué)習(xí)

PGM—Julia實(shí)現(xiàn)的概率圖模型框架。
DA—Julia實(shí)現(xiàn)的正則化判別分析包。
Regression—回歸分析算法包（如線性回歸和邏輯回歸）。
Local Regression —局部回歸，非常平滑！
Naive Bayes —樸素貝葉斯的簡單Julia實(shí)現(xiàn)
Mixed Models —（統(tǒng)計(jì)）混合效應(yīng)模型的Julia包
Simple MCMC —Julia實(shí)現(xiàn)的基本mcmc采樣器
Distance—Julia實(shí)現(xiàn)的距離評(píng)估模塊
Decision Tree —決策樹分類器及回歸分析器
Neural —Julia實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)
MCMC —Julia下的MCMC工具
GLM —Julia寫的廣義線性模型包
Online Learning
GLMNet —GMLNet的Julia包裝版，適合套索/彈性網(wǎng)模型。
Clustering—數(shù)據(jù)聚類的基本函數(shù)：k-means, dp-means等。
SVM—Julia下的支持向量機(jī)。
Kernal Density—Julia下的核密度估計(jì)器
Dimensionality Reduction—降維算法
NMF —Julia下的非負(fù)矩陣分解包
ANN—Julia實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)

自然語言處理

Topic Models —Julia下的主題建模
Text Analysis—Julia下的文本分析包

數(shù)據(jù)分析/數(shù)據(jù)可視化

Graph Layout —純Julia實(shí)現(xiàn)的圖布局算法。
Data Frames Meta —DataFrames的元編程工具。
Julia Data—處理表格數(shù)據(jù)的Julia庫
Data Read—從Stata、SAS、SPSS讀取文件
Hypothesis Tests—Julia中的假設(shè)檢驗(yàn)包
Gladfly —Julia編寫的靈巧的統(tǒng)計(jì)繪圖系統(tǒng)。
Stats—Julia編寫的統(tǒng)計(jì)測試函數(shù)包
RDataSets —讀取R語言中眾多可用的數(shù)據(jù)集的Julia函數(shù)包。
DataFrames —處理表格數(shù)據(jù)的Julia庫。
Distributions—概率分布及相關(guān)函數(shù)的Julia包。
Data Arrays —元素值可以為空的數(shù)據(jù)結(jié)構(gòu)。
Time Series—Julia的時(shí)間序列數(shù)據(jù)工具包。
Sampling—Julia的基本采樣算法包

雜項(xiàng)/演示文稿

DSP —數(shù)字信號(hào)處理
JuliaCon Presentations—Julia大會(huì)上的演示文稿
SignalProcessing—Julia的信號(hào)處理工具
Images—Julia的圖片庫

Lua

通用機(jī)器學(xué)習(xí)

Torch7
- cephes —Cephes數(shù)學(xué)函數(shù)庫，包裝成Torch可用形式。提供并包裝了超過180個(gè)特殊的數(shù)學(xué)函數(shù)，由Stephen L. Moshier開發(fā)，是SciPy的核心，應(yīng)用于很多場合。
- graph —供Torch使用的圖形包。
- randomkit—從Numpy提取的隨機(jī)數(shù)生成包，包裝成Torch可用形式。
- signal —Torch-7可用的信號(hào)處理工具包，可進(jìn)行FFT, DCT, Hilbert, cepstrums, stft等變換。
- nn —Torch可用的神經(jīng)網(wǎng)絡(luò)包。
- nngraph —為nn庫提供圖形計(jì)算能力。
- nnx—一個(gè)不穩(wěn)定實(shí)驗(yàn)性的包，擴(kuò)展Torch內(nèi)置的nn庫。
- optim—Torch可用的優(yōu)化算法庫，包括 SGD, Adagrad, 共軛梯度算法, LBFGS, RProp等算法。
- unsup—Torch下的非監(jiān)督學(xué)習(xí)包。提供的模塊與nn(LinearPsd, ConvPsd, AutoEncoder, …)及獨(dú)立算法 (k-means, PCA)等兼容。
- manifold—操作流形的包。
- svm—Torch的支持向量機(jī)庫。
- lbfgs—將liblbfgs包裝為FFI接口。
- vowpalwabbit —老版的vowpalwabbit對(duì)torch的接口。
- OpenGM—OpenGM是C++編寫的圖形建模及推斷庫，該binding可以用Lua以簡單的方式描述圖形，然后用OpenGM優(yōu)化。
- sphagetti —MichaelMathieu為torch7編寫的稀疏線性模塊。
- LuaSHKit —將局部敏感哈希庫SHKit包裝成lua可用形式。
- kernel smoothing —KNN、核權(quán)平均以及局部線性回歸平滑器
- cutorch—torch的CUDA后端實(shí)現(xiàn)
- cunn —torch的CUDA神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。
- imgraph—torch的圖像/圖形庫，提供從圖像創(chuàng)建圖形、分割、建立樹、又轉(zhuǎn)化回圖像的例程
- videograph—torch的視頻/圖形庫，提供從視頻創(chuàng)建圖形、分割、建立樹、又轉(zhuǎn)化回視頻的例程
- saliency —積分圖像的代碼和工具，用來從快速積分直方圖中尋找興趣點(diǎn)。
- stitch —使用hugin拼合圖像并將其生成視頻序列。
- sfm—運(yùn)動(dòng)場景束調(diào)整/結(jié)構(gòu)包
- fex —torch的特征提取包，提供SIFT和dSIFT模塊。
- OverFeat—當(dāng)前最高水準(zhǔn)的通用密度特征提取器。
Numeric Lua
Lunatic Python
SciLua
Lua – Numerical Algorithms
Lunum

演示及腳本

Core torch7 demos repository.核心torch7演示程序庫
- 線性回歸、邏輯回歸
- 人臉檢測（訓(xùn)練和檢測是獨(dú)立的演示）
- 基于mst的斷詞器
- train-a-digit-classifier
- train-autoencoder
- optical flow demo
- train-on-housenumbers
- train-on-cifar
- tracking with deep nets
- kinect demo
- 濾波可視化
- saliency-networks
Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
Music Tagging—torch7下的音樂標(biāo)簽?zāi)_本
torch-datasets 讀取幾個(gè)流行的數(shù)據(jù)集的腳本，包括：
- BSR 500
- CIFAR-10
- COIL
- Street View House Numbers
- MNIST
- NORB
Atari2600 —在Arcade Learning Environment模擬器中用靜態(tài)幀生成數(shù)據(jù)集的腳本。

#p#

Matlab

計(jì)算機(jī)視覺

Contourlets —實(shí)現(xiàn)輪廓波變換及其使用函數(shù)的MATLAB源代碼
Shearlets—剪切波變換的MATLAB源碼
Curvelets—Curvelet變換的MATLAB源碼（Curvelet變換是對(duì)小波變換向更高維的推廣，用來在不同尺度角度表示圖像。）
Bandlets—Bandlets變換的MATLAB源碼

自然語言處理

NLP —一個(gè)Matlab的NLP庫

通用機(jī)器學(xué)習(xí)

Training a deep autoencoder or a classifier on MNIST digits—在MNIST字符數(shù)據(jù)集上訓(xùn)練一個(gè)深度的autoencoder或分類器[深度學(xué)習(xí)]。
t-Distributed Stochastic Neighbor Embedding —獲獎(jiǎng)的降維技術(shù)，特別適合于高維數(shù)據(jù)集的可視化
Spider—Matlab機(jī)器學(xué)習(xí)的完整面向?qū)ο蟓h(huán)境。
LibSVM —支持向量機(jī)程序庫
LibLinear —大型線性分類程序庫
Machine Learning Module —M. A .Girolami教授的機(jī)器學(xué)習(xí)課程，包括PDF，講義及代碼。
Caffe—考慮了代碼清潔、可讀性及速度的深度學(xué)習(xí)框架
Pattern Recognition Toolbox —Matlab中的模式識(shí)別工具包，完全面向?qū)ο?/p>

數(shù)據(jù)分析/數(shù)據(jù)可視化

matlab_gbl—處理圖像的Matlab包
gamic—圖像算法純Matlab高效實(shí)現(xiàn)，對(duì)MatlabBGL的mex函數(shù)是個(gè)補(bǔ)充。

.NET

計(jì)算機(jī)視覺

OpenCVDotNet —包裝器，使.NET程序能使用OpenCV代碼
Emgu CV—跨平臺(tái)的包裝器，能在Windows, Linus, Mac OS X, iOS, 和Android上編譯。

自然語言處理

Stanford.NLP for .NET —斯坦福大學(xué)NLP包在.NET上的完全移植，還可作為NuGet包進(jìn)行預(yù)編譯。

通用機(jī)器學(xué)習(xí)

Accord.MachineLearning —支持向量機(jī)、決策樹、樸素貝葉斯模型、K-means、高斯混合模型和機(jī)器學(xué)習(xí)應(yīng)用的通用算法，例如：隨機(jī)抽樣一致性算法、交叉驗(yàn)證、網(wǎng)格搜索。這個(gè)包是Accord.NET框架的一部分。
Vulpes—F#語言實(shí)現(xiàn)的Deep belief和深度學(xué)習(xí)包，它在Alea.cuBase下利用CUDA GPU來執(zhí)行。
Encog —先進(jìn)的神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)框架，包括用來創(chuàng)建多種網(wǎng)絡(luò)的類，也支持神經(jīng)網(wǎng)絡(luò)需要的數(shù)據(jù)規(guī)則化及處理的類。它的訓(xùn)練采用多線程彈性傳播。它也能使用GPU加快處理時(shí)間。提供了圖形化界面來幫助建模和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
Neural Network Designer —這是一個(gè)數(shù)據(jù)庫管理系統(tǒng)和神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)器。設(shè)計(jì)器用WPF開發(fā)，也是一個(gè)UI，你可以設(shè)計(jì)你的神經(jīng)網(wǎng)絡(luò)、查詢網(wǎng)絡(luò)、創(chuàng)建并配置聊天機(jī)器人，它能問問題，并從你的反饋中學(xué)習(xí)。這些機(jī)器人甚至可以從網(wǎng)絡(luò)搜集信息用來輸出，或是用來學(xué)習(xí)。

數(shù)據(jù)分析/數(shù)據(jù)可視化

numl —numl這個(gè)機(jī)器學(xué)習(xí)庫，目標(biāo)就是簡化預(yù)測和聚類的標(biāo)準(zhǔn)建模技術(shù)。
Math.NET Numerics— Math.NET項(xiàng)目的數(shù)值計(jì)算基礎(chǔ)，著眼提供科學(xué)、工程以及日常數(shù)值計(jì)算的方法和算法。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ，Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及裝有 PCL Portable Profiles 47 及 344的Windows 8，裝有 Xamarin的Android/iOS 。
Sho — Sho是數(shù)據(jù)分析和科學(xué)計(jì)算的交互式環(huán)境，可以讓你將腳本（IronPython語言）和編譯的代碼（.NET）無縫連接，以快速靈活的建立原型。這個(gè)環(huán) 境包括強(qiáng)大高效的庫，如線性代數(shù)、數(shù)據(jù)可視化，可供任何.NET語言使用，還為快速開發(fā)提供了功能豐富的交互式shell。

Python

計(jì)算機(jī)視覺

SimpleCV—開源的計(jì)算機(jī)視覺框架，可以訪問如OpenCV等高性能計(jì)算機(jī)視覺庫。使用Python編寫，可以在Mac、Windows以及Ubuntu上運(yùn)行。

自然語言處理

NLTK —一個(gè)領(lǐng)先的平臺(tái)，用來編寫處理人類語言數(shù)據(jù)的Python程序
Pattern—Python可用的web挖掘模塊，包括自然語言處理、機(jī)器學(xué)習(xí)等工具。
TextBlob—為普通自然語言處理任務(wù)提供一致的API，以NLTK和Pattern為基礎(chǔ)，并和兩者都能很好兼容。
jieba—中文斷詞工具。
SnowNLP —中文文本處理庫。
loso—另一個(gè)中文斷詞庫。
genius —基于條件隨機(jī)域的中文斷詞庫。
nut —自然語言理解工具包。

通用機(jī)器學(xué)習(xí)

Bayesian Methods for Hackers —Python語言概率規(guī)劃的電子書
MLlib in Apache Spark—Spark下的分布式機(jī)器學(xué)習(xí)庫。
scikit-learn—基于SciPy的機(jī)器學(xué)習(xí)模塊
graphlab-create —包含多種機(jī)器學(xué)習(xí)模塊的庫（回歸，聚類，推薦系統(tǒng)，圖分析等），基于可以磁盤存儲(chǔ)的DataFrame。
BigML—連接外部服務(wù)器的庫。
pattern—Python的web挖掘模塊
NuPIC—Numenta公司的智能計(jì)算平臺(tái)。
Pylearn2—基于Theano的機(jī)器學(xué)習(xí)庫。
hebel —Python編寫的使用GPU加速的深度學(xué)習(xí)庫。
gensim—主題建模工具。
PyBrain—另一個(gè)機(jī)器學(xué)習(xí)庫。
Crab —可擴(kuò)展的、快速推薦引擎。
python-recsys —Python實(shí)現(xiàn)的推薦系統(tǒng)。
thinking bayes—關(guān)于貝葉斯分析的書籍
Restricted Boltzmann Machines —Python實(shí)現(xiàn)的受限波爾茲曼機(jī)。[深度學(xué)習(xí)]。
Bolt —在線學(xué)習(xí)工具箱。
CoverTree —cover tree的Python實(shí)現(xiàn)，scipy.spatial.kdtree便捷的替代。
nilearn—Python實(shí)現(xiàn)的神經(jīng)影像學(xué)機(jī)器學(xué)習(xí)庫。
Shogun—機(jī)器學(xué)習(xí)工具箱。
Pyevolve —遺傳算法框架。
Caffe —考慮了代碼清潔、可讀性及速度的深度學(xué)習(xí)框架
breze—深度及遞歸神經(jīng)網(wǎng)絡(luò)的程序庫，基于Theano。

數(shù)據(jù)分析/數(shù)據(jù)可視化

SciPy —基于Python的數(shù)學(xué)、科學(xué)、工程開源軟件生態(tài)系統(tǒng)。
NumPy—Python科學(xué)計(jì)算基礎(chǔ)包。
Numba —Python的低級(jí)虛擬機(jī)JIT編譯器，Cython and NumPy的開發(fā)者編寫，供科學(xué)計(jì)算使用
NetworkX —為復(fù)雜網(wǎng)絡(luò)使用的高效軟件。
Pandas—這個(gè)庫提供了高性能、易用的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)分析工具。
Open Mining—Python中的商業(yè)智能工具（Pandas web接口）。
PyMC —MCMC采樣工具包。
zipline—Python的算法交易庫。
PyDy—全名Python Dynamics，協(xié)助基于NumPy, SciPy, IPython以及 matplotlib的動(dòng)態(tài)建模工作流。
SymPy —符號(hào)數(shù)學(xué)Python庫。
statsmodels—Python的統(tǒng)計(jì)建模及計(jì)量經(jīng)濟(jì)學(xué)庫。
astropy —Python天文學(xué)程序庫，社區(qū)協(xié)作編寫
matplotlib —Python的2D繪圖庫。
bokeh—Python的交互式Web繪圖庫。
plotly —Python and matplotlib的協(xié)作web繪圖庫。
vincent—將Python數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為Vega可視化語法。
d3py—Python的繪圖庫，基于D3.js。
ggplot —和R語言里的ggplot2提供同樣的API。
Kartograph.py—Python中渲染SVG圖的庫，效果漂亮。
pygal—Python下的SVG圖表生成器。
pycascading

雜項(xiàng)腳本/iPython筆記/代碼庫

pattern_classification
thinking stats 2
hyperopt
numpic
2012-paper-diginorm
ipython-notebooks
decision-weights
Sarah Palin LDA —Sarah Palin關(guān)于主題建模的電郵。
Diffusion Segmentation —基于擴(kuò)散方法的圖像分割算法集合。
Scipy Tutorials —SciPy教程，已過時(shí)，請(qǐng)查看scipy-lecture-notes
Crab—Python的推薦引擎庫。
BayesPy—Python中的貝葉斯推斷工具。
scikit-learn tutorials—scikit-learn學(xué)習(xí)筆記系列
sentiment-analyzer —推特情緒分析器
group-lasso—坐標(biāo)下降算法實(shí)驗(yàn)，應(yīng)用于（稀疏）群套索模型。
mne-python-notebooks—使用 mne-python進(jìn)行EEG/MEG數(shù)據(jù)處理的IPython筆記
pandas cookbook—使用Python pandas庫的方法書。
climin—機(jī)器學(xué)習(xí)的優(yōu)化程序庫，用Python實(shí)現(xiàn)了梯度下降、LBFGS、rmsprop、adadelta 等算法。

Kaggle競賽源代碼

wiki challange —Kaggle上一個(gè)維基預(yù)測挑戰(zhàn)賽 Dell Zhang解法的實(shí)現(xiàn)。
kaggle insults—Kaggle上”從社交媒體評(píng)論中檢測辱罵“競賽提交的代碼
kaggle_acquire-valued-shoppers-challenge—Kaggle預(yù)測回頭客挑戰(zhàn)賽的代碼
kaggle-cifar —Kaggle上CIFAR-10 競賽的代碼，使用cuda-convnet
kaggle-blackbox —Kaggle上blackbox賽代碼，關(guān)于深度學(xué)習(xí)。
kaggle-accelerometer —Kaggle上加速度計(jì)數(shù)據(jù)識(shí)別用戶競賽的代碼
kaggle-advertised-salaries —Kaggle上用廣告預(yù)測工資競賽的代碼
kaggle amazon —Kaggle上給定員工角色預(yù)測其訪問需求競賽的代碼
kaggle-bestbuy_big—Kaggle上根據(jù)bestbuy用戶查詢預(yù)測點(diǎn)擊商品競賽的代碼（大數(shù)據(jù)版）
kaggle-bestbuy_small—Kaggle上根據(jù)bestbuy用戶查詢預(yù)測點(diǎn)擊商品競賽的代碼（小數(shù)據(jù)版）
Kaggle Dogs vs. Cats —Kaggle上從圖片中識(shí)別貓和狗競賽的代碼
Kaggle Galaxy Challenge —Kaggle上遙遠(yuǎn)星系形態(tài)分類競賽的優(yōu)勝代碼
Kaggle Gender —Kaggle競賽：從筆跡區(qū)分性別
Kaggle Merck—Kaggle上預(yù)測藥物分子活性競賽的代碼（默克制藥贊助）
Kaggle Stackoverflow—Kaggle上預(yù)測Stack Overflow網(wǎng)站問題是否會(huì)被關(guān)閉競賽的代碼
wine-quality —預(yù)測紅酒質(zhì)量。

Ruby

自然語言處理

Treat—文本檢索與注釋工具包，Ruby上我見過的最全面的工具包。
Ruby Linguistics—這個(gè)框架可以用任何語言為Ruby對(duì)象構(gòu)建語言學(xué)工具。包括一個(gè)語言無關(guān)的通用前端，一個(gè)將語言代碼映射到語言名的模塊，和一個(gè)含有很有英文語言工具的模塊。
Stemmer—使得Ruby可用 libstemmer_c中的接口。
Ruby Wordnet —WordNet的Ruby接口庫。
Raspel —aspell綁定到Ruby的接口
UEA Stemmer—UEALite Stemmer的Ruby移植版，供搜索和檢索用的保守的詞干分析器
Twitter-text-rb—該程序庫可以將推特中的用戶名、列表和話題標(biāo)簽自動(dòng)連接并提取出來。

通用機(jī)器學(xué)習(xí)

Ruby Machine Learning —Ruby實(shí)現(xiàn)的一些機(jī)器學(xué)習(xí)算法。
Machine Learning Ruby
jRuby Mahout —精華！在JRuby世界中釋放了Apache Mahout的威力。
CardMagic-Classifier—可用貝葉斯及其他分類法的通用分類器模塊。
Neural Networks and Deep Learning—《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)》一書的示例代碼。

數(shù)據(jù)分析/數(shù)據(jù)可視化

rsruby - Ruby – R bridge
data-visualization-ruby—關(guān)于數(shù)據(jù)可視化的Ruby Manor演示的源代碼和支持內(nèi)容
ruby-plot —將gnuplot包裝為Ruby形式，特別適合將ROC曲線轉(zhuǎn)化為svg文件。
plot-rb—基于Vega和D3的ruby繪圖庫
scruffy —Ruby下出色的圖形工具包
SciRuby
Glean—數(shù)據(jù)管理工具
Bioruby
Arel

Misc
雜項(xiàng)

Big Data For Chimps—大數(shù)據(jù)處理嚴(yán)肅而有趣的指南書

R

通用機(jī)器學(xué)習(xí)

Clever Algorithms For Machine Learning
Machine Learning For Hackers
Machine Learning Task View on CRAN—R語言機(jī)器學(xué)習(xí)包列表，按算法類型分組。
caret—R語言150個(gè)機(jī)器學(xué)習(xí)算法的統(tǒng)一接口
SuperLearner and subsemble—該包集合了多種機(jī)器學(xué)習(xí)算法
Introduction to Statistical Learning

數(shù)據(jù)分析/數(shù)據(jù)可視化

Learning Statistics Using R
ggplot2—基于圖形語法的數(shù)據(jù)可視化包。

Scala

自然語言處理

ScalaNLP—機(jī)器學(xué)習(xí)和數(shù)值計(jì)算庫的套裝
Breeze —Scala用的數(shù)值處理庫
Chalk—自然語言處理庫。
FACTORIE—可部署的概率建模工具包，用Scala實(shí)現(xiàn)的軟件庫。為用戶提供簡潔的語言來創(chuàng)建關(guān)系因素圖，評(píng)估參數(shù)并進(jìn)行推斷。