推薦!國外程序員整理的機(jī)器學(xué)習(xí)資源大全
本列表選編了一些機(jī)器學(xué)習(xí)領(lǐng)域牛B的框架、庫以及軟件(按編程語言排序)。
C++
計(jì)算機(jī)視覺
-
CCV —基于C語言/提供緩存/核心的機(jī)器視覺庫,新穎的機(jī)器視覺庫
-
OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系統(tǒng)。
通用機(jī)器學(xué)習(xí)
Closure
通用機(jī)器學(xué)習(xí)
-
Closure Toolbox—Clojure語言庫與工具的分類目錄
Go
自然語言處理
-
go-porterstemmer—一個(gè)Porter詞干提取算法的原生Go語言凈室實(shí)現(xiàn)
-
paicehusk—Paice/Husk詞干提取算法的Go語言實(shí)現(xiàn)
-
snowball—Go語言版的Snowball詞干提取器
通用機(jī)器學(xué)習(xí)
-
Go Learn— Go語言機(jī)器學(xué)習(xí)庫
-
go-pr —Go語言機(jī)器學(xué)習(xí)包.
-
bayesian—Go語言樸素貝葉斯分類庫。
-
go-galib—Go語言遺傳算法庫。
數(shù)據(jù)分析/數(shù)據(jù)可視化
Java
自然語言處理
-
CoreNLP—斯坦福大學(xué)的CoreNLP提供一系列的自然語言處理工具,輸入原始英語文本,可以給出單詞的基本形式(下面Stanford開頭的幾個(gè)工具都包含其中)。
-
Stanford Parser—一個(gè)自然語言解析器。
-
Stanford POS Tagger —一個(gè)詞性分類器。
-
Stanford Name Entity Recognizer—Java實(shí)現(xiàn)的名稱識(shí)別器
-
Stanford Word Segmenter—分詞器,很多NLP工作中都要用到的標(biāo)準(zhǔn)預(yù)處理步驟。
-
Tregex, Tsurgeon and Semgrex —用來在樹狀數(shù)據(jù)結(jié)構(gòu)中進(jìn)行模式匹配,基于樹關(guān)系以及節(jié)點(diǎn)匹配的正則表達(dá)式(名字是“tree regular expressions”的縮寫)。
-
Stanford Phrasal:最新的基于統(tǒng)計(jì)短語的機(jī)器翻譯系統(tǒng), java編寫
-
Stanford Tokens Regex—用以定義文本模式的框架。
-
Stanford Temporal Tagger—SUTime是一個(gè)識(shí)別并標(biāo)準(zhǔn)化時(shí)間表達(dá)式的庫。
-
Stanford SPIED—在種子集上使用模式,以迭代方式從無標(biāo)簽文本中學(xué)習(xí)字符實(shí)體
-
Stanford Topic Modeling Toolbox —為社會(huì)科學(xué)家及其他希望分析數(shù)據(jù)集的人員提供的主題建模工具。
-
Twitter Text Java—Java實(shí)現(xiàn)的推特文本處理庫
-
MALLET -—基于Java的統(tǒng)計(jì)自然語言處理、文檔分類、聚類、主題建模、信息提取以及其他機(jī)器學(xué)習(xí)文本應(yīng)用包。
-
OpenNLP—處理自然語言文本的機(jī)器學(xué)習(xí)工具包。
-
LingPipe —使用計(jì)算機(jī)語言學(xué)處理文本的工具包。
通用機(jī)器學(xué)習(xí)
-
MLlib in Apache Spark—Spark中的分布式機(jī)器學(xué)習(xí)程序庫
-
Mahout —分布式的機(jī)器學(xué)習(xí)庫
-
Stanford Classifier —斯坦福大學(xué)的分類器
-
Weka—Weka是數(shù)據(jù)挖掘方面的機(jī)器學(xué)習(xí)算法集。
-
ORYX—提供一個(gè)簡單的大規(guī)模實(shí)時(shí)機(jī)器學(xué)習(xí)/預(yù)測分析基礎(chǔ)架構(gòu)。
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
Hadoop—大數(shù)據(jù)分析平臺(tái)
-
Spark—快速通用的大規(guī)模數(shù)據(jù)處理引擎。
-
Impala —為Hadoop實(shí)現(xiàn)實(shí)時(shí)查詢
Javascript
自然語言處理
-
Twitter-text-js —JavaScript實(shí)現(xiàn)的推特文本處理庫
-
NLP.js —javascript及coffeescript編寫的NLP工具
-
natural—Node下的通用NLP工具
-
Knwl.js—JS編寫的自然語言處理器
數(shù)據(jù)分析/數(shù)據(jù)可視化
通用機(jī)器學(xué)習(xí)
-
Convnet.js—訓(xùn)練深度學(xué)習(xí)模型的JavaScript庫。
-
Clustering.js—用JavaScript實(shí)現(xiàn)的聚類算法,供Node.js及瀏覽器使用。
-
Decision Trees—Node.js實(shí)現(xiàn)的決策樹,使用ID3算法。
-
Node-fann —Node.js下的快速人工神經(jīng)網(wǎng)絡(luò)庫。
-
Kmeans.js—k-means算法的簡單Javascript實(shí)現(xiàn),供Node.js及瀏覽器使用。
-
LDA.js —供Node.js用的LDA主題建模工具。
-
Learning.js—邏輯回歸/c4.5決策樹的JavaScript實(shí)現(xiàn)
-
Machine Learning—Node.js的機(jī)器學(xué)習(xí)庫。
-
Node-SVM—Node.js的支持向量機(jī)
-
Brain —JavaScript實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)
-
Bayesian-Bandit —貝葉斯強(qiáng)盜算法的實(shí)現(xiàn),供Node.js及瀏覽器使用。
Julia
通用機(jī)器學(xué)習(xí)
-
PGM—Julia實(shí)現(xiàn)的概率圖模型框架。
-
DA—Julia實(shí)現(xiàn)的正則化判別分析包。
-
Regression—回歸分析算法包(如線性回歸和邏輯回歸)。
-
Local Regression —局部回歸,非常平滑!
-
Naive Bayes —樸素貝葉斯的簡單Julia實(shí)現(xiàn)
-
Mixed Models —(統(tǒng)計(jì))混合效應(yīng)模型的Julia包
-
Simple MCMC —Julia實(shí)現(xiàn)的基本mcmc采樣器
-
Distance—Julia實(shí)現(xiàn)的距離評(píng)估模塊
-
Decision Tree —決策樹分類器及回歸分析器
-
Neural —Julia實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)
-
MCMC —Julia下的MCMC工具
-
GLM —Julia寫的廣義線性模型包
-
GLMNet —GMLNet的Julia包裝版,適合套索/彈性網(wǎng)模型。
-
Clustering—數(shù)據(jù)聚類的基本函數(shù):k-means, dp-means等。
-
SVM—Julia下的支持向量機(jī)。
-
Kernal Density—Julia下的核密度估計(jì)器
-
NMF —Julia下的非負(fù)矩陣分解包
-
ANN—Julia實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)
自然語言處理
-
Topic Models —Julia下的主題建模
-
Text Analysis—Julia下的文本分析包
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
Graph Layout —純Julia實(shí)現(xiàn)的圖布局算法。
-
Data Frames Meta —DataFrames的元編程工具。
-
Julia Data—處理表格數(shù)據(jù)的Julia庫
-
Data Read—從Stata、SAS、SPSS讀取文件
-
Hypothesis Tests—Julia中的假設(shè)檢驗(yàn)包
-
Gladfly —Julia編寫的靈巧的統(tǒng)計(jì)繪圖系統(tǒng)。
-
Stats—Julia編寫的統(tǒng)計(jì)測試函數(shù)包
-
RDataSets —讀取R語言中眾多可用的數(shù)據(jù)集的Julia函數(shù)包。
-
DataFrames —處理表格數(shù)據(jù)的Julia庫。
-
Distributions—概率分布及相關(guān)函數(shù)的Julia包。
-
Data Arrays —元素值可以為空的數(shù)據(jù)結(jié)構(gòu)。
-
Time Series—Julia的時(shí)間序列數(shù)據(jù)工具包。
-
Sampling—Julia的基本采樣算法包
雜項(xiàng)/演示文稿
-
DSP —數(shù)字信號(hào)處理
-
JuliaCon Presentations—Julia大會(huì)上的演示文稿
-
SignalProcessing—Julia的信號(hào)處理工具
-
Images—Julia的圖片庫
Lua
通用機(jī)器學(xué)習(xí)
-
-
cephes —Cephes數(shù)學(xué)函數(shù)庫,包裝成Torch可用形式。提供并包裝了超過180個(gè)特殊的數(shù)學(xué)函數(shù),由Stephen L. Moshier開發(fā),是SciPy的核心,應(yīng)用于很多場合。
-
graph —供Torch使用的圖形包。
-
randomkit—從Numpy提取的隨機(jī)數(shù)生成包,包裝成Torch可用形式。
-
signal —Torch-7可用的信號(hào)處理工具包,可進(jìn)行FFT, DCT, Hilbert, cepstrums, stft等變換。
-
nn —Torch可用的神經(jīng)網(wǎng)絡(luò)包。
-
nngraph —為nn庫提供圖形計(jì)算能力。
-
nnx—一個(gè)不穩(wěn)定實(shí)驗(yàn)性的包,擴(kuò)展Torch內(nèi)置的nn庫。
-
optim—Torch可用的優(yōu)化算法庫,包括 SGD, Adagrad, 共軛梯度算法, LBFGS, RProp等算法。
-
unsup—Torch下的非監(jiān)督學(xué)習(xí)包。提供的模塊與nn(LinearPsd, ConvPsd, AutoEncoder, …)及獨(dú)立算法 (k-means, PCA)等兼容。
-
manifold—操作流形的包。
-
svm—Torch的支持向量機(jī)庫。
-
lbfgs—將liblbfgs包裝為FFI接口。
-
vowpalwabbit —老版的vowpalwabbit對(duì)torch的接口。
-
OpenGM—OpenGM是C++編寫的圖形建模及推斷庫,該binding可以用Lua以簡單的方式描述圖形,然后用OpenGM優(yōu)化。
-
sphagetti —MichaelMathieu為torch7編寫的稀疏線性模塊。
-
LuaSHKit —將局部敏感哈希庫SHKit包裝成lua可用形式。
-
kernel smoothing —KNN、核權(quán)平均以及局部線性回歸平滑器
-
cutorch—torch的CUDA后端實(shí)現(xiàn)
-
cunn —torch的CUDA神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。
-
imgraph—torch的圖像/圖形庫,提供從圖像創(chuàng)建圖形、分割、建立樹、又轉(zhuǎn)化回圖像的例程
-
videograph—torch的視頻/圖形庫,提供從視頻創(chuàng)建圖形、分割、建立樹、又轉(zhuǎn)化回視頻的例程
-
saliency —積分圖像的代碼和工具,用來從快速積分直方圖中尋找興趣點(diǎn)。
-
stitch —使用hugin拼合圖像并將其生成視頻序列。
-
sfm—運(yùn)動(dòng)場景束調(diào)整/結(jié)構(gòu)包
-
fex —torch的特征提取包,提供SIFT和dSIFT模塊。
-
OverFeat—當(dāng)前最高水準(zhǔn)的通用密度特征提取器。
-
演示及腳本
-
Core torch7 demos repository.核心torch7演示程序庫
-
線性回歸、邏輯回歸
-
人臉檢測(訓(xùn)練和檢測是獨(dú)立的演示)
-
基于mst的斷詞器
-
train-a-digit-classifier
-
train-autoencoder
-
optical flow demo
-
train-on-housenumbers
-
train-on-cifar
-
tracking with deep nets
-
kinect demo
-
濾波可視化
-
saliency-networks
-
-
Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
-
Music Tagging—torch7下的音樂標(biāo)簽?zāi)_本
-
torch-datasets 讀取幾個(gè)流行的數(shù)據(jù)集的腳本,包括:
-
BSR 500
-
CIFAR-10
-
COIL
-
Street View House Numbers
-
MNIST
-
NORB
-
-
Atari2600 —在Arcade Learning Environment模擬器中用靜態(tài)幀生成數(shù)據(jù)集的腳本。
#p#
Matlab
計(jì)算機(jī)視覺
-
Contourlets —實(shí)現(xiàn)輪廓波變換及其使用函數(shù)的MATLAB源代碼
-
Shearlets—剪切波變換的MATLAB源碼
-
Curvelets—Curvelet變換的MATLAB源碼(Curvelet變換是對(duì)小波變換向更高維的推廣,用來在不同尺度角度表示圖像。)
-
Bandlets—Bandlets變換的MATLAB源碼
自然語言處理
-
NLP —一個(gè)Matlab的NLP庫
通用機(jī)器學(xué)習(xí)
-
Training a deep autoencoder or a classifier on MNIST digits—在MNIST字符數(shù)據(jù)集上訓(xùn)練一個(gè)深度的autoencoder或分類器[深度學(xué)習(xí)]。
-
t-Distributed Stochastic Neighbor Embedding —獲獎(jiǎng)的降維技術(shù),特別適合于高維數(shù)據(jù)集的可視化
-
Spider—Matlab機(jī)器學(xué)習(xí)的完整面向?qū)ο蟓h(huán)境。
-
LibSVM —支持向量機(jī)程序庫
-
LibLinear —大型線性分類程序庫
-
Machine Learning Module —M. A .Girolami教授的機(jī)器學(xué)習(xí)課程,包括PDF,講義及代碼。
-
Caffe—考慮了代碼清潔、可讀性及速度的深度學(xué)習(xí)框架
-
Pattern Recognition Toolbox —Matlab中的模式識(shí)別工具包,完全面向?qū)ο?/p>
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
matlab_gbl—處理圖像的Matlab包
-
gamic—圖像算法純Matlab高效實(shí)現(xiàn),對(duì)MatlabBGL的mex函數(shù)是個(gè)補(bǔ)充。
.NET
計(jì)算機(jī)視覺
-
OpenCVDotNet —包裝器,使.NET程序能使用OpenCV代碼
-
Emgu CV—跨平臺(tái)的包裝器,能在Windows, Linus, Mac OS X, iOS, 和Android上編譯。
自然語言處理
-
Stanford.NLP for .NET —斯坦福大學(xué)NLP包在.NET上的完全移植,還可作為NuGet包進(jìn)行預(yù)編譯。
通用機(jī)器學(xué)習(xí)
-
Accord.MachineLearning —支持向量機(jī)、決策樹、樸素貝葉斯模型、K-means、高斯混合模型和機(jī)器學(xué)習(xí)應(yīng)用的通用算法,例如:隨機(jī)抽樣一致性算法、交叉驗(yàn)證、網(wǎng)格搜索。這個(gè)包是Accord.NET框架的一部分。
-
Vulpes—F#語言實(shí)現(xiàn)的Deep belief和深度學(xué)習(xí)包,它在Alea.cuBase下利用CUDA GPU來執(zhí)行。
-
Encog —先進(jìn)的神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)框架,包括用來創(chuàng)建多種網(wǎng)絡(luò)的類,也支持神經(jīng)網(wǎng)絡(luò)需要的數(shù)據(jù)規(guī)則化及處理的類。它的訓(xùn)練采用多線程彈性傳播。它也能使用GPU加快處理時(shí)間。提供了圖形化界面來幫助建模和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
-
Neural Network Designer —這是一個(gè)數(shù)據(jù)庫管理系統(tǒng)和神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)器。設(shè)計(jì)器用WPF開發(fā),也是一個(gè)UI,你可以設(shè)計(jì)你的神經(jīng)網(wǎng)絡(luò)、查詢網(wǎng)絡(luò)、創(chuàng)建并配置聊天機(jī)器人,它能問問題,并從你的反饋中學(xué)習(xí)。這些機(jī)器人甚至可以從網(wǎng)絡(luò)搜集信息用來輸出,或是用來學(xué)習(xí)。
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
numl —numl這個(gè)機(jī)器學(xué)習(xí)庫,目標(biāo)就是簡化預(yù)測和聚類的標(biāo)準(zhǔn)建模技術(shù)。
-
Math.NET Numerics— Math.NET項(xiàng)目的數(shù)值計(jì)算基礎(chǔ),著眼提供科學(xué)、工程以及日常數(shù)值計(jì)算的方法和算法。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及裝有 PCL Portable Profiles 47 及 344的Windows 8, 裝有 Xamarin的Android/iOS 。
-
Sho — Sho是數(shù)據(jù)分析和科學(xué)計(jì)算的交互式環(huán)境,可以讓你將腳本(IronPython語言)和編譯的代碼(.NET)無縫連接,以快速靈活的建立原型。這個(gè)環(huán) 境包括強(qiáng)大高效的庫,如線性代數(shù)、數(shù)據(jù)可視化,可供任何.NET語言使用,還為快速開發(fā)提供了功能豐富的交互式shell。
Python
計(jì)算機(jī)視覺
-
SimpleCV—開源的計(jì)算機(jī)視覺框架,可以訪問如OpenCV等高性能計(jì)算機(jī)視覺庫。使用Python編寫,可以在Mac、Windows以及Ubuntu上運(yùn)行。
自然語言處理
-
NLTK —一個(gè)領(lǐng)先的平臺(tái),用來編寫處理人類語言數(shù)據(jù)的Python程序
-
Pattern—Python可用的web挖掘模塊,包括自然語言處理、機(jī)器學(xué)習(xí)等工具。
-
TextBlob—為普通自然語言處理任務(wù)提供一致的API,以NLTK和Pattern為基礎(chǔ),并和兩者都能很好兼容。
-
jieba—中文斷詞工具。
-
SnowNLP —中文文本處理庫。
-
loso—另一個(gè)中文斷詞庫。
-
genius —基于條件隨機(jī)域的中文斷詞庫。
-
nut —自然語言理解工具包。
通用機(jī)器學(xué)習(xí)
-
Bayesian Methods for Hackers —Python語言概率規(guī)劃的電子書
-
MLlib in Apache Spark—Spark下的分布式機(jī)器學(xué)習(xí)庫。
-
scikit-learn—基于SciPy的機(jī)器學(xué)習(xí)模塊
-
graphlab-create —包含多種機(jī)器學(xué)習(xí)模塊的庫(回歸,聚類,推薦系統(tǒng),圖分析等),基于可以磁盤存儲(chǔ)的DataFrame。
-
BigML—連接外部服務(wù)器的庫。
-
pattern—Python的web挖掘模塊
-
NuPIC—Numenta公司的智能計(jì)算平臺(tái)。
-
Pylearn2—基于Theano的機(jī)器學(xué)習(xí)庫。
-
hebel —Python編寫的使用GPU加速的深度學(xué)習(xí)庫。
-
gensim—主題建模工具。
-
PyBrain—另一個(gè)機(jī)器學(xué)習(xí)庫。
-
Crab —可擴(kuò)展的、快速推薦引擎。
-
python-recsys —Python實(shí)現(xiàn)的推薦系統(tǒng)。
-
thinking bayes—關(guān)于貝葉斯分析的書籍
-
Restricted Boltzmann Machines —Python實(shí)現(xiàn)的受限波爾茲曼機(jī)。[深度學(xué)習(xí)]。
-
Bolt —在線學(xué)習(xí)工具箱。
-
CoverTree —cover tree的Python實(shí)現(xiàn),scipy.spatial.kdtree便捷的替代。
-
nilearn—Python實(shí)現(xiàn)的神經(jīng)影像學(xué)機(jī)器學(xué)習(xí)庫。
-
Shogun—機(jī)器學(xué)習(xí)工具箱。
-
Pyevolve —遺傳算法框架。
-
Caffe —考慮了代碼清潔、可讀性及速度的深度學(xué)習(xí)框架
-
breze—深度及遞歸神經(jīng)網(wǎng)絡(luò)的程序庫,基于Theano。
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
SciPy —基于Python的數(shù)學(xué)、科學(xué)、工程開源軟件生態(tài)系統(tǒng)。
-
NumPy—Python科學(xué)計(jì)算基礎(chǔ)包。
-
Numba —Python的低級(jí)虛擬機(jī)JIT編譯器,Cython and NumPy的開發(fā)者編寫,供科學(xué)計(jì)算使用
-
NetworkX —為復(fù)雜網(wǎng)絡(luò)使用的高效軟件。
-
Pandas—這個(gè)庫提供了高性能、易用的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)分析工具。
-
Open Mining—Python中的商業(yè)智能工具(Pandas web接口)。
-
PyMC —MCMC采樣工具包。
-
zipline—Python的算法交易庫。
-
PyDy—全名Python Dynamics,協(xié)助基于NumPy, SciPy, IPython以及 matplotlib的動(dòng)態(tài)建模工作流。
-
SymPy —符號(hào)數(shù)學(xué)Python庫。
-
statsmodels—Python的統(tǒng)計(jì)建模及計(jì)量經(jīng)濟(jì)學(xué)庫。
-
astropy —Python天文學(xué)程序庫,社區(qū)協(xié)作編寫
-
matplotlib —Python的2D繪圖庫。
-
bokeh—Python的交互式Web繪圖庫。
-
plotly —Python and matplotlib的協(xié)作web繪圖庫。
-
vincent—將Python數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為Vega可視化語法。
-
d3py—Python的繪圖庫,基于D3.js。
-
ggplot —和R語言里的ggplot2提供同樣的API。
-
Kartograph.py—Python中渲染SVG圖的庫,效果漂亮。
-
pygal—Python下的SVG圖表生成器。
雜項(xiàng)腳本/iPython筆記/代碼庫
-
Sarah Palin LDA —Sarah Palin關(guān)于主題建模的電郵。
-
Diffusion Segmentation —基于擴(kuò)散方法的圖像分割算法集合。
-
Scipy Tutorials —SciPy教程,已過時(shí),請(qǐng)查看scipy-lecture-notes
-
Crab—Python的推薦引擎庫。
-
BayesPy—Python中的貝葉斯推斷工具。
-
scikit-learn tutorials—scikit-learn學(xué)習(xí)筆記系列
-
sentiment-analyzer —推特情緒分析器
-
group-lasso—坐標(biāo)下降算法實(shí)驗(yàn),應(yīng)用于(稀疏)群套索模型。
-
mne-python-notebooks—使用 mne-python進(jìn)行EEG/MEG數(shù)據(jù)處理的IPython筆記
-
pandas cookbook—使用Python pandas庫的方法書。
-
climin—機(jī)器學(xué)習(xí)的優(yōu)化程序庫,用Python實(shí)現(xiàn)了梯度下降、LBFGS、rmsprop、adadelta 等算法。
Kaggle競賽源代碼
-
wiki challange —Kaggle上一個(gè)維基預(yù)測挑戰(zhàn)賽 Dell Zhang解法的實(shí)現(xiàn)。
-
kaggle insults—Kaggle上”從社交媒體評(píng)論中檢測辱罵“競賽提交的代碼
-
kaggle_acquire-valued-shoppers-challenge—Kaggle預(yù)測回頭客挑戰(zhàn)賽的代碼
-
kaggle-cifar —Kaggle上CIFAR-10 競賽的代碼,使用cuda-convnet
-
kaggle-blackbox —Kaggle上blackbox賽代碼,關(guān)于深度學(xué)習(xí)。
-
kaggle-accelerometer —Kaggle上加速度計(jì)數(shù)據(jù)識(shí)別用戶競賽的代碼
-
kaggle-advertised-salaries —Kaggle上用廣告預(yù)測工資競賽的代碼
-
kaggle amazon —Kaggle上給定員工角色預(yù)測其訪問需求競賽的代碼
-
kaggle-bestbuy_big—Kaggle上根據(jù)bestbuy用戶查詢預(yù)測點(diǎn)擊商品競賽的代碼(大數(shù)據(jù)版)
-
kaggle-bestbuy_small—Kaggle上根據(jù)bestbuy用戶查詢預(yù)測點(diǎn)擊商品競賽的代碼(小數(shù)據(jù)版)
-
Kaggle Dogs vs. Cats —Kaggle上從圖片中識(shí)別貓和狗競賽的代碼
-
Kaggle Galaxy Challenge —Kaggle上遙遠(yuǎn)星系形態(tài)分類競賽的優(yōu)勝代碼
-
Kaggle Gender —Kaggle競賽:從筆跡區(qū)分性別
-
Kaggle Merck—Kaggle上預(yù)測藥物分子活性競賽的代碼(默克制藥贊助)
-
Kaggle Stackoverflow—Kaggle上 預(yù)測Stack Overflow網(wǎng)站問題是否會(huì)被關(guān)閉競賽的代碼
-
wine-quality —預(yù)測紅酒質(zhì)量。
Ruby
自然語言處理
-
Treat—文本檢索與注釋工具包,Ruby上我見過的最全面的工具包。
-
Ruby Linguistics—這個(gè)框架可以用任何語言為Ruby對(duì)象構(gòu)建語言學(xué)工具。包括一個(gè)語言無關(guān)的通用前端,一個(gè)將語言代碼映射到語言名的模塊,和一個(gè)含有很有英文語言工具的模塊。
-
Stemmer—使得Ruby可用 libstemmer_c中的接口。
-
Ruby Wordnet —WordNet的Ruby接口庫。
-
Raspel —aspell綁定到Ruby的接口
-
UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜索和檢索用的保守的詞干分析器
-
Twitter-text-rb—該程序庫可以將推特中的用戶名、列表和話題標(biāo)簽自動(dòng)連接并提取出來。
通用機(jī)器學(xué)習(xí)
-
Ruby Machine Learning —Ruby實(shí)現(xiàn)的一些機(jī)器學(xué)習(xí)算法。
-
jRuby Mahout —精華!在JRuby世界中釋放了Apache Mahout的威力。
-
CardMagic-Classifier—可用貝葉斯及其他分類法的通用分類器模塊。
-
Neural Networks and Deep Learning—《神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)》一書的示例代碼。
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
rsruby - Ruby – R bridge
-
data-visualization-ruby—關(guān)于數(shù)據(jù)可視化的Ruby Manor演示的源代碼和支持內(nèi)容
-
ruby-plot —將gnuplot包裝為Ruby形式,特別適合將ROC曲線轉(zhuǎn)化為svg文件。
-
plot-rb—基于Vega和D3的ruby繪圖庫
-
scruffy —Ruby下出色的圖形工具包
-
Glean—數(shù)據(jù)管理工具
Misc
雜項(xiàng)
-
Big Data For Chimps—大數(shù)據(jù)處理嚴(yán)肅而有趣的指南書
R
通用機(jī)器學(xué)習(xí)
-
Machine Learning Task View on CRAN—R語言機(jī)器學(xué)習(xí)包列表,按算法類型分組。
-
caret—R語言150個(gè)機(jī)器學(xué)習(xí)算法的統(tǒng)一接口
-
SuperLearner and subsemble—該包集合了多種機(jī)器學(xué)習(xí)算法
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
ggplot2—基于圖形語法的數(shù)據(jù)可視化包。
Scala
自然語言處理
-
ScalaNLP—機(jī)器學(xué)習(xí)和數(shù)值計(jì)算庫的套裝
-
Breeze —Scala用的數(shù)值處理庫
-
Chalk—自然語言處理庫。
-
FACTORIE—可部署的概率建模工具包,用Scala實(shí)現(xiàn)的軟件庫。為用戶提供簡潔的語言來創(chuàng)建關(guān)系因素圖,評(píng)估參數(shù)并進(jìn)行推斷。
數(shù)據(jù)分析/數(shù)據(jù)可視化
-
MLlib in Apache Spark—Spark下的分布式機(jī)器學(xué)習(xí)庫
-
Scalding —CAscading的Scala接口
-
Summing Bird—用Scalding 和 Storm進(jìn)行Streaming MapReduce
-
Algebird —Scala的抽象代數(shù)工具
-
xerial —Scala的數(shù)據(jù)管理工具
-
simmer —化簡你的數(shù)據(jù),進(jìn)行代數(shù)聚合的unix過濾器
-
PredictionIO —供軟件開發(fā)者和數(shù)據(jù)工程師用的機(jī)器學(xué)習(xí)服務(wù)器。
-
BIDMat—支持大規(guī)模探索性數(shù)據(jù)分析的CPU和GPU加速矩陣庫。
通用機(jī)器學(xué)習(xí)
-
Conjecture—Scalding下可擴(kuò)展的機(jī)器學(xué)習(xí)框架
-
brushfire—scalding下的決策樹工具。
-
ganitha —基于scalding的機(jī)器學(xué)習(xí)程序庫
-
adam—使用Apache Avro, Apache Spark 和 Parquet的基因組處理引擎,有專用的文件格式,Apache 2軟件許可。
-
bioscala —Scala語言可用的生物信息學(xué)程序庫
-
BIDMach—機(jī)器學(xué)習(xí)CPU和GPU加速庫。
原文鏈接: awesome-machine-learning 翻譯: 伯樂在線 - toolate