5個(gè)開源數(shù)據(jù)挖掘工具,收下這波干貨
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取隱藏的或未知,但可能有用信息的過程。尤其在機(jī)器學(xué)習(xí)中,數(shù)據(jù)挖掘是十分重要的一環(huán)。今天給大家介紹5個(gè)開源數(shù)據(jù)挖掘工具,收下這波干貨吧。
1. Orange
Orange 是由C++ 和 Python開發(fā)的,基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,它的功能很豐富,而且強(qiáng)大。它包含了一系列組件,能進(jìn)行數(shù)據(jù)預(yù)處理,并提供了數(shù)據(jù)帳目,過渡,建模,模式評(píng)估和勘探的功能。通過它快速且多功能的可視化編程前端,能夠?yàn)g覽數(shù)據(jù)分析和可視化,可以綁定Python進(jìn)行腳本開發(fā)。
2. KNIME
KNIME 由Java寫成,它基于Eclipse,是一個(gè)開源的、智能的,而且有豐富數(shù)據(jù)集成,數(shù)據(jù)處理,數(shù)據(jù)分析和數(shù)據(jù)勘探的平臺(tái)。它可視化的方式,能夠創(chuàng)建數(shù)據(jù)流或數(shù)據(jù)通道,而且可以選擇性地運(yùn)行分析步驟,并研究結(jié)果,模型以及可交互的視圖。并且,可以集成到其它各種各樣的開源項(xiàng)目中,比如:R語言,Weka, Chemistry Development Kit等。
3. Apache Mahout
Apache Mahout是分布式線性代數(shù)框架,這個(gè)框架是具有數(shù)學(xué)表達(dá)能力的Scala DSL,構(gòu)建了一個(gè)用于快速創(chuàng)建可擴(kuò)展,且性能驅(qū)動(dòng)的機(jī)器學(xué)習(xí)應(yīng)用程序的環(huán)境,可以使得數(shù)據(jù)科學(xué)家、統(tǒng)計(jì)學(xué)家等更迅速地實(shí)現(xiàn)其算法。
4. Weka
Weka是用Java編寫的,可以在大部分平臺(tái)上運(yùn)行,是一種開源機(jī)器學(xué)習(xí)軟件,能通過圖形用戶界面,標(biāo)準(zhǔn)終端應(yīng)用程序或Java API進(jìn)行訪問??傊且粋€(gè)集合,用來解決實(shí)際數(shù)據(jù)挖掘問題的機(jī)器學(xué)習(xí)算法。
5. DataMelt
DataMelt是一個(gè)開源軟件,用于數(shù)值計(jì)算,數(shù)學(xué)、統(tǒng)計(jì)、符號(hào)計(jì)算,數(shù)據(jù)分析和數(shù)據(jù)可視化的。DataMelt可以與Java平臺(tái)的幾種腳本語言一起使用,例如Jython,Groovy,JRuby(Ruby編程語言)和BeanShell等。