2018年一定要收藏的20款免費預測分析軟件!
本文推薦一些免費的預測分析軟件,它們主要用于分析統(tǒng)計使用,機器學習和數(shù)據(jù)挖掘來尋找關于客戶行為,市場趨勢和原始數(shù)據(jù)集中其他領域的線索的相關性和模式。其中一些預測建模解決方案可通過許可,免費獲得開源或社區(qū)版本;其中一些預測分析軟件是商業(yè)版本的免費版或社區(qū)版,但提供的功能較少。
什么是預測分析軟件?
預測分析是高級分析的一個分支,用于對未來未知事件進行預測。預測分析使用數(shù)據(jù)挖掘,統(tǒng)計,建模,機器學習和人工智能等多種技術來分析當前數(shù)據(jù),以預測未來!那么下面將為大家簡單介紹一下以下的20多款工具!
1.R Software Environment
R是用于統(tǒng)計計算和圖形的免費軟件,可運行在各種UNIX,Windows和Mac OS平臺上。R提供了廣泛的統(tǒng)計功能,如線性,非線性建模,經(jīng)典統(tǒng)計測試,時間序列分析,分類,聚類和圖形技術。它也是高度可擴展的,提供數(shù)據(jù)操作,計算和圖形顯示,數(shù)據(jù)處理,數(shù)組計算,數(shù)據(jù)分析工具,包括條件,循環(huán)和許多其他功能的編程語言。語言主要用于統(tǒng)計方法論的研究,R為它們提供了一個開源的途徑,可以在R中產(chǎn)生精心設計的質(zhì)量圖,包括數(shù)學符號和公式。
2.Dataiku
Dataiku Data Studio(DSS)是一個軟件平臺,匯總了從原始數(shù)據(jù)到生產(chǎn)應用程序所需的所有步驟和大數(shù)據(jù)工具。DSS分析數(shù)據(jù)通過簡單的界面操作,即可找到數(shù)據(jù)中的相關性和重要變量,并測試***擬合模型。DSS還可以將模型和預測值發(fā)布到各種其他目的地,例如ElasticSearch,F(xiàn)TP服務器和內(nèi)部數(shù)據(jù)倉庫。

3.Orange Data mining
Orange Data mining是一個開源的數(shù)據(jù)可視化和分析工具。數(shù)據(jù)挖掘是通過可視化編程或通過Python腳本完成的。Orange會記住這些選擇,提供最常用的組合,并智能地選擇要使用的小部件之間的通信通道??梢岳们楣?jié),條形圖,樹狀圖,網(wǎng)絡和熱圖來進行可視化。有機器學習的組件,可用于生物信息學和文本挖掘。該解決方案包含了用于數(shù)據(jù)分析的功能,并且在Orange中有超過100個小部件。

4.RapidMiner
RapidMiner可作為數(shù)據(jù)分析的獨立應用程序使用,也可作為集成到專有產(chǎn)品中的數(shù)據(jù)挖掘引擎。RapidMiner提供數(shù)據(jù)挖掘和機器學習程序,包括數(shù)據(jù)加載和轉(zhuǎn)換,數(shù)據(jù)預處理,可視化,建模,評估和部署。RapidMiner是用Java編程語言編寫的。它采用的學習計劃和歸屬來自于Weka的機器學習環(huán)境,統(tǒng)計建模方案來自R Project。可用于文本挖掘,多媒體挖掘,功能設計,數(shù)據(jù)流挖掘的集成方法的發(fā)展,以及分布式數(shù)據(jù)挖掘。
RapidMiner v6.0仍然是開源的。RapidMiner的***版本現(xiàn)在僅作為試用版或商業(yè)許可證提供。

5.Anaconda
Anaconda是一個由Python支持的開放式數(shù)據(jù)科學平臺。 Anaconda的開源版本是Python和R的高性能版本,包括超過100種用于數(shù)據(jù)科學的***的Python,R和Scala軟件包。還可以訪問超過720個軟件包,可以使用包含在Anaconda中的conda,包,從屬關系等。

6.KNIME
KNIME桌面版是開源的,是用戶友好的數(shù)據(jù)訪問,數(shù)據(jù)轉(zhuǎn)換,初步調(diào)查,預測分析,可視化和報告的圖形工作臺。開放的集成平臺提供了1000多個模塊或節(jié)點。KNIME還提供了基于數(shù)據(jù)信息開發(fā)報告的能力,并將新見解的應用自動化回到生產(chǎn)系統(tǒng)。KNIME產(chǎn)品有KNIME Desktop,KNIME Professional,KNIME Team Space,KNIME Server和KNIME Cluster Execution。 KNIME Desktop可以自由下載到桌面?;贓clipse平臺的,并且有雙重許可證。非開源產(chǎn)品中的功能包括共享存儲庫,身份驗證,遠程執(zhí)行,調(diào)度,SOA集成和Web用戶界面。

7.DMWay
DMWay使得預測分析更易于獲取并且價格合理。DMWay解決方案允許用戶在幾個小時或幾天而不是幾個月的時間內(nèi)建立更好的預測模型,這可以適應任何行業(yè)。DMWay分析引擎可以提供***級別的建模。分析引擎設計用于模擬經(jīng)驗豐富的數(shù)據(jù)科學家采取的步驟,以建立準確有效的分析模型。DMWay評分引擎是建議企業(yè)尋求協(xié)助部署由分析引擎提供的預測分析結(jié)果的工具。
這個創(chuàng)新的解決方案是通過使用專家系統(tǒng)方法而不是“機器人”方法來實現(xiàn)的,模仿有經(jīng)驗的數(shù)據(jù)科學家關于構(gòu)建大規(guī)模預測模型的方式。DMWay評分引擎是為企業(yè)尋求協(xié)助部署由分析引擎提供的預測分析結(jié)果而推薦的工具。

8.HP Haven Predictive Analytics
HP Distributed R是R語言的開源,可擴展和高性能平臺,可加速大規(guī)模機器學習,統(tǒng)計分析和圖形處理。Haven Predictive Analytics為HP Vertica提供數(shù)據(jù)加速和原生SQL支持。與市場領先的列式MPP數(shù)據(jù)庫的本地集成將總體數(shù)據(jù)訪問性能提高了5倍,并提供了一整套經(jīng)過驗證的開箱即用的并行算法,以成熟的標準R算法生成準確一致的結(jié)果。是預測分析免費,完全兼容開源R語言和工具,并得到惠普企業(yè)的支持,并按每個節(jié)點定價。HP Haven Predictive Analytics由HP Vertica和Distributed R提供支持。Distributed R是基于與HP Labs開發(fā)的開放源代碼R語言的高性能分析引擎,可滿足要求最苛刻的大數(shù)據(jù)預測分析任務。分布式R提高了性能,并允許用戶分析比以前流行的R統(tǒng)計編程語言更大的數(shù)據(jù)集。

9.GraphLab Create
GraphLab Create是一個為開發(fā)人員和數(shù)據(jù)科學家構(gòu)建的機器學習平臺,具有函數(shù)式編程技巧和對數(shù)據(jù)科學的一些基本理解。能夠輕松地實現(xiàn)從想法到生產(chǎn)的原型和規(guī)模。示例服務包括推薦系統(tǒng),欺詐檢測或客戶流失預測器。開發(fā)人員和數(shù)據(jù)科學家能夠快速部署并輕松與其他應用程序集成。Discover版本提供免費的開發(fā)者許可證,并提供社區(qū)論壇支持。

10.Lavastorm分析引擎
Lavastorm分析引擎公開版是一個易于使用,成本效益的工具,用于臨時發(fā)現(xiàn)和業(yè)務分析。公開版對于希望將分析處理能力放在桌面上的用戶非常理想,而且不需要大型數(shù)據(jù)處理能力,提供自動持續(xù)分析和協(xié)作功能。Lavastorm是一種可視化的數(shù)據(jù)發(fā)現(xiàn)解決方案,可以讓你快速整合不同的數(shù)據(jù),輕松發(fā)現(xiàn)洞察,并持續(xù)檢測異常,異常值或模式。它為企業(yè)用戶提供自助服務能力,為IT用戶提供集成,分析和業(yè)務控制領域的快速開發(fā)能力。其功能包括從任何來源(包括大數(shù)據(jù)源)獲取,轉(zhuǎn)換,合并和豐富數(shù)據(jù),而不需要大量建模,預先規(guī)劃或用腳本??蓹z測數(shù)據(jù)問題,如完整性,格式不一致,準確性,自動化評估和清理流程。

11.Actian Vector Express
Actian Analytics Platform(Express Hadoop SQL Edition)是Hadoop內(nèi)部運行100%的免費社區(qū)版的端到端分析平臺。Actian分析平臺將Hadoop轉(zhuǎn)變?yōu)橐粋€高性能的分析平臺,使企業(yè)能夠通過分析來自多個來源的數(shù)據(jù)而無需采樣,從而提高預測和決策的準確性。Actian Express,Hadoop SQL Edition使用現(xiàn)有的Hadoop集群提供高速和性價比。Actian Vector Express是Actian分析平臺的免費社區(qū)版本,旨在提供快速簡單的方法來提高分析的性能。它建立在基于矢量的分析數(shù)據(jù)庫基礎之上,Actian Express提供很好的性能和性價比,并且需要更少的硬件,幾乎不需要調(diào)整。Actian Vector Express包括以下功能:分析工作臺 - 快速構(gòu)建可視工作流程準備,轉(zhuǎn)換和分析數(shù)據(jù),分析數(shù)據(jù)庫 - 在幾秒鐘內(nèi)運行復雜的查詢反對數(shù)十億條記錄和管理控制臺。

12.Scikit-learn
scikit-learn是簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。它是Python中的機器學習庫,建立在NumPy,SciPy和matplotlib之上,它也是開源的。其特點包括分類,回歸,聚類,降維,模型選擇和預處理。

13.微軟R
R是強大的,用于統(tǒng)計計算,機器學習和圖形的***編程語言,并得到用戶,開發(fā)者的繁榮的社區(qū)支持。R家族包括,服務器,客戶端,SQL Server等服務。支持各種大數(shù)據(jù)統(tǒng)計,預測建模和機器學習功能,R Server支持基于開源R的全方位的分析探索,分析,可視化和建模。Microsoft R客戶端是免費的社區(qū)支持。
14.H2O.ai
H2O是一個開源的預測分析平臺。H2O用戶可以輕松地從微軟Excel和RStudio中探索和建模大數(shù)據(jù),并將其與來自HDFS,S3,SQL和NoSQL數(shù)據(jù)源的數(shù)據(jù)連接起來。H2O講述了數(shù)據(jù)科學的語言,支持R,Python,Scala,Java和強大的REST API。業(yè)務應用程序由H2O的NanoFastTM評分引擎提供支持。包括:分布式算法和回歸樹,如GBM,隨機森林(RF),廣義線性模型(GLM),k-均值和主成分分析(PCA)。

15.Weka Data Mining
Weka是用于數(shù)據(jù)挖掘任務的機器學習算法的集合。算法可以直接應用于數(shù)據(jù)集,也可以從Java代碼調(diào)用。Weka包含用于數(shù)據(jù)處理,分類,回歸,聚類,關聯(lián)規(guī)則和可視化的工具。它也非常適合開發(fā)新的機器學習方案。 Weka是用Java編寫的,由新西蘭懷卡托大學開發(fā)。

16.Apache Spark
Apache Spark是用于大規(guī)模數(shù)據(jù)處理的快速且通用的引擎。Spark需要一個集群管理器和一個分布式存儲系統(tǒng)。對于集群管理,Spark支持獨立(本地Spark集群),Hadoop YARN或Apache Mesos。對于分布式存儲,Spark能與各種各樣的,包括Hadoop分布式文件系統(tǒng)(HDFS),MAPRA文件系統(tǒng)(FS-MAPRA),Cassandra,OpenStack Swift,亞馬遜S3,Kudu,或自定義解決方案實現(xiàn)對接。

17.Octave
Octave是數(shù)字計算的高級解釋語言。它提供了數(shù)據(jù)可視化和操縱的線性,非線性問題和圖形的解決方案。有許多可用于公共數(shù)值線性代數(shù)解決問題的工具,尋找非線性方程的根,集成普通功能,操縱多項式,及整合的普通微分和代數(shù)微分方程。

18.Tanagra
Tanagra是一個用于學術和研究目的的免費數(shù)據(jù)挖掘軟件,它具有探索性數(shù)據(jù)分析,統(tǒng)計學習,機器學習和數(shù)據(jù)庫等多種數(shù)據(jù)挖掘方法的功能。支持標準的數(shù)據(jù)挖掘任務,如:可視化,描述性統(tǒng)計,實例選擇,特征選擇,功能建設,回歸,影響因子分析,聚類,分類和關聯(lián)規(guī)則的學習。

19.PredictionIO
PredictionIO是一款開源的機器學習服務器,可以讓軟件開發(fā)人員創(chuàng)建個性化,推薦和內(nèi)容發(fā)現(xiàn)等預測功能。通過PredictionIO,預測這種特點的用戶行為,提供個性化的視頻,新聞,交易,廣告,職位,事件,文件,應用程序,餐館和匹配服務。
20.Apache Mahout
Apache Mahout提供可擴展的機器學習算法,主要集中在協(xié)作過濾,聚類和分類。許多實現(xiàn)使用Apache Hadoop平臺,包括成熟的Hadoop MapReduce算法,Scala,Spark和H2O算法。協(xié)同過濾:基于用戶的協(xié)同過濾,基于項目的協(xié)同過濾,矩陣分解與ALS,矩陣分解與隱式反饋和加權(quán)矩陣分解,SVD + ALS。