自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有助于你掌握機器學習的十三個框架

人工智能 機器學習
這里有十來個新鮮出爐的機器學習框架,既有初次露面的,也有重新修改過的。這些工具被大眾所注意,或是因為其出處,或是因為以新穎的簡單方法處理問題,或是解決了機器學習中的某個特定難題,或者是上述的所有原因。

作為人工智能的重要分支,機器學習得到越來越多的應用,如何更快地掌握這門技術,這篇文章也許會給你打開一扇大門,下面是譯文:

在過去的一年里,機器學習炙手可熱。機器學習的“突然”降臨,并不單純因為廉價的云環(huán)境和更強有力的GPU硬件。也是因為開放源碼框架的爆炸式增長,這些框架將機器學習中最難的部分抽象出來,并將這項技術提供給更廣大范圍的開發(fā)者。

這里有十來個新鮮出爐的機器學習框架,既有初次露面的,也有重新修改過的。這些工具被大眾所注意,或是因為其出處,或是因為以新穎的簡單方法處理問題,或是解決了機器學習中的某個特定難題,或者是上述的所有原因。

有助于你掌握機器學習的十三個框架

Apache Spark MLlib

Apache Spark 最為人所知的是它是Hadoop家族的一員,但是這個內(nèi)存數(shù)據(jù)處理框架卻是脫胎于Hadoop之外,也正在Hadoop生態(tài)系統(tǒng)以外為自己獲得了名聲。Hadoop 已經(jīng)成為可供使用的機器學習工具,這得益于其不斷增長的算法庫,這些算法可以高速度應用于內(nèi)存中的數(shù)據(jù)。

早期版本的Spark 增強了對MLib的支持,MLib是主要面向數(shù)學和統(tǒng)計用戶的平臺,它允許 通過持久化管道特性將Spark機器學習工作掛起和恢復。2016年發(fā)布的Spark2.0,對Tungsten高速內(nèi)存管理系統(tǒng)和新的DataFrames流媒體API 進行了改進,這兩點都會提升機器學習應用的性能。

有助于你掌握機器學習的十三個框架

H2O

H2O,現(xiàn)在已經(jīng)發(fā)展到第三版,可以提供通過普通開發(fā)環(huán)境(Python, Java, Scala, R)、大數(shù)據(jù)系統(tǒng)(Hadoop, Spark)以及數(shù)據(jù)源(HDFS, S3, SQL, NoSQL)訪問機器學習算法的途徑。H2O是用于數(shù)據(jù)收集、模型構建以及服務預測的端對端解決方案。例如,可以將模型導出為Java代碼,這樣就可以在很多平臺和環(huán)境中進行預測。

H2O可以作為原生Python庫,或者是通過Jupyter Notebook, 或者是 R Studio中的R 語言來工作。這個平臺也包含一個開源的、基于web的、在H2O中稱為Flow的環(huán)境,它支持在訓練過程中與數(shù)據(jù)集進行交互,而不只是在訓練前或者訓練后。

有助于你掌握機器學習的十三個框架

Apache Singa

“深度學習”框架增強了重任務類型機器學習的功能,如自然語言處理和圖像識別。Singa是一個Apache的孵化器項目,也是一個開源框架,作用是使在大規(guī)模數(shù)據(jù)集上訓練深度學習模型變得更簡單。

Singa提供了一個簡單的編程模型,用于在機器群集上訓練深度學習網(wǎng)絡,它支持很多普通類型的訓練工作:卷積神經(jīng)網(wǎng)絡,受限玻爾茲曼機 以及循環(huán)神經(jīng)網(wǎng)絡。 模型可以同步訓練(一個接一個)或者也異步(一起)訓練,也可以允許在在CPU和GPU群集上,很快也會支持FPGA。Singa也通過Apache Zookeeper簡化了群集的設置。

有助于你掌握機器學習的十三個框架

Caffe2

深度學習框架Caffe開發(fā)時秉承的理念是“表達、速度和模塊化”,最初是源于2013年的機器視覺項目,此后,Caffe還得到擴展吸收了其他的應用,如語音和多媒體。

因為速度放在優(yōu)先位置 ,所以Caffe完全用C+ +實現(xiàn),并且支持CUDA加速,而且根據(jù)需要可以在CPU和GPU處理間進行切換。分發(fā)內(nèi)容包括免費的用于普通分類任務的開源參考模型,以及其他由Caffe用戶社區(qū)創(chuàng)造和分享的模型。

一個新的由Facebook 支持的Caffe迭代版本稱為Caffe2,現(xiàn)在正在開發(fā)過程中,即將進行1.0發(fā)布。其目標是為了簡化分布式訓練和移動部署,提供對于諸如FPGA等新類型硬件的支持,并且利用先進的如16位浮點數(shù)訓練的特性。

有助于你掌握機器學習的十三個框架

Google的TensorFlow

與微軟的DMTK很類似,Google TensorFlow 是一個機器學習框架,旨在跨多個節(jié)點進行擴展。 就像Google的 Kubernetes一樣,它是是為了解決google內(nèi)部的問題而設計的,google最終還是把它作為開源產(chǎn)品發(fā)布出來。

TensorFlow實現(xiàn)了所謂的數(shù)據(jù)流圖,其中的批量數(shù)據(jù)(“tensors”)可以通過圖描述的一系列算法進行處理。系統(tǒng)中數(shù)據(jù)的移動稱為“流”-其名也因此得來。這些圖可以通過C++或者Python實現(xiàn)并且可以在CPU和GPU上進行處理。

TensorFlow近來的升級提高了與Python的兼容性,改進了GPU操作,也為TensorFlow能夠運行在更多種類的硬件上打開了方便之門,并且擴展了內(nèi)置的分類和回歸工具庫。

有助于你掌握機器學習的十三個框架

亞馬遜的機器學習

亞馬遜對云服務的方法遵循一種模式:提供基本的內(nèi)容,讓核心受眾關注,讓他們在上面構建應用,找出他們真正需要的內(nèi)容,然后交付給他們。

亞馬遜在提供機器學習即服務-亞馬遜機器學習方面也是如此。該服務可以連接到存儲在亞馬遜 S3、Redshift或RDS上的數(shù)據(jù),并且在這些數(shù)據(jù)上運行二進制分類、多級分類或者回歸以構建一個模型。但是,值得注意的是生成的模型不能導入或導出,而訓練模型的數(shù)據(jù)集不能超過100GB。

但是,亞馬遜機器學習展現(xiàn)了機器學習的實用性,而不只是奢侈品。對于那些想要更進一步,或者與亞馬遜云保持不那么緊密聯(lián)系的人來說,亞馬遜的深度學習機器圖景包含了許多主要的深度學習框架,包括 Caffe2、CNTK、MXNet和TensorFlow。

有助于你掌握機器學習的十三個框架

微軟的Azure ML Studio

考慮到執(zhí)行機器學習所需的大量數(shù)據(jù)和計算能力,對于機器學習應用云是一種理想環(huán)境。微軟已經(jīng)為Azure配備了自己的即付即用的機器學習服務-Azure ML Studio,提供了按月、按小時和免費的版本。(該公司的HowOldRobot項目就是利用這個系統(tǒng)創(chuàng)立的。)你甚至不需要一個賬戶來就可以試用這項服務;你可以匿名登錄,免費使用Azure ML Studio最多8小時。

Azure ML Studio允許用戶創(chuàng)立和訓練模型,然后把這些模型轉成被其他服務所使用的API。免費用戶的每個賬號可以試用多達10GB的模型數(shù)據(jù),你也可以連接自己的Azure存儲以獲得更大的模型。有大范圍的算法可供使用,這要感謝微軟和第三方。

近來的改進包括通過Azure批處理服務、更好的部署管理控制和詳細的web服務使用統(tǒng)計,對訓練任務進行了批量管理。

有助于你掌握機器學習的十三個框架

微軟的分布式機器學習工具集

在機器學習問題中投入更多的機器,會取得更好的效果-但是開發(fā)在大量計算機都能運行良好的機器學習應用卻是挺傷腦筋的事。

微軟的DMTK(分布式機器學習工具集)框架解決了在系統(tǒng)集群中分布多種機器學習任務的問題。

DMTK被認為是一個框架而不是一個完全成熟、隨去隨用的解決方案,因此包含算法的數(shù)量是很小的。然而,你還是會找到一些關鍵的機器學習庫,例如梯度增強框架(LightGBM),以及對于一些像Torch和Theano這樣深度學習框架的支持。

DMTK的設計使用戶可以利用有限的資源構建***的群集。例如,群集中的每個節(jié)點都會有本地緩存,從而減少了與中央服務器節(jié)點的通信流量,該節(jié)點為任務提供參數(shù)。

有助于你掌握機器學習的十三個框架

微軟的計算網(wǎng)絡工具集

在發(fā)布DMTK之后,微軟又推出了另一款機器學習工具集,即計算網(wǎng)絡工具包,簡稱CNTK。

CNTK與Google TensorFlow類似,它允許用戶通過一個有向圖來創(chuàng)建神經(jīng)網(wǎng)絡。微軟也認為CNTK可以與諸如Caffe、Theano和 Torch這樣的項目相媲美,-此外CNTK還能通過利用多CPU和GPU進行并行處理而獲得更快的速度。微軟聲稱在Azure上的GPU群集上運行CNTK,可以將為Cortana的語音識別訓練速度提高一個數(shù)量級。

***版的CNTK 2.0通過提高精確性提高了TensorFlow的熱度,添加了一個Java API,用于Spark兼容性,并支持kera框架(通常用于TensorFlow)的代碼。

有助于你掌握機器學習的十三個框架

Apache Mahout

在Spark占據(jù)主流地位之前很久,Mahout就已經(jīng)開發(fā)出來,用于在Hadoop上進行可擴展機器學習。但經(jīng)過一段長時間的相對沉默之后,Mahout又重新煥發(fā)了活力,例如一個用于數(shù)學的新環(huán)境,稱為Samsara,允許多種算法可以跨越分布式Spark群集上運行。并且支持CPU和GPU運行。

Mahout框架長期以來一直與Hadoop綁定,但它的許多算法也可以在Hadoop之外運行。這對于那些最終遷移到Hadoop的獨立應用或者是從Hadoop中剝離出來成為單獨的應用都很有用。

有助于你掌握機器學習的十三個框架

Veles (Samsung)

[Veles]https://velesnet.ml/)是一個用于深度學習應用的分布式平臺,就像TensorFlow和DMTK一樣,它是用C++編寫的,盡管它使用Python來執(zhí)行節(jié)點之間的自動化和協(xié)調(diào)。在被傳輸進群集之前,要對數(shù)據(jù)集分析并且進行自動的歸一化,然后調(diào)用REST API來即刻使用已訓練的模型(假定你的硬件滿足這項任務的需要)

Veles不僅僅是使用Python作為粘合代碼,因為基于Python的Jupyter Notebook 可以用來可視化和發(fā)布由一個Veles集群產(chǎn)生的結果。Samsung希望,通過將Veles 開源將會刺激進一步的開發(fā),作為通往Windows和MacOS的途徑。

有助于你掌握機器學習的十三個框架

mlpack 2

作為一個基于C++的機器學習庫,mlpack最初產(chǎn)生于2011年,按照庫的創(chuàng)立者想法,設計mlpack是為了“可擴展性,速度和易于使用。”mlpack既可以通過由若干行命令行可執(zhí)行程序組成的“黑盒”進行操作,也可以利用C++ API來完成復雜的工作。

mlpack的第二版包含了許多新的算法,以及現(xiàn)有算法的重構,以提高它們的速度或使它們瘦身。例如,它舍棄了Boost庫的隨機數(shù)生成器,轉而采用C++ 11的原生隨機數(shù)功能。

mlpack的一個痼疾是缺少對于C++以為語言的支持。這就意味著其他語言的用戶需要第三方庫的支持,如這樣的一個Pyhton庫。還有完成了一些工作來增加對MATLAB的支持,但是像mlpack這樣的項目,在機器學習的主要環(huán)境中直接發(fā)揮作用時,往往會獲得更大的應用。

有助于你掌握機器學習的十三個框架

Neon

Nervana,一家建立自己的深度學習硬件和軟件平臺的公司(現(xiàn)在是英特爾的一部分),已經(jīng)提供了一個名為“Neon”的深度學習的框架,它是一個開源項目。Neon使用可插拔的模塊,以實現(xiàn)在CPU、GPU或者Nervana自己開發(fā)的芯片上完成繁重的任務。

Neon主要是用Python編寫,也有一部分是用C++和匯編以提高速度。這使得該框架可以為使用Python或者其他任何與Python綁定框架進行數(shù)據(jù)科學工作的人所用。

許多標準的深度學習模型,如LSTM、AlexNet和GoogLeNet,都可以作為Neon的預訓練模型。***版本Neon 2.0,增加了英特爾數(shù)學內(nèi)核庫來提高CPU的性能。

有助于你掌握機器學習的十三個框架

Marvin

另一個相對近期的產(chǎn)品——Marvin神經(jīng)網(wǎng)絡框架,是普林斯頓視覺集團的產(chǎn)物。Marvin“生來就是被黑的”,正如其創(chuàng)建者在該項目文檔中解釋的那樣,該項目只依賴于一些用C++編寫的文件和CUDA GPU框架。雖然該項目的代碼很少,但是還是提供了大量的預訓練模型,這些模型可以像項目本身代碼一樣,能夠在合適的場合復用或者根據(jù)用戶的需要共享。

責任編輯:未麗燕 來源: 網(wǎng)絡大數(shù)據(jù)
相關推薦

2018-10-25 14:14:52

云計算機器學習數(shù)據(jù)分析

2021-09-18 10:00:24

ReactJavaScript前端

2010-03-12 16:15:06

Python調(diào)試

2022-10-08 08:38:32

物聯(lián)網(wǎng)

2020-03-30 08:17:04

Promise開發(fā)JavaScript

2021-06-10 09:34:24

前端開發(fā)工具開發(fā)

2011-12-09 09:31:58

桌面虛擬化

2019-11-19 12:40:36

AI人工智能開源工具

2021-11-26 05:14:44

開源數(shù)據(jù)庫安全漏洞

2020-03-25 20:19:43

人工智能技術智能機器

2020-03-23 09:31:51

JavaScript函數(shù)技術

2017-04-14 10:40:43

SDS系統(tǒng)選擇

2023-06-09 19:03:35

開源組織

2019-08-12 07:39:25

數(shù)據(jù)中心IT開銷

2019-11-18 11:07:13

人工智能技術Apache

2021-08-13 10:33:55

IT經(jīng)理首席信息官CIO

2013-07-17 09:19:23

2020-02-05 13:03:55

數(shù)據(jù)中心混合云技術

2009-02-09 09:53:50

2010-06-11 22:20:27

點贊
收藏

51CTO技術棧公眾號