自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

人工智能 機(jī)器學(xué)習(xí)
AutoML是指自動(dòng)機(jī)器學(xué)習(xí)。它說(shuō)明了如何在組織和教育水平上自動(dòng)化機(jī)器學(xué)習(xí)的端到端過(guò)程。

[[358537]]

 "機(jī)器學(xué)習(xí)的圣杯之一是使越來(lái)越多的特征工程過(guò)程自動(dòng)化。"

佩德羅·多明戈斯(Pedro Domingos)

介紹

AutoML是指自動(dòng)機(jī)器學(xué)習(xí)。它說(shuō)明了如何在組織和教育水平上自動(dòng)化機(jī)器學(xué)習(xí)的端到端過(guò)程。機(jī)器學(xué)習(xí)模型基本上包括以下步驟:

  • 數(shù)據(jù)讀取和合并,使其可供使用。
  • 數(shù)據(jù)預(yù)處理是指數(shù)據(jù)清理和數(shù)據(jù)整理。
  • 優(yōu)化功能和模型選擇過(guò)程的位置。
  • 將其應(yīng)用于應(yīng)用程序以預(yù)測(cè)準(zhǔn)確的值。

最初,所有這些步驟都是手動(dòng)完成的。但是現(xiàn)在隨著AutoML的出現(xiàn),這些步驟可以實(shí)現(xiàn)自動(dòng)化。AutoML當(dāng)前分為三類:

  • 用于自動(dòng)參數(shù)調(diào)整的AutoML(相對(duì)基本的類型)
  • 用于非深度學(xué)習(xí)的AutoML,例如AutoSKlearn。此類型主要應(yīng)用于數(shù)據(jù)預(yù)處理,自動(dòng)特征分析,自動(dòng)特征檢測(cè),自動(dòng)特征選擇和自動(dòng)模型選擇。
  • 用于深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)的AutoML,包括NAS和ENAS以及用于框架的Auto-Keras。

為什么需要AutoML?

機(jī)器學(xué)習(xí)的需求日益增長(zhǎng)。組織已經(jīng)在應(yīng)用程序級(jí)別采用了機(jī)器學(xué)習(xí)。仍在進(jìn)行許多改進(jìn),并且仍然有許多公司正在努力為機(jī)器學(xué)習(xí)模型的部署提供更好的解決方案。

為了進(jìn)行部署,企業(yè)需要有一個(gè)經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家團(tuán)隊(duì),他們期望高薪。即使企業(yè)確實(shí)擁有優(yōu)秀的團(tuán)隊(duì),通常也需要更多的經(jīng)驗(yàn)而不是AI知識(shí)來(lái)決定哪種模型最適合企業(yè)。機(jī)器學(xué)習(xí)在各種應(yīng)用中的成功導(dǎo)致對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的需求越來(lái)越高。即使對(duì)于非專家也應(yīng)該易于使用。AutoML傾向于在ML管道中自動(dòng)執(zhí)行盡可能多的步驟,并以最少的人力保持良好的模型性能。

AutoML具有三個(gè)主要優(yōu)點(diǎn):

  • 它通過(guò)自動(dòng)化最重復(fù)的任務(wù)來(lái)提高效率。這使數(shù)據(jù)科學(xué)家可以將更多的時(shí)間投入到問(wèn)題上,而不是模型上。
  • 自動(dòng)化的ML管道還有助于避免由手工作業(yè)引起的潛在錯(cuò)誤。
  • AutoML是朝著機(jī)器學(xué)習(xí)民主化邁出的一大步,它使每個(gè)人都可以使用ML功能。

讓我們看看以不同的編程語(yǔ)言提供的一些最常見(jiàn)的AutoML庫(kù):

Python

1. auto-sklearn

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

auto-sklearn是一種自動(dòng)機(jī)器學(xué)習(xí)工具包,是scikit-learn估計(jì)器的直接替代品。Auto-SKLearn將機(jī)器學(xué)習(xí)用戶從算法選擇和超參數(shù)調(diào)整中解放出來(lái)。它包括功能設(shè)計(jì)方法,例如一站式,數(shù)字功能標(biāo)準(zhǔn)化和PCA。該模型使用SKLearn估計(jì)器來(lái)處理分類和回歸問(wèn)題。Auto-SKLearn創(chuàng)建管道并使用貝葉斯搜索來(lái)優(yōu)化該渠道。在ML框架中,通過(guò)貝葉斯推理為超參數(shù)調(diào)整添加了兩個(gè)組件:元學(xué)習(xí)用于使用貝葉斯初始化優(yōu)化器,并在優(yōu)化過(guò)程中評(píng)估配置的自動(dòng)集合構(gòu)造。

Auto-SKLearn在中小型數(shù)據(jù)集上表現(xiàn)良好,但無(wú)法生成在大型數(shù)據(jù)集中具有最先進(jìn)性能的現(xiàn)代深度學(xué)習(xí)系統(tǒng)。

例:

  1. import sklearn.model_selection 
  2. import sklearn.datasets 
  3. import sklearn.metrics 
  4.  
  5. import autosklearn.regression 
  6.  
  7. def main(): 
  8.     X, y = sklearn.datasets.load_boston(return_X_y=True
  9.     feature_types = (['numerical'] * 3) + ['categorical'] + (['numerical'] * 9) 
  10.     X_train, X_test, y_train, y_test = \ 
  11.     sklearn.model_selection.train_test_split(X, y, random_state=1
  12.  
  13.     automl = autosklearn.regression.AutoSklearnRegressor( 
  14.     time_left_for_this_task=120
  15.     per_run_time_limit=30
  16.     tmp_folder='/tmp/autosklearn_regression_example_tmp'
  17.     output_folder='/tmp/autosklearn_regression_example_out'
  18.     ) 
  19.     automl.fit(X_train, y_train, dataset_name='boston'
  20.     feat_type=feature_types
  21.  
  22.     print(automl.show_models()) 
  23.     predictions = automl.predict(X_test) 
  24.     print("R2 score:", sklearn.metrics.r2_score(y_test, predictions)) 
  25.  
  26.  
  27. if __name__ == '__main__': 
  28. main() 

2. FeatureTools

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

它是用于自動(dòng)功能工程的python庫(kù)。

(1) 安裝:

用pip安裝:

  1. python -m pip install featuretools 

或通過(guò)conda上的Conda-forge頻道:

  1. conda install -c conda-forge featuretools 

(2) 附加組件

我們可以運(yùn)行以下命令單獨(dú)安裝或全部安裝附件

  1. python -m pip install featuretools[complete] 

更新檢查器—接收有關(guān)FeatureTools新版本的自動(dòng)通知

  1. python -m pip install featuretools[update_checker] 

TSFresh基本體-在Featuretools中使用tsfresh中的60多個(gè)基本體

  1. python -m pip install featuretools[tsfresh] 

例:

  1. >> import featuretools as ft 
  2. >> es = ft.demo.load_mock_customer(return_entityset=True
  3. >> es.plot() 
20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

Featuretools可以為任何"目標(biāo)實(shí)體"自動(dòng)創(chuàng)建一個(gè)特征表

  1. >> feature_matrix, features_defs = ft.dfs(entityset=es,  
  2.                                           target_entity="customers"
  3. >> feature_matrix.head(5) 
20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

 

官方網(wǎng)站:https://featuretools.alteryx.com/cn/stable/

3. MLBox

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

MLBox是功能強(qiáng)大的自動(dòng)化機(jī)器學(xué)習(xí)python庫(kù)。根據(jù)官方文檔,它具有以下功能:

  • 快速讀取和分布式數(shù)據(jù)預(yù)處理/清理/格式化
  • 高度強(qiáng)大的功能選擇和泄漏檢測(cè)以及精確的超參數(shù)優(yōu)化
  • 最新的分類和回歸預(yù)測(cè)模型(深度學(xué)習(xí),堆疊,LightGBM等)
  • 使用模型解釋進(jìn)行預(yù)測(cè),MLBox已在Kaggle上進(jìn)行了測(cè)試,并顯示出良好的性能。
  • 管道

MLBox體系結(jié)構(gòu):

MLBox主軟件包包含3個(gè)子軟件包:

  • 預(yù)處理:讀取和預(yù)處理數(shù)據(jù)
  • 優(yōu)化:測(cè)試或優(yōu)化各種學(xué)習(xí)者
  • 預(yù)測(cè):預(yù)測(cè)測(cè)試數(shù)據(jù)集上的目標(biāo)

官方網(wǎng)站:https://github.com/AxeldeRomblay/MLBox

4. TPOT

TPOT代表基于樹(shù)的管道優(yōu)化工具,它使用遺傳算法優(yōu)化機(jī)器學(xué)習(xí)管道.TPOT建立在scikit-learn的基礎(chǔ)上,并使用自己的回歸器和分類器方法。TPOT探索了數(shù)千種可能的管道,并找到最適合數(shù)據(jù)的管道。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

TPOT通過(guò)智能地探索成千上萬(wàn)的可能管道來(lái)找到最適合我們數(shù)據(jù)的管道,從而使機(jī)器學(xué)習(xí)中最繁瑣的部分自動(dòng)化。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

TPOT完成搜索后,它將為我們提供找到的最佳管道的Python代碼,因此我們可以從那里修改管道。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

TPOT建立在scikit-learn的基礎(chǔ)上,因此它生成的所有代碼都應(yīng)該看起來(lái)很熟悉……無(wú)論如何,如果我們熟悉scikit-learn。

TPOT仍在積極開(kāi)發(fā)中。

例子:分類

這是具有手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集光學(xué)識(shí)別功能的示例。

  1. from tpot import TPOTClassifier 
  2. from sklearn.datasets import load_digits 
  3. from sklearn.model_selection import train_test_split 
  4. digits = load_digits() 
  5. X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, 
  6.  train_size=0.75, test_size=0.25, random_state=42
  7. tpot = TPOTClassifier(generations=5population_size=50verbosity=2random_state=42
  8. tpot.fit(X_train, y_train) 
  9. print(tpot.score(X_test, y_test)) 
  10. tpot.export(‘tpot_digits_pipeline.py’) 

此代碼將發(fā)現(xiàn)達(dá)到98%的測(cè)試精度的管道。應(yīng)將相應(yīng)的Python代碼導(dǎo)出到tpot_digits_pipeline.py文件,其外觀類似于以下內(nèi)容:

  1. import numpy as np 
  2. import pandas as pd 
  3. from sklearn.ensemble import RandomForestClassifier 
  4. from sklearn.linear_model import LogisticRegression 
  5. from sklearn.model_selection import train_test_split 
  6. from sklearn.pipeline import make_pipeline, make_union 
  7. from sklearn.preprocessing import PolynomialFeatures 
  8. from tpot.builtins import StackingEstimator 
  9. from tpot.export_utils import set_param_recursive 
  10. # NOTE: Make sure that the outcome column is labeled ‘target’ in the data file 
  11. tpot_data = pd.read_csv(‘PATH/TO/DATA/FILE’, sep=’COLUMN_SEPARATOR’, dtype=np.float64) 
  12. features = tpot_data.drop(‘target’, axis=1
  13. training_features, testing_features, training_target, testing_target = \ 
  14.  train_test_split(features, tpot_data[‘target’], random_state=42
  15. # Average CV score on the training set was: 0.9799428471757372 
  16. exported_pipeline = make_pipeline
  17.  PolynomialFeatures(degree=2include_bias=Falseinteraction_only=False), 
  18.  StackingEstimator(estimator=LogisticRegression(C=0.1, dual=Falsepenalty=”l1")), 
  19.  RandomForestClassifier(bootstrap=Truecriterion=”entropy”, max_features=0.35000000000000003, min_samples_leaf=20min_samples_split=19n_estimators=100
  20. # Fix random state for all the steps in exported pipeline 
  21. set_param_recursive(exported_pipeline.steps, ‘random_state’, 42) 
  22. exported_pipeline.fit(training_features, training_target) 
  23. results = exported_pipeline.predict(testing_features) 

回歸

TPOT可以優(yōu)化管道以解決回歸問(wèn)題。以下是使用波士頓房屋價(jià)格數(shù)據(jù)集的最小工作示例。

  1. from tpot import TPOTRegressor 
  2. from sklearn.datasets import load_boston 
  3. from sklearn.model_selection import train_test_split 
  4. housing = load_boston() 
  5. X_train, X_test, y_train, y_test = train_test_split(housing.data, housing.target, 
  6.  train_size=0.75, test_size=0.25, random_state=42
  7. tpot = TPOTRegressor(generations=5population_size=50verbosity=2random_state=42
  8. tpot.fit(X_train, y_train) 
  9. print(tpot.score(X_test, y_test)) 
  10. tpot.export(‘tpot_boston_pipeline.py’) 

這將導(dǎo)致流水線達(dá)到約12.77均方誤差(MSE),tpot_boston_pipeline.py中的Python代碼應(yīng)類似于:

  1. import numpy as np 
  2. import pandas as pd 
  3. from sklearn.ensemble import ExtraTreesRegressor 
  4. from sklearn.model_selection import train_test_split 
  5. from sklearn.pipeline import make_pipeline 
  6. from sklearn.preprocessing import PolynomialFeatures 
  7. from tpot.export_utils import set_param_recursive 
  8. # NOTE: Make sure that the outcome column is labeled ‘target’ in the data file 
  9. tpot_data = pd.read_csv(‘PATH/TO/DATA/FILE’, sep=’COLUMN_SEPARATOR’, dtype=np.float64) 
  10. features = tpot_data.drop(‘target’, axis=1
  11. training_features, testing_features, training_target, testing_target = \ 
  12.  train_test_split(features, tpot_data[‘target’], random_state=42
  13. # Average CV score on the training set was: -10.812040755234403 
  14. exported_pipeline = make_pipeline
  15.  PolynomialFeatures(degree=2include_bias=Falseinteraction_only=False), 
  16.  ExtraTreesRegressor(bootstrap=Falsemax_features=0.5, min_samples_leaf=2min_samples_split=3n_estimators=100
  17. # Fix random state for all the steps in exported pipeline 
  18. set_param_recursive(exported_pipeline.steps, ‘random_state’, 42) 
  19. exported_pipeline.fit(training_features, training_target) 
  20. results = exported_pipeline.predict(testing_features) 

Github鏈接:-https://github.com/EpistasisLab/tpot

5. Lightwood

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

Lightwood就像機(jī)器學(xué)習(xí)的樂(lè)高玩具。

一個(gè)基于Pytorch的框架,它將機(jī)器學(xué)習(xí)問(wèn)題分解為較小的塊,可以與一個(gè)目標(biāo)無(wú)縫地粘合在一起:讓它變得如此簡(jiǎn)單,以至于您只需要一行代碼就可以構(gòu)建預(yù)測(cè)模型。

安裝

我們可以從pip安裝Lightwood:

  1. pip3 install lightwood 

注意:根據(jù)我們的環(huán)境,在上面的命令中我們可能必須使用pip而不是pip3。

鑒于簡(jiǎn)單的sensor_data.csv,我們可以預(yù)測(cè)sensor3的值。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

從Lightwood導(dǎo)入預(yù)測(cè)變量

  1. from lightwood import Predictor 

訓(xùn)練模型。

  1. import pandas 
  2. sensor3_predictor = Predictor(output=['sensor3']) 
  3.   .learn(from_data=pandas.read_csv('sensor_data.csv')) 

現(xiàn)在我們可以預(yù)測(cè)sensor3的值。

  1. prediction = sensor3_predictor.predict(when={'sensor1':1, 'sensor2':-1}) 

官方鏈接:https://github.com/mindsdb/lightwood

6. MindsDB

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

MindsDB是現(xiàn)有數(shù)據(jù)庫(kù)的開(kāi)源AI層,可讓您輕松使用SQL查詢來(lái)開(kāi)發(fā),訓(xùn)練和部署最新的機(jī)器學(xué)習(xí)模型。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

官方鏈接:https://github.com/mindsdb/mindsdb

7. mljar-supervised

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

mljar-supervised是一個(gè)自動(dòng)化的機(jī)器學(xué)習(xí)Python軟件包,可用于表格數(shù)據(jù)。它旨在為數(shù)據(jù)科學(xué)家節(jié)省時(shí)間time。它抽象了預(yù)處理數(shù)據(jù),構(gòu)建機(jī)器學(xué)習(xí)模型以及執(zhí)行超參數(shù)調(diào)整以找到最佳模型common的通用方法。這不是黑盒子,因?yàn)槟梢源_切地看到ML管道的構(gòu)造方式(每個(gè)ML模型都有詳細(xì)的Markdown報(bào)告)。

在mljar-supervised中,將幫助您:

  • 解釋和理解您的數(shù)據(jù),
  • 嘗試許多不同的機(jī)器學(xué)習(xí)模型,
  • 通過(guò)分析創(chuàng)建有關(guān)所有模型的詳細(xì)信息的Markdown報(bào)告,
  • 保存,重新運(yùn)行和加載分析和ML模型。

它具有三種內(nèi)置的工作模式:

  • 解釋模式,非常適合于解釋和理解數(shù)據(jù),其中包含許多數(shù)據(jù)解釋,例如決策樹(shù)可視化,線性模型系數(shù)顯示,排列重要性和數(shù)據(jù)的SHAP解釋,
  • 執(zhí)行構(gòu)建用于生產(chǎn)的ML管道,
  • 競(jìng)爭(zhēng)模式,用于訓(xùn)練具有集成和堆疊功能的高級(jí)ML模型,目的是用于ML競(jìng)賽中。

官方鏈接:-https://github.com/mljar/mljar-supervised

8. Auto-Keras

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

Auto-Keras是由DATA Lab開(kāi)發(fā)的用于自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的開(kāi)源軟件庫(kù)。Auto-Keras建立在深度學(xué)習(xí)框架Keras之上,提供自動(dòng)搜索深度學(xué)習(xí)模型的體系結(jié)構(gòu)和超參數(shù)的功能。

Auto-Keras遵循經(jīng)典的Scikit-Learn API設(shè)計(jì),因此易于使用。當(dāng)前版本提供了在深度學(xué)習(xí)期間自動(dòng)搜索超參數(shù)的功能。

在Auto-Keras中,趨勢(shì)是通過(guò)使用自動(dòng)神經(jīng)體系結(jié)構(gòu)搜索(NAS)算法來(lái)簡(jiǎn)化ML。NAS基本上使用一組算法來(lái)自動(dòng)調(diào)整模型,以取代深度學(xué)習(xí)工程師/從業(yè)人員。

官方鏈接:https://github.com/keras-team/autokeras

9. 神經(jīng)網(wǎng)絡(luò)智能 NNI

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

用于神經(jīng)體系結(jié)構(gòu)搜索和超參數(shù)調(diào)整的開(kāi)源AutoML工具包。NNI提供了CommandLine Tool以及用戶友好的WebUI來(lái)管理訓(xùn)練實(shí)驗(yàn)。使用可擴(kuò)展的API,您可以自定義自己的AutoML算法和培訓(xùn)服務(wù)。為了使新用戶容易使用,NNI還提供了一組內(nèi)置的最新AutoML算法,并為流行的培訓(xùn)平臺(tái)提供了開(kāi)箱即用的支持。

官方網(wǎng)站:-https://nni.readthedocs.io/en/latest/

10. Ludwig

路德維希(Ludwig)是一個(gè)工具箱,可讓用戶無(wú)需編寫(xiě)代碼即可訓(xùn)練和測(cè)試深度學(xué)習(xí)模型。它建立在TensorFlow之上,Ludwig基于可擴(kuò)展性原則構(gòu)建,并基于數(shù)據(jù)類型抽象,可以輕松添加對(duì)新數(shù)據(jù)類型和新模型架構(gòu)的支持,可供從業(yè)人員快速培訓(xùn)和測(cè)試深度學(xué)習(xí)模型以及由研究人員獲得的強(qiáng)基準(zhǔn)進(jìn)行比較,并具有實(shí)驗(yàn)設(shè)置,可通過(guò)執(zhí)行相同的數(shù)據(jù)處理和評(píng)估來(lái)確保可比性。

路德維希提供了一組模型體系結(jié)構(gòu),可以將它們組合在一起以為給定用例創(chuàng)建端到端模型。舉例來(lái)說(shuō),如果深度學(xué)習(xí)圖書(shū)館提供了建造建筑物的基礎(chǔ),路德維希提供了建造城市的建筑物,您可以在可用建筑物中進(jìn)行選擇,也可以將自己的建筑物添加到可用建筑物中。

  • 無(wú)需編碼:不需要任何編碼技能即可訓(xùn)練模型并將其用于獲取預(yù)測(cè)。
  • 通用性:新的基于數(shù)據(jù)類型的深度學(xué)習(xí)模型設(shè)計(jì)方法使該工具可在許多不同的用例中使用。
  • 靈活性:經(jīng)驗(yàn)豐富的用戶對(duì)模型的建立和培訓(xùn)具有廣泛的控制權(quán),而新用戶則會(huì)發(fā)現(xiàn)它易于使用。
  • 可擴(kuò)展性:易于添加新的模型架構(gòu)和新的特征數(shù)據(jù)類型。
  • 可理解性:深度學(xué)習(xí)模型的內(nèi)部通常被認(rèn)為是黑匣子,但是路德維希(Ludwig)提供了標(biāo)準(zhǔn)的可視化效果來(lái)了解其性能并比較其預(yù)測(cè)。
  • 開(kāi)源:Apache License 2.0

官方鏈接:-https://github.com/uber/ludwig

11. AdaNet

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

AdaNet是基于TensorFlow的輕量級(jí)框架,可在最少的專家干預(yù)下自動(dòng)學(xué)習(xí)高質(zhì)量的模型。AdaNet建立在AutoML最近的努力基礎(chǔ)上,以提供快速的,靈活的學(xué)習(xí)保證。重要的是,AdaNet提供了一個(gè)通用框架,不僅用于學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),而且還用于學(xué)習(xí)集成以獲得更好的模型。

AdaNet具有以下目標(biāo):

  • 易于使用:提供熟悉的API(例如Keras,Estimator)用于訓(xùn)練,評(píng)估和提供模型。
  • 速度:可用計(jì)算進(jìn)行擴(kuò)展,并快速生成高質(zhì)量的模型。
  • 靈活性:允許研究人員和從業(yè)人員將AdaNet擴(kuò)展到新穎的子網(wǎng)體系結(jié)構(gòu),搜索空間和任務(wù)。
  • 學(xué)習(xí)保證:優(yōu)化提供理論學(xué)習(xí)保證的目標(biāo)。
20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

官方鏈接:https://github.com/tensorflow/adanet

12. Darts(可差分架構(gòu)搜索)

該算法基于架構(gòu)空間中的連續(xù)松弛和梯度下降。它能夠有效地設(shè)計(jì)用于圖像分類的高性能卷積體系結(jié)構(gòu)(在CIFAR-10和ImageNet上),以及用于語(yǔ)言建模的循環(huán)體系結(jié)構(gòu)(在Penn Treebank和WikiText-2上)。只需要一個(gè)GPU。

官方鏈接:-https://github.com/quark0/darts

13. automl-gs

提供一個(gè)輸入的CSV文件和一個(gè)您希望預(yù)測(cè)為automl-gs的目標(biāo)字段,并獲得訓(xùn)練有素的高性能機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型以及本機(jī)Python代碼管道,使您可以將該模型集成到任何預(yù)測(cè)工作流中。沒(méi)有黑匣子:您可以確切地看到如何處理數(shù)據(jù),如何構(gòu)建模型以及可以根據(jù)需要進(jìn)行調(diào)整。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

automl-gs是一種AutoML工具,與Microsoft的NNI,Uber的Ludwig和TPOT不同,它提供了零代碼/模型定義界面,可在多個(gè)流行的ML / DL框架中以最少的Python依賴關(guān)系獲得優(yōu)化的模型和數(shù)據(jù)轉(zhuǎn)換管道。

官方鏈接:-https://github.com/minimaxir/automl-gs

14. AutoKeras的R接口

AutoKeras是用于自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的開(kāi)源軟件庫(kù)。它是由德克薩斯農(nóng)工大學(xué)的DATA Lab和社區(qū)貢獻(xiàn)者開(kāi)發(fā)的。AutoML的最終目標(biāo)是為數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)背景有限的領(lǐng)域?qū)<姨峁┮子谠L問(wèn)的深度學(xué)習(xí)工具。AutoKeras提供了自動(dòng)搜索深度學(xué)習(xí)模型的體系結(jié)構(gòu)和超參數(shù)的功能。

在RStudio TensorFlow for R博客上查看AutoKeras博客文章。

官方文檔:https://github.com/r-tensorflow/autokeras

15. TransmogrifAI

TransmogrifAI(發(fā)音為trăns-mŏgˈrə-fī)是用Scala編寫(xiě)的AutoML庫(kù),它在Apache Spark之上運(yùn)行。它的開(kāi)發(fā)重點(diǎn)是通過(guò)機(jī)器學(xué)習(xí)自動(dòng)化來(lái)提高機(jī)器學(xué)習(xí)開(kāi)發(fā)人員的生產(chǎn)率,以及一個(gè)用于強(qiáng)制執(zhí)行編譯時(shí)類型安全,模塊化和重用的API。通過(guò)自動(dòng)化,它實(shí)現(xiàn)了接近手動(dòng)調(diào)整模型的精度,時(shí)間減少了近100倍。

如果您需要機(jī)器學(xué)習(xí)庫(kù)來(lái)執(zhí)行以下操作,請(qǐng)使用TransmogrifAI:

  • 數(shù)小時(shí)而不是數(shù)月內(nèi)即可構(gòu)建生產(chǎn)就緒的機(jī)器學(xué)習(xí)應(yīng)用程序
  • 在沒(méi)有博士學(xué)位的情況下建立機(jī)器學(xué)習(xí)模型在機(jī)器學(xué)習(xí)中
  • 構(gòu)建模塊化,可重用,強(qiáng)類型的機(jī)器學(xué)習(xí)工作流程

官方鏈接:https://github.com/salesforce/TransmogrifAI

16. Glaucus

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

Glaucus是基于數(shù)據(jù)流的機(jī)器學(xué)習(xí)套件,它結(jié)合了自動(dòng)機(jī)器學(xué)習(xí)管道,簡(jiǎn)化了機(jī)器學(xué)習(xí)算法的復(fù)雜過(guò)程,并應(yīng)用了出色的分布式數(shù)據(jù)處理引擎。對(duì)于跨領(lǐng)域的非數(shù)據(jù)科學(xué)專業(yè)人士,幫助他們以簡(jiǎn)單的方式獲得強(qiáng)大的機(jī)器學(xué)習(xí)工具的好處。

用戶只需要上傳數(shù)據(jù),簡(jiǎn)單配置,算法選擇,并通過(guò)自動(dòng)或手動(dòng)參數(shù)調(diào)整來(lái)訓(xùn)練算法。該平臺(tái)還為培訓(xùn)模型提供了豐富的評(píng)估指標(biāo),因此非專業(yè)人員可以最大限度地發(fā)揮機(jī)器學(xué)習(xí)在其領(lǐng)域中的作用。整個(gè)平臺(tái)結(jié)構(gòu)如下圖所示,主要功能是:

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)
  • 接收多源數(shù)據(jù)集,包括結(jié)構(gòu)化,文檔和圖像數(shù)據(jù);
  • 提供豐富的數(shù)學(xué)統(tǒng)計(jì)功能,圖形界面使用戶輕松掌握數(shù)據(jù)情況;
  • 在自動(dòng)模式下,我們實(shí)現(xiàn)了從預(yù)處理,特征工程到機(jī)器學(xué)習(xí)算法的全管道自動(dòng)化;
  • 在手動(dòng)模式下,它極大地簡(jiǎn)化了機(jī)器學(xué)習(xí)流程,并提供了自動(dòng)數(shù)據(jù)清理,半自動(dòng)特征選擇和深度學(xué)習(xí)套件。

官方網(wǎng)站:-https://github.com/ccnt-glaucus/glaucus

17. H20 AutoML

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

H2O AutoML界面設(shè)計(jì)為具有盡可能少的參數(shù),因此用戶所需要做的只是指向他們的數(shù)據(jù)集,標(biāo)識(shí)響應(yīng)列,并可選地指定時(shí)間限制或訓(xùn)練的總模型數(shù)量的限制。

在R和Python API中,AutoML與其他H2O算法使用相同的數(shù)據(jù)相關(guān)參數(shù)x,y,training_frame,validation_frame。大多數(shù)時(shí)候,您需要做的就是指定數(shù)據(jù)參數(shù)。然后,您可以為max_runtime_secs和/或max_models配置值,以在運(yùn)行時(shí)設(shè)置明確的時(shí)間或模型數(shù)量限制。

官方鏈接:https://github.com//h2oai/h2o-3/blob/master/h2o-docs/src/product/automl.rst

18. PocketFlow

PocketFlow是一個(gè)開(kāi)源框架,用于以最少的人力來(lái)壓縮和加速深度學(xué)習(xí)模型。深度學(xué)習(xí)廣泛用于計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別和自然語(yǔ)言翻譯等各個(gè)領(lǐng)域。但是,深度學(xué)習(xí)模型通常在計(jì)算上很昂貴,這限制了在計(jì)算資源有限的移動(dòng)設(shè)備上的進(jìn)一步應(yīng)用。

PocketFlow旨在為開(kāi)發(fā)人員提供一個(gè)易于使用的工具包,以提高推理效率而幾乎不降低性能或不降低性能。開(kāi)發(fā)人員只需指定所需的壓縮和/或加速比,然后PocketFlow將自動(dòng)選擇適當(dāng)?shù)某瑓?shù)以生成用于部署的高效壓縮模型。

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

官方鏈接:-https://github.com/Tencent/PocketFlow

19. Ray

20個(gè)面向數(shù)據(jù)科學(xué)家的自動(dòng)機(jī)器學(xué)習(xí)庫(kù)

Ray提供了用于構(gòu)建分布式應(yīng)用程序的簡(jiǎn)單通用API。

Ray與以下庫(kù)打包在一起,以加快機(jī)器學(xué)習(xí)的工作量:

  • Tune:可伸縮超參數(shù)調(diào)整
  • RLlib:可擴(kuò)展的強(qiáng)化學(xué)習(xí)
  • RaySGD:分布式培訓(xùn)包裝器
  • Ray Serve:可擴(kuò)展和可編程服務(wù)

使用以下方式安裝Ray:pip install ray

官方鏈接:https://github.com/ray-project/ray

20. SMAC3

SMAC是用于算法配置的工具,可以跨一組實(shí)例優(yōu)化任意算法的參數(shù)。這還包括ML算法的超參數(shù)優(yōu)化。主要核心包括貝葉斯優(yōu)化和積極的競(jìng)速機(jī)制,可有效地確定兩種配置中哪一種的性能更好。

有關(guān)其主要思想的詳細(xì)說(shuō)明,請(qǐng)參閱:

Hutter, F. and Hoos, H. H. and Leyton-Brown, K.Sequential Model-Based Optimization for General Algorithm ConfigurationIn: Proceedings of the conference on Learning and Intelligent OptimizatioN (LION 5)

SMAC v3是用Python3編寫(xiě)的,并經(jīng)過(guò)了Python 3.6和python3.6的持續(xù)測(cè)試。它的隨機(jī)森林用C ++編寫(xiě)。

結(jié)論

autoML庫(kù)非常重要,因?yàn)樗鼈兛梢宰詣?dòng)執(zhí)行重復(fù)任務(wù),例如管道創(chuàng)建和超參數(shù)調(diào)整。它為數(shù)據(jù)科學(xué)家節(jié)省了時(shí)間,因此他們可以將更多的時(shí)間投入到業(yè)務(wù)問(wèn)題上。AutoML還允許每個(gè)人代替一小部分人使用機(jī)器學(xué)習(xí)技術(shù)。數(shù)據(jù)科學(xué)家可以通過(guò)使用AutoML實(shí)施真正有效的機(jī)器學(xué)習(xí)來(lái)加速M(fèi)L開(kāi)發(fā)。

讓我們看看AutoML的成功將取決于組織的使用情況和需求。時(shí)間將決定命運(yùn)。但是目前我可以說(shuō)AutoML在機(jī)器學(xué)習(xí)領(lǐng)域中很重要。

 

責(zé)任編輯:趙寧寧 來(lái)源: 今日頭條
相關(guān)推薦

2018-10-18 09:00:00

機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)算法數(shù)據(jù)科學(xué)家

2016-03-10 13:56:42

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2018-03-27 11:02:55

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2023-10-23 07:13:04

2023-02-20 07:46:45

機(jī)器學(xué)習(xí)AI 技術(shù)

2020-07-19 15:17:41

機(jī)器學(xué)習(xí)技術(shù)工程師

2020-03-13 14:13:48

機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)編程

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2024-04-25 16:01:17

機(jī)器學(xué)習(xí)人工智能

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO

2017-08-21 17:25:57

數(shù)據(jù)科學(xué)家深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)

2018-01-25 14:19:32

深度學(xué)習(xí)數(shù)據(jù)科學(xué)遷移學(xué)習(xí)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2022-12-09 14:57:53

戴爾

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)