自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

支持機(jī)器學(xué)習(xí)的8個(gè)數(shù)據(jù)倉(cāng)庫(kù)

譯文
人工智能 機(jī)器學(xué)習(xí) 數(shù)據(jù)倉(cāng)庫(kù)
對(duì)于規(guī)模非常大的數(shù)據(jù)集來(lái)說(shuō),理想的情況是在數(shù)據(jù)已經(jīng)存在的地方建立模型,這樣就不需要導(dǎo)出大量的數(shù)據(jù)。有一些數(shù)據(jù)倉(cāng)庫(kù)在一定程度上支持這一點(diǎn)。而隨之而來(lái)的問(wèn)題是:哪些數(shù)據(jù)倉(cāng)庫(kù)支持機(jī)器學(xué)習(xí)?它們是如何做到的?以下按字母排序?qū)@些數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行分析和闡述。

[[399333]]

【51CTO.com快譯】對(duì)于規(guī)模非常大的數(shù)據(jù)集來(lái)說(shuō),理想的情況是在數(shù)據(jù)已經(jīng)存在的地方建立模型,這樣就不需要導(dǎo)出大量的數(shù)據(jù)。有一些數(shù)據(jù)倉(cāng)庫(kù)在一定程度上支持這一點(diǎn)。而隨之而來(lái)的問(wèn)題是:哪些數(shù)據(jù)倉(cāng)庫(kù)支持機(jī)器學(xué)習(xí)?它們是如何做到的?以下按字母排序?qū)@些數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行分析和闡述。

1.Amazon Redshift

Amazon Redshift是一種托管的PB級(jí)數(shù)據(jù)倉(cāng)庫(kù),旨在使用戶(hù)可以使用現(xiàn)有的商業(yè)智能工具簡(jiǎn)單高效地分析所有的數(shù)據(jù),它可以針對(duì)從數(shù)百GB到數(shù)PB甚至更大的數(shù)據(jù)集進(jìn)行優(yōu)化,并且每年每TB的存儲(chǔ)成本不到1,000美元。

Amazon Redshift-ML旨在使用戶(hù)可以輕松使用SQL命令創(chuàng)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。Redshift SQL中的CREATE MODEL命令定義了用于訓(xùn)練的數(shù)據(jù)和目標(biāo)列,然后將數(shù)據(jù)通過(guò)同一區(qū)域中的加密Amazon S3存儲(chǔ)桶傳遞到Amazon SageMaker Autopilot進(jìn)行訓(xùn)練。

在進(jìn)行AutoML訓(xùn)練之后,Redshift-ML編譯最佳模型,并將其注冊(cè)為Redshift集群中的預(yù)測(cè)SQL函數(shù)。然后可以通過(guò)在SELECT語(yǔ)句中調(diào)用預(yù)測(cè)函數(shù)來(lái)調(diào)用模型進(jìn)行推理。

概要:Redshift-ML使用SageMaker Autopilot通過(guò)SQL語(yǔ)句從指定的數(shù)據(jù)自動(dòng)創(chuàng)建預(yù)測(cè)模型,SQL語(yǔ)句被提取到S3存儲(chǔ)桶中。其最佳的預(yù)測(cè)函數(shù)已在Redshift群集中注冊(cè)。

2.BlazingSQL

BlazingSQL是一個(gè)建立在RAPIDS數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)之上的采用GPU加速的SQL引擎,它以開(kāi)源項(xiàng)目和付費(fèi)服務(wù)的形式存在。RAPIDS是Nvidia公司開(kāi)發(fā)的一套開(kāi)源軟件倉(cāng)庫(kù)和API,它使用計(jì)算統(tǒng)一設(shè)備架構(gòu)(CUDA),并且基于Apache Arrow列式內(nèi)存格式。CuDF是RAPIDS的一部分,是一個(gè)類(lèi)似于Pandas的GPU DataFrame倉(cāng)庫(kù),用于加載、連接、聚合、過(guò)濾和其他操作數(shù)據(jù)。

Dask是一個(gè)開(kāi)源工具,可以將Python軟件包擴(kuò)展到多臺(tái)計(jì)算機(jī)。Dask可以在同一系統(tǒng)或多節(jié)點(diǎn)群集中的多個(gè)GPU上分布數(shù)據(jù)和計(jì)算。Dask與RAPIDS cuDF、XGBoost和RAPIDS cuML集成,用于GPU加速數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。

概要:BlazingSQL可以在Amazon S3中的數(shù)據(jù)湖上運(yùn)行GPU加速的查詢(xún),將生成的DataFrames傳遞給cuDF以進(jìn)行數(shù)據(jù)處理,最后使用RAPIDS XGBoost和cuML執(zhí)行機(jī)器學(xué)習(xí),并使用PyTorch和TensorFlow進(jìn)行深度學(xué)習(xí)。

3.谷歌云BigQuery

BigQuery是谷歌云托管的一種PB級(jí)數(shù)據(jù)倉(cāng)庫(kù),可讓用戶(hù)近乎實(shí)時(shí)地對(duì)大量數(shù)據(jù)進(jìn)行分析。BigQuery ML允許用戶(hù)使用SQL查詢(xún)?cè)贐igQuery中創(chuàng)建和執(zhí)行機(jī)器學(xué)習(xí)模型。

BigQuery ML支持線(xiàn)性回歸進(jìn)行預(yù)測(cè);二元和多類(lèi)邏輯回歸進(jìn)行分類(lèi);用于數(shù)據(jù)分割的K-均值聚類(lèi);用于創(chuàng)建產(chǎn)品推薦系統(tǒng)的矩陣分解;用于執(zhí)行時(shí)間序列預(yù)測(cè)的時(shí)間序列,其中包括異常和季假日;XGBoost分類(lèi)和回歸模型;基于TensorFlow的深度神經(jīng)網(wǎng)絡(luò)用于分類(lèi)和回歸模型;AutoML表;以及TensorFlow模型。用戶(hù)可以將模型與來(lái)自多個(gè)BigQuery數(shù)據(jù)集中的數(shù)據(jù)一起使用,以進(jìn)行訓(xùn)練和預(yù)測(cè)。BigQuery ML不會(huì)從數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù)。用戶(hù)可以通過(guò)在CREATE MODEL語(yǔ)句中使用TRANSFORM子句來(lái)對(duì)BigQuery ML執(zhí)行功能工程。

概要:BigQuery ML通過(guò)SQL語(yǔ)法將谷歌云機(jī)器學(xué)習(xí)的大部分功能帶入BigQuery數(shù)據(jù)倉(cāng)庫(kù),而無(wú)需從數(shù)據(jù)倉(cāng)庫(kù)中提取數(shù)據(jù)。

4.IBM Db2Warehouse

IBM Db2 Warehouse是一項(xiàng)托管的公共云服務(wù)。用戶(hù)還可以使用自己的硬件或在私有云中在內(nèi)部設(shè)置IBM Db2 Warehouse。作為數(shù)據(jù)倉(cāng)庫(kù),它具有諸如內(nèi)存中數(shù)據(jù)處理和用于在線(xiàn)分析處理的柱狀表之類(lèi)的功能。它采用的Netezza技術(shù)提供了一套強(qiáng)大的分析工具,旨在有效地將查詢(xún)引入數(shù)據(jù)中。還有一系列倉(cāng)庫(kù)和函數(shù)可幫助用戶(hù)獲得所需的精確見(jiàn)解。

Db2 Warehouse支持使用Python、R和SQL進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)內(nèi)機(jī)器學(xué)習(xí)。IDAX模塊包含分析存儲(chǔ)的程序,其中包括方差分析、關(guān)聯(lián)規(guī)則、數(shù)據(jù)轉(zhuǎn)換、決策樹(shù)、診斷度量、離散化和矩、K均值聚類(lèi)、K近鄰、線(xiàn)性回歸、元數(shù)據(jù)管理、樸素貝葉斯分類(lèi),主成分分析、概率分布、隨機(jī)抽樣、回歸樹(shù)、序列模式和規(guī)則,以及參數(shù)和非參數(shù)統(tǒng)計(jì)。

概要:IBM DB2數(shù)據(jù)倉(cāng)庫(kù)包含了一系列廣泛的數(shù)據(jù)倉(cāng)庫(kù)SQL分析,其中包括一些基本的機(jī)器學(xué)習(xí)功能,以及對(duì)R和Python的數(shù)據(jù)庫(kù)內(nèi)支持。

5.Kinetica

Kinetica流數(shù)據(jù)倉(cāng)庫(kù)將歷史和流數(shù)據(jù)分析與位置智能和人工智能結(jié)合在一個(gè)平臺(tái)上,所有這些都可以通過(guò)API和SQL訪問(wèn)。Kinetica是一個(gè)非??焖佟⒎植际?、列式、內(nèi)存優(yōu)先、GPU加速的數(shù)據(jù)倉(cāng)庫(kù),具有過(guò)濾、可視化和聚合功能。

Kinetica將機(jī)器學(xué)習(xí)模型和算法與用戶(hù)的數(shù)據(jù)集成在一起,實(shí)現(xiàn)大規(guī)模的實(shí)時(shí)預(yù)測(cè)分析。它允許用戶(hù)簡(jiǎn)化數(shù)據(jù)管道和分析、機(jī)器學(xué)習(xí)模型和數(shù)據(jù)工程的生命周期,并使用流計(jì)算功能。Kinetica為GPU加速的機(jī)器學(xué)習(xí)提供了一個(gè)完整的生命周期解決方案:管理Jupyter記事本,通過(guò)RAPIDS進(jìn)行模型訓(xùn)練,以及Kinetica平臺(tái)中的自動(dòng)模型部署和推理。

概要:Kinetica為GPU加速的機(jī)器學(xué)習(xí)提供了一個(gè)完整的數(shù)據(jù)倉(cāng)庫(kù)生命周期解決方案,并且可以從流數(shù)據(jù)中計(jì)算功能。

6.Microsoft SQL Server

Microsoft SQL Server機(jī)器學(xué)習(xí)服務(wù)在SQL Server RDBMS中支持R、Python、Java、PREDICT T-SQL命令和rx\u PREDICT存儲(chǔ)過(guò)程,在SQL Server大數(shù)據(jù)集群中支持SparkML。在R和Python語(yǔ)言中,微軟公司提供了幾個(gè)用于機(jī)器學(xué)習(xí)的軟件包和數(shù)據(jù)倉(cāng)庫(kù)。用戶(hù)可以將經(jīng)過(guò)訓(xùn)練的模型存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中或外部。Azure SQL托管實(shí)例支持Python和R的機(jī)器學(xué)習(xí)服務(wù)作為預(yù)覽。

Microsoft R進(jìn)行擴(kuò)展以允許它處理磁盤(pán)和內(nèi)存中的數(shù)據(jù)。 SQL Server提供了一個(gè)擴(kuò)展框架,使R、Python和Java代碼可以使用SQL Server的數(shù)據(jù)和功能。SQL Server的大數(shù)據(jù)集群上運(yùn)行的SQL Server、Spark,和HDFS中Kubernetes。當(dāng)SQL Server調(diào)用Python代碼時(shí),它可以反過(guò)來(lái)調(diào)用Azure機(jī)器學(xué)習(xí),并將生成的模型保存在數(shù)據(jù)倉(cāng)庫(kù)中以用于預(yù)測(cè)。

概要:當(dāng)前版本的SQL Server可以用多種編程語(yǔ)言訓(xùn)練和推斷機(jī)器學(xué)習(xí)模型。

7.Oracle Database

Oracle Cloud Infrastructure(OCI)Data Science是一個(gè)托管和無(wú)服務(wù)器的平臺(tái),供數(shù)據(jù)科學(xué)團(tuán)隊(duì)使用Oracle云計(jì)算基礎(chǔ)設(shè)施(包括Oracle自治數(shù)據(jù)庫(kù)和Oracle自治數(shù)據(jù)倉(cāng)庫(kù))構(gòu)建、培訓(xùn)和管理機(jī)器學(xué)習(xí)模型。它包括由開(kāi)放源碼社區(qū)和Oracle Accelerated Data Science(ADS)倉(cāng)庫(kù)開(kāi)發(fā)的以Python為中心的工具、倉(cāng)庫(kù)和軟件包。ADS支持預(yù)測(cè)模型的端到端生命周期:

  • 數(shù)據(jù)采集、分析、準(zhǔn)備和可視化。
  • 特征工程。
  • 模型培訓(xùn)(包括Oracle AutoML)。
  • 模型的評(píng)估、說(shuō)明和解釋(包括Oracle MLX)。
  • Oracle功能的模型部署。

OCI Data Science與Oracle云計(jì)算基礎(chǔ)設(shè)施堆棧的其余部分集成,其中包括功能、數(shù)據(jù)流、自治數(shù)據(jù)倉(cāng)庫(kù)和對(duì)象存儲(chǔ)。

當(dāng)前支持的模型包括:

  • Oracle AutoML
  • Keras
  • Scikit-learn
  • XGBoost
  • ADSTuner(超參數(shù)調(diào)整)

ADS還支持機(jī)器學(xué)習(xí)可解釋性(MLX)。

概要:Oracle云計(jì)算基礎(chǔ)設(shè)施可以托管與其數(shù)據(jù)倉(cāng)庫(kù)、對(duì)象存儲(chǔ)和功能集成的數(shù)據(jù)科學(xué)資源,從而實(shí)現(xiàn)完整的模型開(kāi)發(fā)生命周期。

8.Vertica

Vertica分析平臺(tái)是一個(gè)可擴(kuò)展的列式存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)。它以?xún)煞N模式運(yùn)行:Enterprise模式在本地將數(shù)據(jù)存儲(chǔ)在組成數(shù)據(jù)倉(cāng)庫(kù)的節(jié)點(diǎn)的文件系統(tǒng)中;EON模式將所有計(jì)算節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行公共存儲(chǔ)。

Vertica使用大規(guī)模并行處理來(lái)處理PB級(jí)數(shù)據(jù),并使用數(shù)據(jù)并行進(jìn)行內(nèi)部機(jī)器學(xué)習(xí)。它具有八種用于數(shù)據(jù)準(zhǔn)備的內(nèi)置算法、三種回歸算法、四種分類(lèi)算法、兩種聚類(lèi)算法、幾種模型管理功能以及導(dǎo)入在其他地方訓(xùn)練過(guò)的TensorFlow和PMML模型的能力。一旦擬合或?qū)肓四P?,就可以使用它進(jìn)行預(yù)測(cè)。Vista還允許用戶(hù)定義的擴(kuò)展程序在C++、Java、python或R中編程。用戶(hù)可以使用SQL語(yǔ)法進(jìn)行訓(xùn)練和推理。

概要:Vertica內(nèi)置了一套不錯(cuò)的機(jī)器學(xué)習(xí)算法,可以導(dǎo)入TensorFlow和PMML模型。它可以根據(jù)導(dǎo)入的模型以及自己的模型進(jìn)行預(yù)測(cè)。

MindsDB

MindsDB是一個(gè)可解釋的AutoML框架,適用于在Pytorch之上構(gòu)建的開(kāi)發(fā)人員。如果用戶(hù)的數(shù)據(jù)倉(cāng)庫(kù)不支持內(nèi)部機(jī)器學(xué)習(xí),則可以使用MindsDB來(lái)添加該功能,該數(shù)據(jù)倉(cāng)庫(kù)與六個(gè)數(shù)據(jù)倉(cāng)庫(kù)和五個(gè)BI工具集成在一起。得到支持的數(shù)據(jù)倉(cāng)庫(kù)包括MariaDB、MySQL、PostgreSQL、ClickHouse、Microsoft SQL Server和Snowflake,并將在工作中實(shí)現(xiàn)MongoDB集成,并在2021年晚些時(shí)候承諾與流數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行集成。受支持的BI工具當(dāng)前包括SAS、Qlik Sense、Microsoft Power BI、Looker和Domo。

MindsDB具有AutoML、AI表和可解釋AI(XAI)的功能。用戶(hù)可以從MindsDB Studio、SQL INSERT語(yǔ)句或Python API調(diào)用中調(diào)用AutoML訓(xùn)練。訓(xùn)練可以選擇使用GPU,還可以選擇創(chuàng)建時(shí)間序列模型。

用戶(hù)可以將模型另存為數(shù)據(jù)倉(cāng)庫(kù)表,并通過(guò)針對(duì)保存的模型的SQL SELECT語(yǔ)句、MindsDB Studio或Python API調(diào)用對(duì)其進(jìn)行調(diào)用??梢詮腗indsDB Studio中評(píng)估、解釋和可視化模型質(zhì)量。

用戶(hù)還可以將MindsDB Studio和Python API連接到本地和遠(yuǎn)程數(shù)據(jù)源。MindsDB還提供了一個(gè)簡(jiǎn)化的深度學(xué)習(xí)框架Lightwood,該框架可在PyTorch上運(yùn)行。

概要:MindsDB將有用的機(jī)器學(xué)習(xí)功能帶入了許多缺乏對(duì)機(jī)器學(xué)習(xí)的內(nèi)置支持的數(shù)據(jù)倉(cāng)庫(kù)中。

越來(lái)越多的數(shù)據(jù)倉(cāng)庫(kù)支持內(nèi)部進(jìn)行機(jī)器學(xué)習(xí)。其確切的機(jī)制各不相同,有些機(jī)制比其他機(jī)制更有能力。但是,如果用戶(hù)有大量數(shù)據(jù),可能需要在采樣的子集上擬合模型,那么以上列出的八個(gè)數(shù)據(jù)倉(cāng)庫(kù)中的任何一個(gè)以及在MindsDB的幫助下的其他數(shù)據(jù)倉(cāng)庫(kù)都可以幫助用戶(hù)從完整的數(shù)據(jù)集構(gòu)建模型,而不必為數(shù)據(jù)導(dǎo)出支付更多的費(fèi)用。

原文標(biāo)題:8 databases supporting in-database machine learning,作者:Martin Heller

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2009-01-20 14:22:49

ODS數(shù)據(jù)倉(cāng)庫(kù)教程

2023-05-16 15:27:31

2021-09-01 10:03:44

數(shù)據(jù)倉(cāng)庫(kù)云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2013-11-01 11:06:33

數(shù)據(jù)

2021-03-18 10:04:46

數(shù)據(jù)倉(cāng)庫(kù)體系

2013-03-20 16:23:53

數(shù)據(jù)清洗

2022-07-28 13:47:30

云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)

2009-01-18 15:48:31

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)OLTP

2023-08-14 16:56:53

2024-03-19 13:45:27

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖大數(shù)據(jù)

2009-02-06 09:56:56

軟件測(cè)試數(shù)據(jù)倉(cāng)庫(kù)測(cè)試開(kāi)發(fā)與執(zhí)行

2025-03-12 03:00:00

2010-09-30 15:11:47

DB2數(shù)據(jù)倉(cāng)庫(kù)

2017-06-27 10:08:29

數(shù)據(jù)倉(cāng)庫(kù)模型

2024-09-05 16:08:52

2011-05-13 14:17:27

智能數(shù)據(jù)倉(cāng)庫(kù)

2022-11-29 17:16:57

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)分層

2013-10-29 13:28:13

數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)