自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<li id="uqatj"></li>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

20個(gè)GitHub優(yōu)秀開(kāi)源大數(shù)據(jù)項(xiàng)目

作者：zone7 2023-10-13 13:11:26

大數(shù)據(jù)

大數(shù)據(jù)技術(shù)的發(fā)展最開(kāi)始便得益于開(kāi)源社區(qū)的貢獻(xiàn)，出現(xiàn)了許多優(yōu)秀的大數(shù)據(jù)相關(guān)的開(kāi)源項(xiàng)目。下面列舉了20個(gè)最受歡迎且有趣的開(kāi)源大數(shù)據(jù)項(xiàng)目，供研究、參考。

近年來(lái)數(shù)字戰(zhàn)略的推動(dòng)進(jìn)一步增加了市場(chǎng)對(duì)大數(shù)據(jù)相關(guān)項(xiàng)目的需求，而大數(shù)據(jù)技術(shù)的發(fā)展也支撐著社會(huì)數(shù)字化的發(fā)展。大數(shù)據(jù)技術(shù)的發(fā)展最開(kāi)始便得益于開(kāi)源社區(qū)的貢獻(xiàn)，出現(xiàn)了許多優(yōu)秀的大數(shù)據(jù)相關(guān)的開(kāi)源項(xiàng)目。根據(jù)“第九屆開(kāi)源未來(lái)年度調(diào)查” ，全世界有72-78%的公司參與了開(kāi)源項(xiàng)目。其中大數(shù)據(jù)35%、云計(jì)算39%、操作系統(tǒng)33%，物聯(lián)網(wǎng)31%，這些技術(shù)方向的快速發(fā)展多少都離不開(kāi)開(kāi)源項(xiàng)目的推動(dòng)。

下面列舉了20個(gè)最受歡迎且有趣的開(kāi)源大數(shù)據(jù)項(xiàng)目，供研究、參考。

1.Apache Beam

https://github.com/apache/beam

Apache Beam是2016年推出的高級(jí)統(tǒng)一編程開(kāi)源模型。它的名字“Beam”來(lái)源于 “Batch” 和 “Stream” ，beam支持眾多分布式處理后端，包括Apache Flink、Apache Spark、Apache Samza、Hazelcast Jet、Google Cloud Dataflow等。它甚至允許您使用任意三種編程語(yǔ)言的開(kāi)源Beam SDK（軟件開(kāi)發(fā)工具包）構(gòu)建定義數(shù)據(jù)管道的程序：Java、Python和Go。

Apache Beam 的優(yōu)點(diǎn)主要有：統(tǒng)一的批處理和流式API、更高的抽象級(jí)別和跨運(yùn)行時(shí)的可移植性。唯一的缺陷是透明度和可定制化較低，與其他Apache API相比，在性能優(yōu)化上相對(duì)不足。

2.Clickhouse

https://github.com/ClickHouse/ClickHouse

Clickhouse是列數(shù)據(jù)庫(kù)管理系統(tǒng)，用于在線分析處理任務(wù)（OLAP）。它允許在運(yùn)行時(shí)同時(shí)創(chuàng)建庫(kù)和表、加載數(shù)據(jù)、運(yùn)行查詢，無(wú)需重新配置或重新啟動(dòng)服務(wù)器。通過(guò)減少磁盤(pán)IO、數(shù)據(jù)本地化和壓縮，clickhouse能夠做到比傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)快100- 1000倍。

它的優(yōu)勢(shì)主要包括：使用編解碼器進(jìn)行數(shù)據(jù)壓縮以獲得出色的性能、支持多核并行處理、支持多服務(wù)器分布式處理、支持SQL語(yǔ)法、提供向量計(jì)算引擎、支持實(shí)時(shí)數(shù)據(jù)更新、支持自適應(yīng)連接算法、支持?jǐn)?shù)據(jù)復(fù)制和數(shù)據(jù)完整性、支持基于角色的訪問(wèn)控制等。

因?yàn)镃lickhouse優(yōu)秀的性能、可擴(kuò)展性、可靠性和安全性。像Yandex、CloudFare、Uber、eBay、Spotify這樣的公司更傾向于使用Clickhouse。

同時(shí)Clickhouse也存在一些缺陷，例如：缺乏事務(wù)機(jī)制，沒(méi)有高效的切換、刪除、插入數(shù)據(jù)的能力、低延遲和稀疏索引。

3.Apache Flink

https://github.com/apache/flink

ApacheFlink是一個(gè)有狀態(tài)的計(jì)算框架。它可以作為兩類數(shù)據(jù)流的分布式處理引擎：無(wú)界數(shù)據(jù)流和有界數(shù)據(jù)流。Flink可以在所有典型的集群環(huán)境中運(yùn)行，并在任何規(guī)模的內(nèi)存中進(jìn)行速度計(jì)算，支持流和批處理，具備全面的狀態(tài)管理，擁有事件時(shí)（event-time）處理語(yǔ)義和狀態(tài)的一致性保證等功能。

Flink具有動(dòng)態(tài)消息、狀態(tài)一致性、多語(yǔ)言支持、云原生、無(wú)數(shù)據(jù)庫(kù)要求和“無(wú)狀態(tài)”操作等優(yōu)勢(shì)。

Flink的常見(jiàn)缺點(diǎn)包括：社區(qū)和論壇較少、缺乏出色的API支持，以及難以對(duì)數(shù)據(jù)可視化進(jìn)行編程等。

4.Nvidia RAPIDS

https://github.com/rapidsai

RAPIDS項(xiàng)目主要用于在GPU上運(yùn)行端到端的數(shù)據(jù)科學(xué)和分析管道?；贑UDA-X AI構(gòu)建，它使用NVIDIA CUDA原生語(yǔ)言進(jìn)行基本算法優(yōu)化，提供友好的Python用戶界面展示GPU并行性能和高帶寬內(nèi)存的速度。除了分析和數(shù)據(jù)科學(xué)之外，RAPIDS還可用于日常數(shù)據(jù)預(yù)處理任務(wù)。通過(guò)提供DataFrame API，與各種機(jī)器學(xué)習(xí)算法連接，以加速端到端管道，而不會(huì)產(chǎn)生通常的序列化開(kāi)銷(xiāo)。RAPIDS還支持多個(gè)節(jié)點(diǎn)、多GPU部署，從而在更大的數(shù)據(jù)集上實(shí)現(xiàn)更快的處理和訓(xùn)練。另外，RAPIDS還具備輕松集成、頂級(jí)模型準(zhǔn)確性、支持開(kāi)源和減少學(xué)習(xí)成本等優(yōu)勢(shì)。

5.TDengine

https://github.com/taosdata/TDengine

TDengine是一個(gè)用于物聯(lián)網(wǎng)、聯(lián)網(wǎng)汽車(chē)和工業(yè)物聯(lián)網(wǎng)的開(kāi)源大數(shù)據(jù)平臺(tái)。它的應(yīng)用場(chǎng)景可以包括：機(jī)器人、電梯、石油/天然氣開(kāi)采、智能家居、汽車(chē)互聯(lián)網(wǎng)、電網(wǎng)、互聯(lián)網(wǎng)接入記錄、電話、金融交易以及水、空氣之類的環(huán)境監(jiān)測(cè)等。它集成了緩存、流計(jì)算、消息隊(duì)列等功能，以降低開(kāi)發(fā)的復(fù)雜性和成本，此外還附帶了時(shí)間序列數(shù)據(jù)庫(kù)。低云服務(wù)成本、全棧時(shí)序數(shù)據(jù)、強(qiáng)大的數(shù)據(jù)分析、與其他工具的無(wú)縫集成、零管理、無(wú)學(xué)習(xí)曲線是TDengine的突出亮點(diǎn)。

6.Apache Spark

https://github.com/apache/spark

Apache Spark是一個(gè)開(kāi)源的分布式計(jì)算框架。它帶有集群的編程接口，包括SQL、機(jī)器學(xué)習(xí)、實(shí)時(shí)數(shù)據(jù)流、圖形處理等功能，這使其擁有快速大數(shù)據(jù)處理能力。Apache Spark的核心是Spark Core，它建立在RDD抽象之上。

Spark SQL使用DataFrames來(lái)容納結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。Spark可以在集群模式或Hadoop YARN，EC2，Mesos，Kubernetes等環(huán)境上運(yùn)行，因此可以說(shuō)非常通用。

可以通過(guò)非關(guān)系型數(shù)據(jù)庫(kù)訪問(wèn)數(shù)據(jù)，例如：Apache Cassandra、Apache HBase、Apache Hive或者Hadoop分布式文件系統(tǒng)等。

Apache Spark還可以根據(jù)歷史或?qū)崟r(shí)數(shù)據(jù)來(lái)執(zhí)行實(shí)時(shí)判斷，因此非常適合預(yù)測(cè)分析，欺詐檢測(cè)，情感分析等應(yīng)用程序。

7.Presto

https://github.com/prestodb/presto

Presto是一個(gè)開(kāi)源的分布式SQL查詢引擎。它使用戶能夠?qū)腉B到PB的各種大小的數(shù)據(jù)源運(yùn)行交互式分析查詢。為交互式分析而構(gòu)建是它的設(shè)計(jì)初衷，使得它可以擴(kuò)展到類似Facebook的規(guī)模，同時(shí)又能夠保證具備接近商業(yè)數(shù)據(jù)倉(cāng)庫(kù)的速度。Presto允許查詢的數(shù)據(jù)庫(kù)包括：Hive、Cassandra、關(guān)系數(shù)據(jù)庫(kù)甚至定制數(shù)據(jù)存儲(chǔ)等。Presto可以在一個(gè)查詢中聚合來(lái)自多個(gè)數(shù)據(jù)源，支持對(duì)整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行分析。

但Presto在使用時(shí)也存在一些缺點(diǎn)，例如：它不支持大的實(shí)體連接、缺乏UDF（用戶定義的函數(shù)）支持等。

8.Apache Zeppelin

https://github.com/apache/zeppelin

Apache Zeppelin是一款多用途筆記本，支持?jǐn)?shù)據(jù)提取、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)可視化和數(shù)據(jù)協(xié)作?？梢宰鳛锳pache Spark的前端Web產(chǎn)品，允許無(wú)縫與Spark應(yīng)用程序?qū)?。Zeppelin 解釋器允許任何數(shù)據(jù)處理后端對(duì)接到Zeppelin，支持Spark、Markdown、Python、Shell和JDBC等。它提供了單用戶和多用戶兩種部署類型。Zeppelin的最新創(chuàng)新包括：Zeppelin SDK，改進(jìn)的Spark Interpreter，F(xiàn)link Interpreter，Yarn Interpreter Mode，Inline Configuration，Interpreter Lifecycle Management。

Zeppelin也存在一些缺點(diǎn)，例如：UI BUG、缺乏對(duì)個(gè)別庫(kù)的支持、有限的可視化配置等。

9.CMAK

https://github.com/yahoo/CMAK

CMAK是Cluster Manager for Apache Kafka的縮寫(xiě)，以前稱為Kafka Manager，是Apache Kafka集群的管理工具。該項(xiàng)目目前由Verizon Media和社區(qū)共同管理。CMAK的主要功能包括：多集群管理、集群狀態(tài)檢查、運(yùn)行首選副本選舉、生成具有選擇代理的選項(xiàng)的分區(qū)分配、運(yùn)行分區(qū)重新分配（基于生成的分配）、刪除主題、批量生成分區(qū)分配、批量運(yùn)行多個(gè)主題的分區(qū)重新分配、添加分區(qū)或更新現(xiàn)有主題的配置等等。

CMAK最顯著的優(yōu)點(diǎn)是它的分區(qū)重新分配功能，但它在Ops任務(wù)的限制方面相對(duì)就是個(gè)缺點(diǎn)。

10.Cython

https://github.com/cython/cython

Cython是Python編程語(yǔ)言的靜態(tài)優(yōu)化器。使得為Python構(gòu)建C擴(kuò)展與編寫(xiě)Python本身一樣簡(jiǎn)單。Cython結(jié)合了Python和C的強(qiáng)大功能，支持編寫(xiě)隨時(shí)在原生C和C++代碼之間來(lái)回切換的Python代碼。

通過(guò)在Python語(yǔ)法中引入靜態(tài)類型聲明，可以快速將可理解的Python代碼優(yōu)化為純C語(yǔ)言以提高性能。使用集成的源代碼級(jí)調(diào)試，可以識(shí)別Python、Cython和C代碼中存在的問(wèn)題。開(kāi)發(fā)人員可以在廣泛且成熟的CPython生態(tài)系統(tǒng)中快速構(gòu)建應(yīng)用程序。

Cython編程語(yǔ)言也可以稱為Python的超集，它允許在python上運(yùn)行C函數(shù)并在變量和類屬性上聲明C類型，使編譯器能夠通過(guò)Cython代碼構(gòu)建C代碼。

Cython的主要缺點(diǎn)包括：Cython代碼不能獨(dú)立重用。除此之外，通過(guò)Cython編譯輸出的C語(yǔ)言在大多數(shù)情況下都無(wú)法達(dá)到手動(dòng)調(diào)優(yōu)的C語(yǔ)言的速度。

11.CatBoost

https://github.com/catboost/catboost

CatBoost是一種機(jī)器學(xué)習(xí)決策樹(shù)梯度算法。是一個(gè)開(kāi)源庫(kù)。它由Yandex的研究人員和工程師開(kāi)發(fā)，并被Yandex和其他組織（如CERN，Cloudflare和Careem出租車(chē)）用于搜索引擎、推薦系統(tǒng)、個(gè)人助理、自動(dòng)駕駛汽車(chē)、天氣預(yù)測(cè)等應(yīng)用場(chǎng)景。

CatBoost的功能包括：支持無(wú)需參數(shù)調(diào)整的高質(zhì)量模型訓(xùn)練，支持分類、實(shí)現(xiàn)有序增強(qiáng)、支持GPU版本、支持缺失值、出色的可視化、高度準(zhǔn)確性和快速預(yù)測(cè)能力。

CatBoost是解決異構(gòu)數(shù)據(jù)問(wèn)題的優(yōu)秀解決方案，但對(duì)于處理同構(gòu)數(shù)據(jù)的情況，它可能不是最好的學(xué)習(xí)器。預(yù)處理、預(yù)測(cè)時(shí)間和模型分析是Catboost的強(qiáng)項(xiàng)，而訓(xùn)練和優(yōu)化時(shí)間則是其弱點(diǎn)。

12.Apache CouchDB

https://github.com/apache/couchdb

Apache CouchDB數(shù)據(jù)庫(kù)于2005年由Apache Software Foundation發(fā)布。CouchDB使用Erlang開(kāi)發(fā)。支持將數(shù)據(jù)存儲(chǔ)在JSON中，使用MapReduce在JavaScript中執(zhí)行查詢，并通過(guò)HTTP提供API。因此，CouchDB非常適合當(dāng)前的移動(dòng)的應(yīng)用程序。使用CouchDB的增量復(fù)制，可以高效地傳輸數(shù)據(jù)，CouchDB允許主——主配置與自動(dòng)沖突檢測(cè)。CouchDB的動(dòng)態(tài)文檔轉(zhuǎn)換和實(shí)時(shí)更改通知等功能可以使Web開(kāi)發(fā)更加簡(jiǎn)單。

CouchDB的主要缺點(diǎn)包括：資源消耗較大、動(dòng)態(tài)查詢耗時(shí)、大型數(shù)據(jù)集臨時(shí)視圖長(zhǎng)耗時(shí)、缺乏事務(wù)支持、大型數(shù)據(jù)庫(kù)復(fù)制的偶爾會(huì)失敗。

13.Apache Airflow

https://github.com/apache/airflow

Apache Airflow是一個(gè)編程的框架，用于自動(dòng)編寫(xiě)、調(diào)度和監(jiān)控Beam數(shù)據(jù)管道。Beam數(shù)據(jù)管道是動(dòng)態(tài)的，因?yàn)樗鼈兪峭ㄟ^(guò)編程構(gòu)建的，所以我們可以使用Airflow的可視化圖形或有向無(wú)環(huán)圖（DAG）創(chuàng)建工作流任務(wù)。Airflow還提供了一個(gè)用戶界面，可以輕松地實(shí)現(xiàn)生產(chǎn)中管道的可視化，便于調(diào)試問(wèn)題，跟蹤管道進(jìn)度。它另一個(gè)優(yōu)勢(shì)是它的可擴(kuò)展性，支持構(gòu)建自己的操作符，并將庫(kù)擴(kuò)展到您的環(huán)境所需的抽象級(jí)別。

但是Airflow沒(méi)有數(shù)據(jù)管道的版本控制，對(duì)新用戶來(lái)說(shuō)不太直觀，開(kāi)始很容易就配置過(guò)載，難以在本地使用。

14.Trino

https://github.com/trinodb/trino

Trino是一個(gè)分布式SQL查詢引擎。支持從異構(gòu)數(shù)據(jù)源查詢大型數(shù)據(jù)集。Trino旨在解決數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理（OLAP）問(wèn)題，包括：數(shù)據(jù)分析、聚合和報(bào)告生成等?？梢杂行У夭樵兎治龃罅繑?shù)據(jù)。在Hadoop和HDFS運(yùn)行環(huán)境下，Trino可以作為MapReduce功能查詢HDFS，有點(diǎn)像Hive或Pig。Trino并不限于支持對(duì)HDFS的訪問(wèn)，也支持其他數(shù)據(jù)源，包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和Cassandra等。

特里諾的一個(gè)重大缺陷是，如果查詢所占用的內(nèi)存超過(guò)集群可用的內(nèi)存，查詢將失敗。不過(guò)，得益于其容錯(cuò)能力，查詢引擎將重試查詢而不是直接報(bào)告失敗。

15.Delta Lake

https://github.com/delta-io/delta

Delta Lake 開(kāi)源項(xiàng)目主要用于數(shù)據(jù)湖的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)。Delta Lake可以在現(xiàn)有的數(shù)據(jù)湖（如S3，ADLS，GCS和HDFS）之上，運(yùn)行ACID事務(wù)、擴(kuò)展的元數(shù)據(jù)處理，并且可以統(tǒng)一流和批處理數(shù)據(jù)。Delta Lake的主要功能包括ACID事務(wù)、可擴(kuò)展的元數(shù)據(jù)處理、數(shù)據(jù)版本控制、開(kāi)放的格式、統(tǒng)一的批處理、數(shù)據(jù)源和接收器流程化、強(qiáng)制執(zhí)行模式、演進(jìn)模式、歷史審計(jì)、更新和刪除、與Apache Spark API的100%兼容性和delta Sharing。

目前已經(jīng)有許多公司在使用Delta Lake處理EB數(shù)據(jù)，例如：Databricks、維亞康姆、阿里巴巴集團(tuán)、McAfee、Upwork、eBay、Informatica等等。

16.Apache Cassandra

https://github.com/apache/cassandra

Apache Cassandra是一個(gè)高可擴(kuò)展性的數(shù)據(jù)庫(kù)，可以在商業(yè)基礎(chǔ)設(shè)施上運(yùn)行，并且具有較高容錯(cuò)性，可以在多個(gè)節(jié)點(diǎn)上自動(dòng)復(fù)制數(shù)據(jù)，支持在不關(guān)閉系統(tǒng)的情況下替換損壞的節(jié)點(diǎn)。Cassandra是一個(gè)NoSQL數(shù)據(jù)庫(kù)，其中所有節(jié)點(diǎn)都是對(duì)等節(jié)點(diǎn)，而不是主從架構(gòu)。這使得它具有高度的可擴(kuò)展性和容錯(cuò)性，并且允許您添加更多的新機(jī)器而不中斷現(xiàn)有應(yīng)用程序。可以選擇同步復(fù)制和異步復(fù)制以完成每次更新。目前像蘋(píng)果、Netflix、Instagram、Spotify和Uber這些大公司都在使用Cassandra。

但Cassandra不支持ACID屬性，不支持聚合、延遲、連接、數(shù)據(jù)復(fù)制、緩慢讀取、VM內(nèi)存管理，這些都是Apache Cassandra的缺點(diǎn)。

17.Vespa

https://github.com/vespa-engine/vespa

Vespa是一個(gè)用于海量數(shù)據(jù)集的低延遲計(jì)算引擎。它通過(guò)索引支持在服務(wù)時(shí)可以對(duì)其進(jìn)行查詢、選擇和處理。通過(guò)Vespa內(nèi)的應(yīng)用組件，使應(yīng)用程序開(kāi)發(fā)人員能夠構(gòu)建后端以及中間件系統(tǒng)，這些系統(tǒng)可擴(kuò)展以快速并可靠地處理大量數(shù)據(jù)。Vespa實(shí)例由幾個(gè)無(wú)狀態(tài)Java容器集群和一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)集群組成。Vespa在文本搜索、推薦、個(gè)性化、問(wèn)答、半結(jié)構(gòu)化導(dǎo)航等許多應(yīng)用場(chǎng)合中被廣泛應(yīng)用。

18.Apache Calcite

https://github.com/apache/calcite

Apache Calcite是一個(gè)用于管理動(dòng)態(tài)數(shù)據(jù)的全棧工具。它是一個(gè)開(kāi)源的數(shù)據(jù)庫(kù)和數(shù)據(jù)管理框架。它附帶了一個(gè)SQL解析器、一個(gè)用于創(chuàng)建關(guān)系代數(shù)表達(dá)式的API和一個(gè)查詢計(jì)劃引擎。

盡管它包含許多標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)管理系統(tǒng)的組件，但還是缺幾個(gè)關(guān)鍵特性，如：數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理方法和元數(shù)據(jù)存儲(chǔ)庫(kù)。Calcite的優(yōu)點(diǎn)包括：查詢解析器、驗(yàn)證器、優(yōu)化器、用于閱讀JSON格式模型的輔助工具、眾多標(biāo)準(zhǔn)函數(shù)、聚合函數(shù)、Linq 4j的JDBC查詢、JDBC后端、Linq 4j前端和SQL特性等。

19.DataHub

https://github.com/linkedin/datahub

DataHub是第三代現(xiàn)代數(shù)據(jù)棧的開(kāi)源元數(shù)據(jù)平臺(tái)，這個(gè)可擴(kuò)展的元數(shù)據(jù)平臺(tái)旨在幫助開(kāi)發(fā)人員駕馭其快速發(fā)展的數(shù)據(jù)生態(tài)系統(tǒng)的復(fù)雜性，并幫助數(shù)據(jù)從業(yè)者在其組織內(nèi)利用數(shù)據(jù)的最大價(jià)值。它每天可以處理超過(guò)1000萬(wàn)個(gè)實(shí)體關(guān)系更改事件，并索引總計(jì)超過(guò)500萬(wàn)個(gè)實(shí)體和關(guān)系。與毫秒級(jí)SLA服務(wù)運(yùn)營(yíng)元數(shù)據(jù)查詢一起完成，從而實(shí)現(xiàn)元數(shù)據(jù)管理具備高效率、合規(guī)性和流程化的特點(diǎn)。DataHub是一個(gè)現(xiàn)代化的數(shù)據(jù)平臺(tái)，支持端到端的數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)可觀察性和數(shù)據(jù)治理。

LinkedIn目前使用了DataHub來(lái)部署數(shù)據(jù)集、模式、流、合規(guī)性注釋、GraphQL端點(diǎn)、指標(biāo)、儀表板、功能和AI模型。使DataHub在實(shí)戰(zhàn)方面經(jīng)得起考驗(yàn)。

20.Koalas

https://github.com/databricks/koalas

Koalas項(xiàng)目在Apache Spark的基礎(chǔ)上實(shí)現(xiàn)了pandas DataFrame API功能，使數(shù)據(jù)科學(xué)家在處理海量數(shù)據(jù)時(shí)更有效率。Spark是大數(shù)據(jù)處理的事實(shí)標(biāo)準(zhǔn)，而pandas是Python中事實(shí)標(biāo)準(zhǔn)（單節(jié)點(diǎn)）DataFrame實(shí)現(xiàn)。如果你已經(jīng)熟悉了pandas，你可以立即使用Spark與Koalas，沒(méi)有多少學(xué)習(xí)曲線。使用Koalas可以讓用戶直接與pandas一起測(cè)試較小的數(shù)據(jù)集，也可以與Spark一起測(cè)試較大的分布式數(shù)據(jù)集。

由于開(kāi)源社區(qū)在幾個(gè)頻繁的版本中不斷貢獻(xiàn)，Koalas中pandas API的覆蓋率迅速增加，并且增加了spark訪問(wèn)器、提升了類型提示支持、更廣泛的繪圖支持、更全面的就地更新支持、更好的缺失值支持等。

責(zé)任編輯：趙寧寧來(lái)源： andflow

大數(shù)據(jù)技術(shù)開(kāi)源

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="n8msa"></blockquote>

^{<blockquote id="n8msa"></blockquote>}