自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

20個(gè)GitHub優(yōu)秀開(kāi)源大數(shù)據(jù)項(xiàng)目

大數(shù)據(jù)
大數(shù)據(jù)技術(shù)的發(fā)展最開(kāi)始便得益于開(kāi)源社區(qū)的貢獻(xiàn),出現(xiàn)了許多優(yōu)秀的大數(shù)據(jù)相關(guān)的開(kāi)源項(xiàng)目。下面列舉了20個(gè)最受歡迎且有趣的開(kāi)源大數(shù)據(jù)項(xiàng)目,供研究、參考。

近年來(lái)數(shù)字戰(zhàn)略的推動(dòng)進(jìn)一步增加了市場(chǎng)對(duì)大數(shù)據(jù)相關(guān)項(xiàng)目的需求,而大數(shù)據(jù)技術(shù)的發(fā)展也支撐著社會(huì)數(shù)字化的發(fā)展。大數(shù)據(jù)技術(shù)的發(fā)展最開(kāi)始便得益于開(kāi)源社區(qū)的貢獻(xiàn),出現(xiàn)了許多優(yōu)秀的大數(shù)據(jù)相關(guān)的開(kāi)源項(xiàng)目。根據(jù)“第九屆開(kāi)源未來(lái)年度調(diào)查” ,全世界有72-78%的公司參與了開(kāi)源項(xiàng)目。其中大數(shù)據(jù)35%、云計(jì)算39%、操作系統(tǒng)33%,物聯(lián)網(wǎng)31%,這些技術(shù)方向的快速發(fā)展多少都離不開(kāi)開(kāi)源項(xiàng)目的推動(dòng)。

下面列舉了20個(gè)最受歡迎且有趣的開(kāi)源大數(shù)據(jù)項(xiàng)目,供研究、參考。

1.Apache Beam

https://github.com/apache/beam

Apache Beam是2016年推出的高級(jí)統(tǒng)一編程開(kāi)源模型。它的名字“Beam”來(lái)源于 “Batch” 和 “Stream” ,beam支持眾多分布式處理后端,包括Apache Flink、Apache Spark、Apache Samza、Hazelcast Jet、Google Cloud Dataflow等。它甚至允許您使用任意三種編程語(yǔ)言的開(kāi)源Beam SDK(軟件開(kāi)發(fā)工具包)構(gòu)建定義數(shù)據(jù)管道的程序:Java、Python和Go。

Apache Beam 的優(yōu)點(diǎn)主要有:統(tǒng)一的批處理和流式API、更高的抽象級(jí)別和跨運(yùn)行時(shí)的可移植性。唯一的缺陷是透明度和可定制化較低,與其他Apache API相比,在性能優(yōu)化上相對(duì)不足。

2.Clickhouse

https://github.com/ClickHouse/ClickHouse

Clickhouse是列數(shù)據(jù)庫(kù)管理系統(tǒng),用于在線分析處理任務(wù)(OLAP)。它允許在運(yùn)行時(shí)同時(shí)創(chuàng)建庫(kù)和表、加載數(shù)據(jù)、運(yùn)行查詢,無(wú)需重新配置或重新啟動(dòng)服務(wù)器。通過(guò)減少磁盤(pán)IO、數(shù)據(jù)本地化和壓縮,clickhouse能夠做到比傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)快100- 1000倍。

它的優(yōu)勢(shì)主要包括:使用編解碼器進(jìn)行數(shù)據(jù)壓縮以獲得出色的性能、支持多核并行處理、支持多服務(wù)器分布式處理、支持SQL語(yǔ)法、提供向量計(jì)算引擎、支持實(shí)時(shí)數(shù)據(jù)更新、支持自適應(yīng)連接算法、支持?jǐn)?shù)據(jù)復(fù)制和數(shù)據(jù)完整性、支持基于角色的訪問(wèn)控制等。

因?yàn)镃lickhouse優(yōu)秀的性能、可擴(kuò)展性、可靠性和安全性。 像Yandex、CloudFare、Uber、eBay、Spotify這樣的公司更傾向于使用Clickhouse。

同時(shí)Clickhouse也存在一些缺陷,例如:缺乏事務(wù)機(jī)制,沒(méi)有高效的切換、刪除、插入數(shù)據(jù)的能力、低延遲和稀疏索引。

3.Apache Flink

https://github.com/apache/flink

ApacheFlink是一個(gè)有狀態(tài)的計(jì)算框架。它可以作為兩類數(shù)據(jù)流的分布式處理引擎:無(wú)界數(shù)據(jù)流和有界數(shù)據(jù)流。Flink可以在所有典型的集群環(huán)境中運(yùn)行,并在任何規(guī)模的內(nèi)存中進(jìn)行速度計(jì)算,支持流和批處理,具備全面的狀態(tài)管理,擁有事件時(shí)(event-time)處理語(yǔ)義和狀態(tài)的一致性保證等功能。

Flink具有動(dòng)態(tài)消息、狀態(tài)一致性、多語(yǔ)言支持、云原生、無(wú)數(shù)據(jù)庫(kù)要求和“無(wú)狀態(tài)”操作等優(yōu)勢(shì)。

Flink的常見(jiàn)缺點(diǎn)包括:社區(qū)和論壇較少、缺乏出色的API支持,以及難以對(duì)數(shù)據(jù)可視化進(jìn)行編程等。

4.Nvidia RAPIDS

https://github.com/rapidsai

RAPIDS項(xiàng)目主要用于在GPU上運(yùn)行端到端的數(shù)據(jù)科學(xué)和分析管道?;贑UDA-X AI構(gòu)建,它使用NVIDIA CUDA原生語(yǔ)言進(jìn)行基本算法優(yōu)化,提供友好的Python用戶界面展示GPU并行性能和高帶寬內(nèi)存的速度。除了分析和數(shù)據(jù)科學(xué)之外,RAPIDS還可用于日常數(shù)據(jù)預(yù)處理任務(wù)。通過(guò)提供DataFrame API,與各種機(jī)器學(xué)習(xí)算法連接,以加速端到端管道,而不會(huì)產(chǎn)生通常的序列化開(kāi)銷(xiāo)。RAPIDS還支持多個(gè)節(jié)點(diǎn)、多GPU部署,從而在更大的數(shù)據(jù)集上實(shí)現(xiàn)更快的處理和訓(xùn)練。另外,RAPIDS還具備輕松集成、頂級(jí)模型準(zhǔn)確性、支持開(kāi)源和減少學(xué)習(xí)成本等優(yōu)勢(shì)。

5.TDengine

https://github.com/taosdata/TDengine

TDengine是一個(gè)用于物聯(lián)網(wǎng)、聯(lián)網(wǎng)汽車(chē)和工業(yè)物聯(lián)網(wǎng)的開(kāi)源大數(shù)據(jù)平臺(tái)。它的應(yīng)用場(chǎng)景可以包括:機(jī)器人、電梯、 石油/天然氣開(kāi)采、智能家居、汽車(chē)互聯(lián)網(wǎng)、電網(wǎng)、互聯(lián)網(wǎng)接入記錄、電話、金融交易以及水、空氣之類的環(huán)境監(jiān)測(cè)等。它集成了緩存、流計(jì)算、消息隊(duì)列等功能,以降低開(kāi)發(fā)的復(fù)雜性和成本,此外還附帶了時(shí)間序列數(shù)據(jù)庫(kù)。低云服務(wù)成本、全棧時(shí)序數(shù)據(jù)、強(qiáng)大的數(shù)據(jù)分析、與其他工具的無(wú)縫集成、零管理、無(wú)學(xué)習(xí)曲線是TDengine的突出亮點(diǎn)。

6.Apache Spark

https://github.com/apache/spark

Apache Spark是一個(gè)開(kāi)源的分布式計(jì)算框架。它帶有集群的編程接口,包括SQL、機(jī)器學(xué)習(xí)、實(shí)時(shí)數(shù)據(jù)流、圖形處理等功能,這使其擁有快速大數(shù)據(jù)處理能力。Apache Spark的核心是Spark Core,它建立在RDD抽象之上。

Spark SQL使用DataFrames來(lái)容納結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。Spark可以在集群模式或Hadoop YARN,EC2,Mesos,Kubernetes等環(huán)境上運(yùn)行,因此可以說(shuō)非常通用。

可以通過(guò)非關(guān)系型數(shù)據(jù)庫(kù)訪問(wèn)數(shù)據(jù),例如:Apache Cassandra、Apache HBase、Apache Hive或者Hadoop分布式文件系統(tǒng)等。

Apache Spark還可以根據(jù)歷史或?qū)崟r(shí)數(shù)據(jù)來(lái)執(zhí)行實(shí)時(shí)判斷,因此非常適合預(yù)測(cè)分析,欺詐檢測(cè),情感分析等應(yīng)用程序。

7.Presto

https://github.com/prestodb/presto

Presto是一個(gè)開(kāi)源的分布式SQL查詢引擎。它使用戶能夠?qū)腉B到PB的各種大小的數(shù)據(jù)源運(yùn)行交互式分析查詢。為交互式分析而構(gòu)建是它的設(shè)計(jì)初衷,使得它可以擴(kuò)展到類似Facebook的規(guī)模,同時(shí)又能夠保證具備接近商業(yè)數(shù)據(jù)倉(cāng)庫(kù)的速度。Presto允許查詢的數(shù)據(jù)庫(kù)包括:Hive、Cassandra、關(guān)系數(shù)據(jù)庫(kù)甚至定制數(shù)據(jù)存儲(chǔ)等。Presto可以在一個(gè)查詢中聚合來(lái)自多個(gè)數(shù)據(jù)源,支持對(duì)整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行分析。

但Presto在使用時(shí)也存在一些缺點(diǎn),例如:它不支持大的實(shí)體連接、缺乏UDF(用戶定義的函數(shù))支持等。

8.Apache Zeppelin

https://github.com/apache/zeppelin

Apache Zeppelin是一款多用途筆記本,支持?jǐn)?shù)據(jù)提取、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)可視化和數(shù)據(jù)協(xié)作??梢宰鳛锳pache Spark的前端Web產(chǎn)品,允許無(wú)縫與Spark應(yīng)用程序?qū)?。Zeppelin 解釋器允許任何數(shù)據(jù)處理后端對(duì)接到Zeppelin,支持Spark、Markdown、Python、Shell和JDBC等。它提供了單用戶和多用戶兩種部署類型。Zeppelin的最新創(chuàng)新包括:Zeppelin SDK,改進(jìn)的Spark Interpreter,F(xiàn)link Interpreter,Yarn Interpreter Mode,Inline Configuration,Interpreter Lifecycle Management。

Zeppelin也存在一些缺點(diǎn),例如:UI BUG、缺乏對(duì)個(gè)別庫(kù)的支持、有限的可視化配置等。

9.CMAK

https://github.com/yahoo/CMAK

CMAK是Cluster Manager for Apache Kafka的縮寫(xiě),以前稱為Kafka Manager,是Apache Kafka集群的管理工具。該項(xiàng)目目前由Verizon Media和社區(qū)共同管理。CMAK的主要功能包括:多集群管理、集群狀態(tài)檢查、運(yùn)行首選副本選舉、生成具有選擇代理的選項(xiàng)的分區(qū)分配、運(yùn)行分區(qū)重新分配(基于生成的分配)、刪除主題、批量生成分區(qū)分配、批量運(yùn)行多個(gè)主題的分區(qū)重新分配、添加分區(qū)或更新現(xiàn)有主題的配置等等。

CMAK最顯著的優(yōu)點(diǎn)是它的分區(qū)重新分配功能,但它在Ops任務(wù)的限制方面相對(duì)就是個(gè)缺點(diǎn)。

10.Cython

https://github.com/cython/cython

Cython是Python編程語(yǔ)言的靜態(tài)優(yōu)化器。使得為Python構(gòu)建C擴(kuò)展與編寫(xiě)Python本身一樣簡(jiǎn)單。Cython結(jié)合了Python和C的強(qiáng)大功能,支持編寫(xiě)隨時(shí)在原生C和C++代碼之間來(lái)回切換的Python代碼。

通過(guò)在Python語(yǔ)法中引入靜態(tài)類型聲明,可以快速將可理解的Python代碼優(yōu)化為純C語(yǔ)言以提高性能。使用集成的源代碼級(jí)調(diào)試,可以識(shí)別Python、Cython和C代碼中存在的問(wèn)題。開(kāi)發(fā)人員可以在廣泛且成熟的CPython生態(tài)系統(tǒng)中快速構(gòu)建應(yīng)用程序。

Cython編程語(yǔ)言也可以稱為Python的超集,它允許在python上運(yùn)行C函數(shù)并在變量和類屬性上聲明C類型,使編譯器能夠通過(guò)Cython代碼構(gòu)建C代碼。

Cython的主要缺點(diǎn)包括:Cython代碼不能獨(dú)立重用。除此之外,通過(guò)Cython編譯輸出的C語(yǔ)言在大多數(shù)情況下都無(wú)法達(dá)到手動(dòng)調(diào)優(yōu)的C語(yǔ)言的速度。

11.CatBoost

https://github.com/catboost/catboost

CatBoost是一種機(jī)器學(xué)習(xí)決策樹(shù)梯度算法。是一個(gè)開(kāi)源庫(kù)。它由Yandex的研究人員和工程師開(kāi)發(fā),并被Yandex和其他組織(如CERN,Cloudflare和Careem出租車(chē))用于搜索引擎、推薦系統(tǒng)、個(gè)人助理、自動(dòng)駕駛汽車(chē)、天氣預(yù)測(cè)等應(yīng)用場(chǎng)景。

CatBoost的功能包括:支持無(wú)需參數(shù)調(diào)整的高質(zhì)量模型訓(xùn)練,支持分類、實(shí)現(xiàn)有序增強(qiáng)、支持GPU版本、支持缺失值、出色的可視化、高度準(zhǔn)確性和快速預(yù)測(cè)能力。

CatBoost是解決異構(gòu)數(shù)據(jù)問(wèn)題的優(yōu)秀解決方案,但對(duì)于處理同構(gòu)數(shù)據(jù)的情況,它可能不是最好的學(xué)習(xí)器。預(yù)處理、預(yù)測(cè)時(shí)間和模型分析是Catboost的強(qiáng)項(xiàng),而訓(xùn)練和優(yōu)化時(shí)間則是其弱點(diǎn)。

12.Apache CouchDB

https://github.com/apache/couchdb

Apache CouchDB數(shù)據(jù)庫(kù)于2005年由Apache Software Foundation發(fā)布。CouchDB使用Erlang開(kāi)發(fā)。支持將數(shù)據(jù)存儲(chǔ)在JSON中,使用MapReduce在JavaScript中執(zhí)行查詢,并通過(guò)HTTP提供API。因此,CouchDB非常適合當(dāng)前的移動(dòng)的應(yīng)用程序。使用CouchDB的增量復(fù)制,可以高效地傳輸數(shù)據(jù),CouchDB允許主——主配置與自動(dòng)沖突檢測(cè)。CouchDB的動(dòng)態(tài)文檔轉(zhuǎn)換和實(shí)時(shí)更改通知等功能可以使Web開(kāi)發(fā)更加簡(jiǎn)單。

CouchDB的主要缺點(diǎn)包括:資源消耗較大、動(dòng)態(tài)查詢耗時(shí)、大型數(shù)據(jù)集臨時(shí)視圖長(zhǎng)耗時(shí)、缺乏事務(wù)支持、大型數(shù)據(jù)庫(kù)復(fù)制的偶爾會(huì)失敗。

13.Apache Airflow

 https://github.com/apache/airflow

Apache Airflow是一個(gè)編程的框架,用于自動(dòng)編寫(xiě)、調(diào)度和監(jiān)控Beam數(shù)據(jù)管道。Beam數(shù)據(jù)管道是動(dòng)態(tài)的,因?yàn)樗鼈兪峭ㄟ^(guò)編程構(gòu)建的,所以我們可以使用Airflow的可視化圖形或有向無(wú)環(huán)圖(DAG)創(chuàng)建工作流任務(wù)。Airflow還提供了一個(gè)用戶界面,可以輕松地實(shí)現(xiàn)生產(chǎn)中管道的可視化,便于調(diào)試問(wèn)題,跟蹤管道進(jìn)度。它另一個(gè)優(yōu)勢(shì)是它的可擴(kuò)展性,支持構(gòu)建自己的操作符,并將庫(kù)擴(kuò)展到您的環(huán)境所需的抽象級(jí)別。

但是Airflow沒(méi)有數(shù)據(jù)管道的版本控制,對(duì)新用戶來(lái)說(shuō)不太直觀,開(kāi)始很容易就配置過(guò)載,難以在本地使用。

14.Trino

 https://github.com/trinodb/trino

Trino是一個(gè)分布式SQL查詢引擎。支持從異構(gòu)數(shù)據(jù)源查詢大型數(shù)據(jù)集。Trino旨在解決數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理(OLAP)問(wèn)題,包括:數(shù)據(jù)分析、聚合和報(bào)告生成等??梢杂行У夭樵兎治龃罅繑?shù)據(jù)。在Hadoop和HDFS運(yùn)行環(huán)境下,Trino可以作為MapReduce功能查詢HDFS,有點(diǎn)像Hive或Pig。Trino并不限于支持對(duì)HDFS的訪問(wèn),也支持其他數(shù)據(jù)源,包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和Cassandra等。

特里諾的一個(gè)重大缺陷是,如果查詢所占用的內(nèi)存超過(guò)集群可用的內(nèi)存,查詢將失敗。不過(guò),得益于其容錯(cuò)能力,查詢引擎將重試查詢而不是直接報(bào)告失敗。

15.Delta Lake

 https://github.com/delta-io/delta

Delta Lake 開(kāi)源項(xiàng)目主要用于數(shù)據(jù)湖的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)。Delta Lake可以在現(xiàn)有的數(shù)據(jù)湖(如S3,ADLS,GCS和HDFS)之上,運(yùn)行ACID事務(wù)、擴(kuò)展的元數(shù)據(jù)處理,并且可以統(tǒng)一流和批處理數(shù)據(jù)。Delta Lake的主要功能包括ACID事務(wù)、可擴(kuò)展的元數(shù)據(jù)處理、數(shù)據(jù)版本控制、開(kāi)放的格式、統(tǒng)一的批處理、數(shù)據(jù)源和接收器流程化、強(qiáng)制執(zhí)行模式、演進(jìn)模式、歷史審計(jì)、更新和刪除、與Apache Spark API的100%兼容性和delta Sharing。

目前已經(jīng)有許多公司在使用Delta Lake處理EB數(shù)據(jù),例如:Databricks、維亞康姆、阿里巴巴集團(tuán)、McAfee、Upwork、eBay、Informatica等等。

16.Apache Cassandra

https://github.com/apache/cassandra

Apache Cassandra是一個(gè)高可擴(kuò)展性的數(shù)據(jù)庫(kù),可以在商業(yè)基礎(chǔ)設(shè)施上運(yùn)行,并且具有較高容錯(cuò)性,可以在多個(gè)節(jié)點(diǎn)上自動(dòng)復(fù)制數(shù)據(jù),支持在不關(guān)閉系統(tǒng)的情況下替換損壞的節(jié)點(diǎn)。Cassandra是一個(gè)NoSQL數(shù)據(jù)庫(kù),其中所有節(jié)點(diǎn)都是對(duì)等節(jié)點(diǎn),而不是主從架構(gòu)。這使得它具有高度的可擴(kuò)展性和容錯(cuò)性,并且允許您添加更多的新機(jī)器而不中斷現(xiàn)有應(yīng)用程序。可以選擇同步復(fù)制和異步復(fù)制以完成每次更新。目前像蘋(píng)果、Netflix、Instagram、Spotify和Uber這些大公司都在使用Cassandra。

但Cassandra不支持ACID屬性,不支持聚合、延遲、連接、數(shù)據(jù)復(fù)制、緩慢讀取、VM內(nèi)存管理,這些都是Apache Cassandra的缺點(diǎn)。

17.Vespa

https://github.com/vespa-engine/vespa

Vespa是一個(gè)用于海量數(shù)據(jù)集的低延遲計(jì)算引擎。它通過(guò)索引支持在服務(wù)時(shí)可以對(duì)其進(jìn)行查詢、選擇和處理。通過(guò)Vespa內(nèi)的應(yīng)用組件,使應(yīng)用程序開(kāi)發(fā)人員能夠構(gòu)建后端以及中間件系統(tǒng),這些系統(tǒng)可擴(kuò)展以快速并可靠地處理大量數(shù)據(jù)。Vespa實(shí)例由幾個(gè)無(wú)狀態(tài)Java容器集群和一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)集群組成。Vespa在文本搜索、推薦、個(gè)性化、問(wèn)答、半結(jié)構(gòu)化導(dǎo)航等許多應(yīng)用場(chǎng)合中被廣泛應(yīng)用。

18.Apache Calcite

https://github.com/apache/calcite

Apache Calcite是一個(gè)用于管理動(dòng)態(tài)數(shù)據(jù)的全棧工具。它是一個(gè)開(kāi)源的數(shù)據(jù)庫(kù)和數(shù)據(jù)管理框架。它附帶了一個(gè)SQL解析器、一個(gè)用于創(chuàng)建關(guān)系代數(shù)表達(dá)式的API和一個(gè)查詢計(jì)劃引擎。

盡管它包含許多標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)管理系統(tǒng)的組件,但還是缺幾個(gè)關(guān)鍵特性,如:數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理方法和元數(shù)據(jù)存儲(chǔ)庫(kù)。Calcite的優(yōu)點(diǎn)包括:查詢解析器、驗(yàn)證器、優(yōu)化器、用于閱讀JSON格式模型的輔助工具、眾多標(biāo)準(zhǔn)函數(shù)、聚合函數(shù)、Linq 4j的JDBC查詢、JDBC后端、Linq 4j前端和SQL特性等。

19.DataHub

https://github.com/linkedin/datahub

DataHub是第三代現(xiàn)代數(shù)據(jù)棧的開(kāi)源元數(shù)據(jù)平臺(tái),這個(gè)可擴(kuò)展的元數(shù)據(jù)平臺(tái)旨在幫助開(kāi)發(fā)人員駕馭其快速發(fā)展的數(shù)據(jù)生態(tài)系統(tǒng)的復(fù)雜性,并幫助數(shù)據(jù)從業(yè)者在其組織內(nèi)利用數(shù)據(jù)的最大價(jià)值。 它每天可以處理超過(guò)1000萬(wàn)個(gè)實(shí)體關(guān)系更改事件,并索引總計(jì)超過(guò)500萬(wàn)個(gè)實(shí)體和關(guān)系。與毫秒級(jí)SLA服務(wù)運(yùn)營(yíng)元數(shù)據(jù)查詢一起完成,從而實(shí)現(xiàn)元數(shù)據(jù)管理具備高效率、合規(guī)性和流程化的特點(diǎn)。DataHub是一個(gè)現(xiàn)代化的數(shù)據(jù)平臺(tái),支持端到端的數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)可觀察性和數(shù)據(jù)治理。

LinkedIn目前使用了DataHub來(lái)部署數(shù)據(jù)集、模式、流、合規(guī)性注釋、GraphQL端點(diǎn)、指標(biāo)、儀表板、功能和AI模型。使DataHub在實(shí)戰(zhàn)方面經(jīng)得起考驗(yàn)。

20.Koalas

https://github.com/databricks/koalas

Koalas項(xiàng)目在Apache Spark的基礎(chǔ)上實(shí)現(xiàn)了pandas DataFrame API功能,使數(shù)據(jù)科學(xué)家在處理海量數(shù)據(jù)時(shí)更有效率。Spark是大數(shù)據(jù)處理的事實(shí)標(biāo)準(zhǔn),而pandas是Python中事實(shí)標(biāo)準(zhǔn)(單節(jié)點(diǎn))DataFrame實(shí)現(xiàn)。如果你已經(jīng)熟悉了pandas,你可以立即使用Spark與Koalas,沒(méi)有多少學(xué)習(xí)曲線。使用Koalas可以讓用戶直接與pandas一起測(cè)試較小的數(shù)據(jù)集,也可以與Spark一起測(cè)試較大的分布式數(shù)據(jù)集。

由于開(kāi)源社區(qū)在幾個(gè)頻繁的版本中不斷貢獻(xiàn),Koalas中pandas API的覆蓋率迅速增加,并且增加了spark訪問(wèn)器、提升了類型提示支持、更廣泛的繪圖支持、更全面的就地更新支持、更好的缺失值支持等。

責(zé)任編輯:趙寧寧 來(lái)源: andflow
相關(guān)推薦

2016-01-26 10:02:18

GitHub大數(shù)據(jù)開(kāi)源

2023-05-16 08:47:39

2023-06-01 08:15:55

2023-10-31 07:42:11

2016-12-13 19:40:00

大數(shù)據(jù)

2017-04-05 15:32:42

大數(shù)據(jù)項(xiàng)目問(wèn)題

2017-12-11 11:48:56

大數(shù)據(jù)項(xiàng)目數(shù)據(jù)集成

2014-08-15 09:09:32

大數(shù)據(jù)

2016-03-21 18:56:54

物聯(lián)網(wǎng)IoTIT基礎(chǔ)架構(gòu)

2014-12-10 10:51:54

OpenStackSahara云計(jì)算

2013-04-22 10:00:53

云計(jì)算大數(shù)據(jù)

2015-06-16 11:09:44

IBM大數(shù)據(jù)開(kāi)源

2018-04-15 21:39:04

大數(shù)據(jù)項(xiàng)目應(yīng)用

2019-05-23 09:50:46

大數(shù)據(jù)IT人工智能

2016-10-20 13:15:09

大數(shù)據(jù)項(xiàng)目創(chuàng)新

2022-06-30 21:08:25

大數(shù)據(jù)數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)

2023-05-10 16:04:38

大數(shù)據(jù)架構(gòu)

2016-10-24 12:47:09

大數(shù)據(jù)大數(shù)據(jù)項(xiàng)目

2020-12-09 10:28:10

Github開(kāi)源編程代碼

2022-06-13 09:00:33

React 項(xiàng)目前端
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)