自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

八個 Python 數據生態(tài)圈的前沿項目

大數據
Galvanize 最近在舊金山參加了 Dato 數據科學峰會,這次會議聚集了千余名來自業(yè)界和學術界的數據科學研究人員,他們交流并探討關于數據科學、機器學習應用和預測模型的最新進展。

Python

Galvanize 最近在舊金山參加了 Dato 數據科學峰會,這次會議聚集了千余名來自業(yè)界和學術界的數據科學研究人員,他們交流并探討關于數據科學、機器學習應用和預測模型的最新進展。

以下是我導師認為數據科學家將在未來數月乃至數年里使用的八個 Python 工具。

1. SFrame and SGraph

Dato 數據科學峰會中重磅消息之一是 Dato 將在 BSD 協(xié)議下開源SFrame 和 SGraph。SFrame (short for Scaleable Data Frame) 提供可以優(yōu)化內存效率的柱狀數據結構和數據框式的界面。SGraph 具有相同的特性但是它主要用于提高畫圖效率。這兩種數據結構最大的優(yōu)點之一在于它們使得數據科學家可以做基于外存的數據分析,而不需要把數據導入內存中。

這一消息傳達出 Dato 公司支持 Python 數據生態(tài)圈發(fā)展的誠意,這是 Dato 和 Python 數據社區(qū)發(fā)展的一個轉折點。自從 Dato 公司推出企業(yè)版軟件后,數據社區(qū)用戶通常都有類似的誤解,他們認為 Dato 公司會利用免費版本綁定用戶,用戶最終還是得付費。通過將程序庫轉化為開源工具,我們看出這種小把戲并不是 Dato 公司的目標。如今這兩個程序庫已經變成開源工具,我們希望看到其他開發(fā)者(Pandas, 說的就是你)能夠充分利用 SFrame 和 SGraph 從而解決內存限制的問題。

2. Bokeh

Bokeh 是一個不需要服務器就可以在網頁瀏覽器中實現(xiàn)交互式可視化的 Python 程序庫。Bokeh 可以處理非常大的數據集甚至是大數據流(比如實時光譜圖),同時它還具有運算速度快、可嵌入和可視化新穎的特點。它對于想要快速便捷地創(chuàng)建交互式圖表和數據應用的人來說非常有用。

Bokeh 真正表現(xiàn)出色的地方是大數據的可視化過程。與這些數據打交道的人應該感謝 Bokeh 致力于提升自身的性能。目前大多數的交互式工具都需要利用 Javascript 來實現(xiàn),但是 Bokeh 僅利用 Python 一種語言即可實現(xiàn)。

3. Dask

Dask是一款基于外存的Python 調度工具。它通過將數據集分塊處理并根據所擁有的核數分配計算量,這有助于進行大數據并行計算。Dask 是利用 Python 語言編寫的,同時也利用一些開源程序庫,它主要針對單機的并行計算進程。

Dask主要有兩種用法。普通用戶將主要利用 Dask 提供的集合類型,它的用法類似于 NumPy 和 Pandas 這樣的常規(guī)程序庫,但它內部包含了畫圖功能。另一方面, Dask 開發(fā)者可以直接制作圖表。Dask 圖表利用 Python 字典、元組和函數來編碼算法,而且它不依賴于 Dask 所提供的集合類型。

目前 Python 生態(tài)圈中的許多程序庫功能相近。但是Blaze, Dask 和 Numba 這些程序庫共同作用于數據處理過程的不同層面上。類似的,你可以把 Blaze 看成關系型數據庫管理系統(tǒng)的查詢優(yōu)化器,而把 Dask 看成執(zhí)行查詢的引擎。關于這一點,Blaze 優(yōu)化了查詢或者控制命令的符號表達式,而 Dask可以根據你的硬件情況來優(yōu)化執(zhí)行過程。

4. Ibis

如果你是一個數據科學家,可能你每天都會使用 Python 。雖然 Python 在很多方面都很優(yōu)秀,但是它也存在自身的局限。其中最大的一個問題在于 Python 不能很好地適應數據集大小的變化。它對于小數據集很有效,但是對于更大的數據而言,則需要利用抽樣的方法來解決數據集的規(guī)模問題,這會影響到最終的研究結果。

Ibis 是 Cloudera 實驗室的新項目,它試圖為具有 Python 工作經驗的數據科學家和工程師們提供一個適用于任何數據規(guī)模的數據分析框架。這反映出單機版的 Python 在功能和可用性上并沒有妥協(xié),可以在處理大數據時提供相同的交互體驗和全保真度分析。

Ibis 允許使用 100% 的端到端用戶工作流,也整合了現(xiàn)有的 Python 數據生態(tài)圈(Pandas, Scikit-learn, NumPy 等)。Ibis 目前還是預覽版,未來它將加入更多的功能,比如整合高級分析工具、機器學習方法和其他高性能的計算工具。

5. Splash

抓取網頁數據時經常碰到一個問題,許多網站使用大量的 JavaScript 代碼。網頁抓取工具很難執(zhí)行 JavaScript 代碼,所以你往往只能得到原始 HTML 數據。由 Scrapy 鼻祖 ScrapingHub 所創(chuàng)建的 Splash 是一種 JavaScript 渲染服務,它通過 Python 的 Twisted 和 QT 來實現(xiàn)。這是一個帶有能夠并行處理多個網頁的輕量級網頁瀏覽器,它可以執(zhí)行自定義 JavaScript 代碼并利用關閉圖片或廣告屏蔽的功能來提升渲染速度。

6. Petuum

Petuum 是一個分布式機器學習框架,它試圖為大規(guī)模機器學習問題提供一個通用算法和系統(tǒng)接口。它提供了解決大規(guī)模機器學習數據集和參數太大問題的分布式編程工具。Petuum 專門為機器學習設計,這意味著它可以利用數據的各種統(tǒng)計性質來優(yōu)化性能。

Petuum 具有多項核心功能:Bösen 是一個為數據并行機器學習算法設計的關鍵值存儲倉庫。它利用 SSP (Stale Synchronous Parallel )一致性模型,該模型允許在不犧牲算法正確性的情況下使用異步功能。另外一個功能是 Strads,它是一個為模型并行機器學習算法而設計的調度工具。它執(zhí)行了關于機器學習更新操作的小粒度調度,而且優(yōu)先計算的部分程序需要避免可能損害性能的不安全并行操作。

7. Flink

Apache Flink 是可擴展的批處理和流處理的數據處理平臺。Flink 的核心組件是一個提供數據分布、通信和容錯功能的流數據處理引擎。它和 Apache Spark 非常相似,因為它們的主要目的之一就是替代 Hadoop 的 MapReduce 功能。

雖然 Spark 和 Flink 的 API 非常相似,但是兩者處理數據的方式存在不同之處。當 Spark 處理流式數據時,它實際上利用單位時間內的數據片集合進行小批量處理。這可以視為流處理的近似過程。通常情況下它表現(xiàn)良好,但是在對延遲要求較高的情況下會引發(fā)一些問題。另一方面,F(xiàn)link 是一個可以實現(xiàn)批量處理的流處理框架。換句話說,除了做簡單的工作(批量處理)和對較難的工作(流程處理)以外,F(xiàn)link 既可以解決較難的工作,也可以處理簡單的任務。

8. Pyxley

基于網頁的儀表板(dashboards)是分享數據科學發(fā)現(xiàn)的最直觀方法之一。 Shiny 包給使用 R 語言的數據科學家提供了一個不必通過編寫Javascript, HTML 和 CSS就可以構建交互式網頁應用程序的框架,但是在 Python 中卻沒有類似的功能。 Pyxley 就相當于 Python 版的 shiny ,它簡化了網頁應用程序開發(fā)的過程并可以通過 Flask, PyReact 和 Pandas來加入自定義的 Javascript 代碼。

責任編輯:李英杰 來源: 36大數據
相關推薦

2016-07-14 15:57:06

華為

2012-06-15 10:03:57

2016-11-01 14:30:09

大數據大數據技術

2018-11-13 15:05:33

大數據MapReduce機器

2021-06-29 10:03:45

數據科學機器學習算法

2019-01-15 08:58:40

Kubernetes生態(tài)圈Docker

2013-07-22 17:41:58

2019-11-28 08:23:14

容器Kubernetes編排

2018-10-11 20:38:27

大數據生態(tài)圈分布式

2023-04-04 13:31:18

2015-03-04 11:19:59

2017-03-15 18:43:46

華為

2022-12-08 00:09:20

CSS生態(tài)圈技術趨勢

2017-11-27 12:39:05

科天云協(xié)作云

2016-01-07 13:19:21

大數據分析生態(tài)圈

2016-06-29 10:22:02

Testin測試生態(tài)圈

2013-09-04 16:55:19

ICT生態(tài)圈華為

2016-02-27 14:35:23

華為ICT產業(yè)

2016-12-13 19:40:00

大數據
點贊
收藏

51CTO技術棧公眾號