自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="koz64"><track id="koz64"></track></legend><legend id="koz64"><track id="koz64"></track></legend>

<cite id="koz64"></cite>

<big id="koz64"><i id="koz64"><optgroup id="koz64"></optgroup></i></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

非常實用的Python庫，推一次火一次

作者：佚名 2020-10-24 13:50:59

開發(fā) 后端

在本文中，我們會研究一些用于數(shù)據(jù)科學任務的 Python 庫。盡管像 panda 和 scikit-learn 這樣的庫，是在機器學習任務中經(jīng)常出現(xiàn)的，但是了解這個領域中的其它 Python 產(chǎn)品總是很有好處的。

Python 是一個很棒的語言。它是世界上發(fā)展最快的編程語言之一。它一次又一次地證明了在開發(fā)人員職位中和跨行業(yè)的數(shù)據(jù)科學職位中的實用性。整個 Python 及其庫的生態(tài)系統(tǒng)使它成為全世界用戶（初學者和高級用戶）的合適選擇。它的成功和流行的原因之一是它強大的第三方庫的集合，這些庫使它可以保持活力和高效。

在本文中，我們會研究一些用于數(shù)據(jù)科學任務的 Python 庫，而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫。盡管像 panda 和 scikit-learn 這樣的庫，是在機器學習任務中經(jīng)常出現(xiàn)的，但是了解這個領域中的其它 Python 產(chǎn)品總是很有好處的。

Wget

從網(wǎng)絡上提取數(shù)據(jù)是數(shù)據(jù)科學家的重要任務之一。Wget 是一個免費的實用程序，可以用于從網(wǎng)絡上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協(xié)議，以及通過 HTTP 的代理進行文件檢索。由于它是非交互式的，即使用戶沒有登錄，它也可以在后臺工作。所以下次當你想要下載一個網(wǎng)站或者一個頁面上的所有圖片時，wget 可以幫助你。安裝：

$ pip install wget

例子：

import wget  
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'  
filename = wget.download(url)  
100% [................................................] 3841532 / 3841532  
filename  
'razorback.mp3'  
### Pendulum

對于那些在 python 中處理日期時間時會感到沮喪的人來說，Pendulum 很適合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深入學習。

安裝：

$ pip install pendulum

例子：

import pendulum  
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')  
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')  
print(dt_vancouver.diff(dt_toronto).in_hours())  
3

imbalanced-learn

可以看出，當每個類的樣本數(shù)量基本相同時，大多數(shù)分類算法的效果是最好的，即需要保持數(shù)據(jù)平衡。但現(xiàn)實案例中大多是不平衡的數(shù)據(jù)集，這些數(shù)據(jù)集對機器學習算法的學習階段和后續(xù)預測都有很大影響。幸運的是，這個庫就是用來解決此問題的。它與 scikit-learn 兼容，是 scikit-lear-contrib 項目的一部分。下次當你遇到不平衡的數(shù)據(jù)集時，請嘗試使用它。

安裝：

pip install -U imbalanced-learn  
# 或者  
conda install -c conda-forge imbalanced-learn

例子：

使用方法和例子請參考文檔。

FlashText

在 NLP 任務中，清理文本數(shù)據(jù)往往需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字。通常，這種操作可以使用正則表達式來完成，但是如果要搜索的術(shù)語數(shù)量達到數(shù)千個，這就會變得很麻煩。Python 的 FlashText 模塊是基于 FlashText 算法為這種情況提供了一個合適的替代方案。FlashText 最棒的一點是，不管搜索詞的數(shù)量如何，運行時間都是相同的。你可以在這里了解更多內(nèi)容。

安裝：

$ pip install flashtext

例子：

提取關(guān)鍵字

from flashtext import KeywordProcessor  
keyword_processor = KeywordProcessor()  
# keyword_processor.add_keyword(<unclean name>, <standardised name>)  
keyword_processor.add_keyword('Big Apple', 'New York')  
keyword_processor.add_keyword('Bay Area')  
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')  
keywords_found  
['New York', 'Bay Area']

替換關(guān)鍵字

keyword_processor.add_keyword('New Delhi', 'NCR region')  
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')  
new_sentence  
'I love New York and NCR region.'  
Fuzzywuzzy

這個庫的名字聽起來很奇怪，但是在字符串匹配方面，fuzzywuzzy 是一個非常有用的庫。可以很方便地實現(xiàn)計算字符串匹配度、令牌匹配度等操作，也可以很方便地匹配保存在不同數(shù)據(jù)庫中的記錄。

安裝：

$ pip install fuzzywuzzy

例子：

from fuzzywuzzy import fuzz  
from fuzzywuzzy import process  
# 簡單匹配度  
fuzz.ratio("this is a test", "this is a test!")  
97  
# 模糊匹配度  
fuzz.partial_ratio("this is a test", "this is a test!")  
 100

更多有趣例子可以在 GitHub 倉庫找到。

PyFlux

時間序列分析是機器學習領域中最常見的問題之一。PyFlux 是 Python 中的一個開源庫，它是為處理時間序列問題而構(gòu)建的。該庫擁有一系列優(yōu)秀的現(xiàn)代時間序列模型，包括但不限于 ARIMA、GARCH 和 VAR 模型。簡而言之，PyFlux 為時間序列建模提供了一種概率方法。值得嘗試一下。

安裝

pip install pyflux

例子

詳細用法和例子請參考官方文檔。

Ipyvolume

結(jié)果展示也是數(shù)據(jù)科學中的一個重要方面。能夠?qū)⒔Y(jié)果進行可視化將具有很大優(yōu)勢。IPyvolume 是一個可以在 Jupyter notebook 中可視化三維體和圖形（例如三維散點圖等）的 Python 庫，并且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當?shù)谋扔鱽斫忉尵褪牵篒Pyvolume 的 volshow 對于三維數(shù)組就像 matplotlib 的 imshow 對于二維數(shù)組一樣好用。可以在這里獲取更多。

使用 pip

$ pip install ipyvolume

使用 Conda/Anaconda

$ conda install -c conda-forge ipyvolume

例子

動畫

體繪制

Dash

Dash 是一個高效的用于構(gòu)建 web 應用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的，綁定了很多比如下拉框、滑動條和圖表的現(xiàn)代 UI 元素，你可以直接使用 Python 代碼來寫相關(guān)分析，而無需再使用 javascript。Dash 非常適合構(gòu)建數(shù)據(jù)可視化應用程序。然后，這些應用程序可以在 web 瀏覽器中呈現(xiàn)。用戶指南可以在這里獲取。

安裝

pip install dash==0.29.0  # 核心 dash 后端  
pip install dash-html-components==0.13.2  # HTML 組件  
pip install dash-core-components==0.36.0  # 增強組件  
pip install dash-table==3.1.3  # 交互式 DataTable 組件（最新?。?nbsp;

例子下面的例子展示了一個具有下拉功能的高度交互式圖表。當用戶在下拉菜單中選擇一個值時，應用程序代碼將動態(tài)地將數(shù)據(jù)從 Google Finance 導出到 panda DataFrame。

Gym

OpenAI 的 Gym 是一款用于增強學習算法的開發(fā)和比較工具包。它兼容任何數(shù)值計算庫，如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具，這個集合也稱為環(huán)境 —— 你可以用它來開發(fā)你的強化學習算法。這些環(huán)境有一個共享接口，允許你進行通用算法的編寫。

安裝

pip install gym

例子這個例子會運行CartPole-v0環(huán)境中的一個實例，它的時間步數(shù)為 1000，每一步都會渲染整個場景。

總結(jié)

以上這些有用的數(shù)據(jù)科學 Python 庫都是我精心挑選出來的，不是常見的如 numpy 和 pandas 等庫。如果你知道其它庫，可以添加到列表中來，請在下面的評論中提一下。另外別忘了先嘗試運行一下它們。

責任編輯：龐桂玉來源：戀習Python

Python 庫編程語言

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<xmp id="ndekj"></xmp>