自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

少有人知的Python數(shù)據(jù)科學(xué)庫(kù)

新聞 后端
Python是門(mén)很神奇的語(yǔ)言,歷經(jīng)時(shí)間和實(shí)踐檢驗(yàn),受到開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家一致好評(píng),目前已經(jīng)是全世界發(fā)展最好的編程語(yǔ)言之一。

[[259841]]

 Python是門(mén)很神奇的語(yǔ)言,歷經(jīng)時(shí)間和實(shí)踐檢驗(yàn),受到開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家一致好評(píng),目前已經(jīng)是全世界發(fā)展***的編程語(yǔ)言之一。簡(jiǎn)單易用,完整而龐大的第三方庫(kù)生態(tài)圈,使得Python成為編程小白和高級(jí)工程師的***。

在本文中,我們會(huì)分享不同于市面上的python數(shù)據(jù)科學(xué)庫(kù)(如numpy、padnas、scikit-learn、matplotlib等),盡管這些庫(kù)很棒,但是其他還有一些不為人知,但同樣優(yōu)秀的庫(kù)需要我們?nèi)ヌ剿魅W(xué)習(xí)。

1. Wget

從網(wǎng)絡(luò)上獲取數(shù)據(jù)被認(rèn)為是數(shù)據(jù)科學(xué)家的必備基本技能,而Wget是一套非交互的基于命令行的文件下載庫(kù)。ta支持HTTP、HTTPS和FTP協(xié)議,也支持使用IP代理。因?yàn)閠a是非交互的,即使用戶未登錄,ta也可以在后臺(tái)運(yùn)行。所以下次如果你想從網(wǎng)絡(luò)上下載一個(gè)頁(yè)面,Wget可以幫到你哦。

安裝

  1. pip isntall wget 

用例

  1. import wget 
  2.  
  3. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
  4.  
  5. filename = wget.download(url) 

Run and output

  1. 100% [................................................] 3841532 / 3841532 
  2. filename 
  3. 'razorback.mp3' 

2. Pendulum

對(duì)于大多數(shù)python用戶來(lái)說(shuō)處理時(shí)期(時(shí)間)數(shù)據(jù)是一件令人抓狂的事情,好在Pendulum專為你而來(lái)。它是python內(nèi)置時(shí)間類的良好備選方案,更多內(nèi)容可查看官方文檔 https://pendulum.eustace.io/docs/

安裝

  1. pip install pendulum 

用例

  1. import pendulum 
  2.  
  3. dt_toronto = pendulum.datetime(201211, tz='America/Toronto'
  4. dt_vancouver = pendulum.datetime(201211, tz='America/Vancouver'
  5. print(dt_vancouver.diff(dt_toronto).in_hours()) 

Run and output

  1. 3 

3.imbalanced-learn

常見(jiàn)的機(jī)器學(xué)習(xí)分類算法都默認(rèn)輸入的數(shù)據(jù)是均衡數(shù)據(jù),即假設(shè)訓(xùn)練集數(shù)據(jù)有A和B兩個(gè)類別,A和B數(shù)據(jù)量大體相當(dāng)。如果A和B數(shù)據(jù)量差別巨大,那么訓(xùn)練的效果會(huì)不理想。在實(shí)際收集和整理的數(shù)據(jù),其實(shí)絕大多數(shù)是非均衡數(shù)據(jù),這對(duì)于機(jī)器學(xué)習(xí)分類算法真的是個(gè)很大的問(wèn)題。好在有imbalanced-learn庫(kù)可以很好的解決這個(gè)問(wèn)題。該庫(kù)兼容scikit-learn,并且是作為scikit-learn-contrib項(xiàng)目的一部分。當(dāng)你再遇到非均衡數(shù)據(jù),記得試試它哦!

安裝

  1. pip install -U imbalanced-learn 
  2. #或者 
  3. conda install -c conda-forge imbalanced-learn 

該庫(kù)有高質(zhì)量的文檔 http://imbalanced-learn.org/en/stable,目前該庫(kù)支持scikit-learn、keras、tensorflow庫(kù)

4. FlashText

在NLP任務(wù)重經(jīng)常會(huì)遇到替換指代同一個(gè)意思的多個(gè)詞語(yǔ),或者從句子中抽取關(guān)鍵詞。通常我們一般的做法是使用正則表達(dá)式來(lái)完成這些臟活累活,但如果要操作的詞語(yǔ)數(shù)量達(dá)到幾千上萬(wàn),使用正則這種方法就會(huì)變得很麻煩。FlashText庫(kù)是基于FlashText算法,該庫(kù)的***大之處在于程序運(yùn)行時(shí)間不受操作詞語(yǔ)數(shù)量影響,即運(yùn)行時(shí)間與操作的詞匯數(shù)量無(wú)關(guān)。 因此特別適合應(yīng)用到 python文本分析 中去。

4.1 安裝

  1. pip install flashtext 

4.2 用例

4.2.1 抽取關(guān)鍵詞

我們都知道 Big Apple 指代紐約。所以抽取紐約這個(gè)城市詞時(shí)候,我們要考慮到相同意思的不同詞語(yǔ)。

  1. from flashtext import KeywordProcessor 
  2.  
  3. #設(shè)置關(guān)鍵詞處理器 
  4. keyword_processor = KeywordProcessor() 
  5.  
  6. #設(shè)置關(guān)鍵詞及其近義詞 
  7. keyword_processor.add_keyword('Big Apple''New York'#遇到Big Apple就會(huì)識(shí)別為New York 
  8. keyword_processor.add_keyword('Bay Area'
  9.  
  10. keywords_found = keyword_processor.extract_keywords("I love Big Apple and Bay Area."
  11.  
  12. keywords_found 

Run and output

  1. ['New York''Bay Area'
4.2.2 替換關(guān)鍵詞

我們也經(jīng)常需要將原始文本進(jìn)行處理,比如將New Delhi(新德里)替換為NCR region(國(guó)家首都區(qū))

  1. keyword_processor.add_keyword('New Delhi''NCR region'
  2. new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.'
  3. new_sentence 

Run and output

  1. 'I love New York and NCR region.' 

想了解更多,請(qǐng)查看FlastText官方文檔

https://flashtext.readthedocs.io/en/latest/#

5. Fuzzywuzzy

這個(gè)庫(kù)的名字就有點(diǎn)怪,但ta擁有強(qiáng)大的字符串匹配功能。可以輕松實(shí)現(xiàn)字符串比較比率(comparison ratios),分詞比率(token ratios)等操作。它還可以方便地匹配保存在不同數(shù)據(jù)庫(kù)中的記錄。

安裝

  1. pip install fuzzywuzzy 

用例

  1. from fuzzywuzzy import fuzz 
  2. from fuzzywuzzy import process 
  3.  
  4. # Simple Ratio 
  5. print(fuzz.ratio("this is a test""this is a test!")) 
  6. # Partial Ratio 
  7. print(fuzz.partial_ratio("this is a test""this is a test!")) 

Run and output!

  1. 97 
  2. 100 

更多有趣的例子可見(jiàn) fuzzywuzzy庫(kù)github賬號(hào) https://github.com/seatgeek/fuzzywuzzy

6.PyFlux/PyFTS.

在機(jī)器學(xué)習(xí)領(lǐng)域中經(jīng)常遇到時(shí)間序列分析這種問(wèn)題。PyFlux是專門(mén)為解決時(shí)間序列問(wèn)題而開(kāi)發(fā)的python庫(kù)。這個(gè)庫(kù)提供了很多現(xiàn)代時(shí)間序列算法,單不僅僅限于ARIMA、GARCH和VAR這三種模型。簡(jiǎn)而言之,PyFlux為我們分析時(shí)間序列數(shù)據(jù)提供了可能,你值得擁有。

安裝

  1. pip install pyflux 

PyFlux用例可查看該庫(kù)的文檔 https://pyflux.readthedocs.io/en/latest/index.html

類似的時(shí)間序列庫(kù)還有PyFTS, 教程鏈接

https://towardsdatascience.com/a-short-tutorial-on-fuzzy-time-series-dcc6d4eb1b15 

文檔鏈接 

https://pyfts.github.io/pyFTS/.

7.Ipyvolume

數(shù)據(jù)科學(xué)中一個(gè)重要的部分就是分析結(jié)果的展示與交流,而良好的視覺(jué)傳達(dá)是很有優(yōu)勢(shì)的。IPyvolume是3D可視化庫(kù),可以以最小的初始化設(shè)置就能在jupyter notebook中使用。做一個(gè)恰當(dāng)?shù)念惐龋簃atplotlib的imshow是2d數(shù)組,而IPyvolume的volshow是3d數(shù)組。

安裝

  1. pip install ipyvolume 
  2. #或者 
  3. conda install -c conda-forge ipyvolume 

用例

8. Dash

Dash是用來(lái)為開(kāi)發(fā)web應(yīng)用的高生產(chǎn)率工具庫(kù),該庫(kù)基于Flask、Plotly.js和React.js,不需要懂javascript只用python就能讓我們制作出美美的的UI元素,如下來(lái)列表、滑動(dòng)條和圖表。這些應(yīng)用可以在瀏覽器中渲染,具體文檔可查看 https://dash.plot.ly/

安裝

  1. pip install dash==0.29.0   
  2. pip install dash-html-components==0.13.2  #Dash庫(kù)的HTML組件 
  3. pip install dash-core-components==0.36.0  #Dash庫(kù)核心組件 
  4. pip install dash-table==3.1.3  #交互數(shù)據(jù)庫(kù)表單(新) 

用例

下面是一個(gè)下拉式菜單,可以選擇股票代碼的pandas Dataframe數(shù)據(jù)類型作為輸入,渲染成動(dòng)態(tài)交互的折線圖

9. Gym

Gym是一個(gè)可以開(kāi)發(fā)強(qiáng)化學(xué)習(xí)算法的工具包。 它兼容數(shù)值計(jì)算庫(kù),如TensorFlow或Theano。我們可以據(jù)此設(shè)計(jì)出強(qiáng)化學(xué)習(xí)算法,這些環(huán)境(測(cè)試問(wèn)題)有公開(kāi)的接口,允許我們寫(xiě)出通用的算法。

安裝

  1. pip install gym 

用例

比如研究探月飛行器著落月球,科學(xué)家需要考慮如何才能準(zhǔn)確著落到某個(gè)位置,并且保證安全降落。這就需要用到gym來(lái)做強(qiáng)化學(xué)習(xí),學(xué)到規(guī)律

[[259842]]

責(zé)任編輯:張燕妮 來(lái)源: 大鄧和他的Python
相關(guān)推薦

2020-07-19 15:39:37

Python開(kāi)發(fā)工具

2018-12-10 19:30:45

2018-06-04 22:27:47

2021-04-09 23:11:25

Python程序開(kāi)源

2015-08-26 13:11:54

數(shù)據(jù)Python

2018-06-27 10:45:12

數(shù)據(jù)Python程序

2019-11-05 10:07:26

數(shù)據(jù)科學(xué)Python庫(kù)

2020-07-03 18:05:04

Python開(kāi)發(fā)工具

2022-09-01 23:17:07

Python編程語(yǔ)言開(kāi)發(fā)

2019-11-01 13:37:53

Python數(shù)據(jù)結(jié)構(gòu)編程語(yǔ)言

2020-05-15 10:22:07

Python開(kāi)發(fā)工具

2019-10-30 12:24:57

網(wǎng)絡(luò)安全安全風(fēng)險(xiǎn)網(wǎng)絡(luò)攻擊

2024-08-06 09:51:21

SpringHTTPJSON

2018-09-18 23:25:49

Python數(shù)據(jù)科學(xué)庫(kù)

2018-08-06 13:46:07

編程語(yǔ)言Python數(shù)據(jù)科學(xué)庫(kù)

2021-05-27 05:25:59

Python數(shù)據(jù)處理數(shù)學(xué)運(yùn)算

2021-01-13 15:13:07

Python開(kāi)發(fā) 工具

2020-11-25 08:00:00

數(shù)據(jù)分析人工智能技術(shù)

2020-08-17 08:17:00

大數(shù)據(jù)人工智能技術(shù)

2022-03-15 17:12:03

大數(shù)據(jù)機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)