數(shù)據(jù)科學(xué)家的工具列表:提高生產(chǎn)效率的工具包
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
新的東西令人激動(dòng),新的框架、新的儀器、新的工具,都會(huì)讓生活變得更輕松。保持更新很難,我們需要花更多的時(shí)間在其上。
當(dāng)然,我們并不是要一直更新到最新的發(fā)現(xiàn),它可能是某個(gè)特定庫的新的小版本,也可能是處于興趣或是工作需要而尋找?,F(xiàn)在開始吧!
- Texthero:文本從零到多個(gè)的預(yù)處理、向量化、可視化。應(yīng)用tf-idf和tokenize查找功能來實(shí)現(xiàn)面向線性通信模型的主成分分析。
- Google Data Studio:未來的前端。以googledocs(谷歌文件)的方式創(chuàng)建儀表板、報(bào)表和分析,只需插入數(shù)據(jù)庫,上傳csv文件,就可以開始了。
- Deepnote:出色的jupyter筆記本??梢栽谀愕臑g覽器中進(jìn)行協(xié)作、代碼評(píng)審、可以更好的繪圖、支持aws3、MongoDB等等。
- Streamlit:是構(gòu)建數(shù)據(jù)應(yīng)用程序的最快方式,谷歌數(shù)據(jù)工作室的替代品,創(chuàng)建基于python的web應(yīng)用程序、可視化和報(bào)表。

從R轉(zhuǎn)為python可以試試plotnine,這是一個(gè)基于ggplot2的Python圖形語法呈現(xiàn)方式。
- pivottablejs:在Jupyter筆記本中拖放數(shù)據(jù)透視表。
- RISE:把你的筆記本變成顯示基于.js-的幻燈片。
- gmaps:基于谷歌地圖的可視化庫——創(chuàng)建漂亮的交互式地圖和熱圖。
- flair:由來自柏林的扎蘭多支持研發(fā)的最先進(jìn)的自然語言處理中的一個(gè)簡單框架。
- light fm:由python實(shí)現(xiàn)的流行推薦算法。
- ds-cheatsheets:大量備忘單集合,從python到R,包括SQL。
- Scraper.AI:真實(shí)有效的網(wǎng)絡(luò)爬蟲工具。
- AlwaysAI:在數(shù)分鐘內(nèi)將計(jì)算機(jī)視覺模型部署到邊緣設(shè)備,如Nvidia Jetson、Raspberry PI,其目錄涵蓋了不同的預(yù)訓(xùn)練模型,從對(duì)象分割到估計(jì)。
- Notion:具有配置項(xiàng)的記筆記軟件,使用Markdown來創(chuàng)建表格,列表,畫板還有看板。

概念:你將實(shí)際使用的筆記應(yīng)用程序
- Weights & Biases:在訓(xùn)練深度學(xué)習(xí)模型時(shí),經(jīng)常會(huì)發(fā)生實(shí)驗(yàn)結(jié)果丟失、被覆蓋或難以跟蹤的情況。Weights &Biases只需通過添加幾行代碼就可以幫助你跟蹤模型訓(xùn)練以及實(shí)驗(yàn)。

- 無代碼機(jī)器學(xué)習(xí)?Obviously AI也許是AutoML的下一步。上傳(或連接)數(shù)據(jù)、選擇目標(biāo)就足夠了,剩下的工作將由ObviouslyAI進(jìn)行訪問ML過程,使其讓任何人都可以訪問。它們還為你生成一個(gè)決策圖譜,提供一個(gè)可解釋的模型。

- ML Playground:運(yùn)行不同的算法,添加神經(jīng)網(wǎng)絡(luò),刪除圖層,繪制數(shù)據(jù),或上傳自己的數(shù)據(jù)。
- Papers with code:正如其名,找到Github的腳本文件,準(zhǔn)備被分叉開。
- Clever Grid:一個(gè)1核的圖形處理器和250GB的培訓(xùn)數(shù)據(jù),每天約10歐元。
- AWS DeepRacer:訓(xùn)練你的自動(dòng)駕駛(模型)車,在著名的F1賽道上與其他人競(jìng)爭,比如巴塞羅那——加泰羅尼亞賽道。你也可以在亞馬遜上購買DeepRacer汽車的硬件版本。
- MusicTime for Spotify:一個(gè)VSCode編輯器插件,它可以在編寫代碼時(shí)發(fā)現(xiàn)最受歡迎的音樂。
- gspread_dataframe:是否必要把padas庫中的數(shù)據(jù)發(fā)送到Google Sheets。
- Kite:AI遇到代碼自動(dòng)完成提供建議,它們?yōu)橹饕膒ythonide提供插件,比如VSCode、Pycharm和Spyder。

- PuLP:對(duì)整數(shù)規(guī)劃和線性規(guī)劃有興趣嗎?對(duì)生產(chǎn)優(yōu)化或多武裝犯罪分子之類的問題感興趣嗎?看看他們的案例研究吧。
- 使用Scikit Learn、Keras和TensorFlow進(jìn)行實(shí)際操作機(jī)器學(xué)習(xí):構(gòu)建智能系統(tǒng)的概念、工具和技術(shù):這本書數(shù)據(jù)科學(xué)家得人手一本,它涵蓋了從基本到高級(jí)的數(shù)據(jù)科學(xué)主題,十分實(shí)用且包含如何手動(dòng)操作。
- datatau:數(shù)據(jù)科學(xué)領(lǐng)域的黑客新聞。
- Deta:一個(gè)慷慨大方的免費(fèi)云端儲(chǔ)存提供商。
- 尋找副業(yè)項(xiàng)目?找到你感興趣的副業(yè)并參與其中,去看看 Solodoers吧。
- cookiecutter-data-science:數(shù)據(jù)科學(xué)的項(xiàng)目引導(dǎo)者。數(shù)據(jù)科學(xué)的代碼質(zhì)量無非是正確性和再現(xiàn)性問題。
- tqdm:我們一直希望在for循環(huán)中有一個(gè)進(jìn)度條。
- ELI5:可視化和調(diào)試各種機(jī)器學(xué)習(xí)模型,從黑匣子到可解釋的人工智能。

- gpxpy:你知道你可以把最喜歡的跑步應(yīng)用程序數(shù)據(jù)導(dǎo)出到一個(gè).gpx文件中嗎?這些文件可以被解析成pandas,我曾經(jīng)做過類似的事情,從一次帆船旅行中導(dǎo)出數(shù)據(jù):

- 《找到你的第一份數(shù)據(jù)科學(xué)工作》:一本免費(fèi)的關(guān)于數(shù)據(jù)科學(xué)職業(yè)生涯和專家建議的書,一共70頁。
- GluonTS:基于mxnet的亞馬遜方式概率時(shí)間序列建模。

- Lifelines:實(shí)現(xiàn)通用生存分析模型的Python庫。生存分析廣泛用于預(yù)測(cè)事件在特定時(shí)間發(fā)生的可能性,例如,客戶將取消訂閱我們的服務(wù)。
- tensor-house:一個(gè)企業(yè)操作的參考機(jī)器學(xué)習(xí)和優(yōu)化模型集合,對(duì)于想學(xué)習(xí)如何使用不同的機(jī)器學(xué)習(xí)模型來解決不同問題的人來說非常有趣。
- Gradio:讓模型創(chuàng)建易于使用的界面設(shè)計(jì),對(duì)于展示模型預(yù)測(cè)非常有幫助,包括自然語言分析、圖像和回歸。
這些工具值得好好探索一陣兒啦。