2019 年 10 大優(yōu)秀 Python 支持庫
歡迎回來,這是我們第五次推出年度優(yōu)秀 Python 支持庫榜單。在這里,我們列出了隱匿于開源世界里的瑰寶,既可以幫你啟動新的項目,也可以為你現(xiàn)有的項目添光加彩。本榜單覆蓋了各個領(lǐng)域,包括機器學習與非機器學習的支持庫。
希望你能和我們一樣喜歡本年度的優(yōu)秀支持庫榜單,話不多說,題歸正文!
1. HTTPX
項目網(wǎng)址:
https://www.encode.io/httpx/
經(jīng)常進行 API 交互的 Python 忠粉,對 requests 應該是運用自如了。不過,對于日趨普及的現(xiàn)代高性能應用而言,在用到異步范式時,requests 就顯得有點捉襟見肘了。
為了解決這一問題,大咖 Tom Christie 和他的小伙伴給大家?guī)砹诵率来惒?HTTP 客戶端 ~ HTTPX。
緊跟 requests 步伐,HTTPX 在支持 requests 標準功能的同時,還支持 HTTP/2 與 HTTP/1,以及通過 ASGI 協(xié)議直接調(diào)用 Python 網(wǎng)絡(luò)應用,此外還有完善的類型注釋。
要執(zhí)行大規(guī)模并發(fā)請求?HTTPX 就是你要找的答案。
注意:HTTPX 仍在 alpha 版開發(fā)階段,目前只開發(fā)了異步客戶端,將來還會引入同步客戶端。
2. Starlette
項目網(wǎng)址:
https://www.starlette.io/
Starlette 打包了 WebSocket、GraphQL、進程內(nèi)后臺任務(wù)等多種功能,是真正高性能的輕量級 ASGI 框架與工具箱。所有功能都完全支持類型注釋代碼庫,且不需要任何硬性依賴項??梢园阉敵煞浅]p量級的現(xiàn)代異步版 Flask。
Starlette 的靈活性很強,既可以用作完整的網(wǎng)絡(luò)框架,也可以只用作 ASGI 工具箱。
Starlette 運行在 uvicorn 之上,這個支持庫入選了去年的 10 大優(yōu)秀 Python 支持庫榜單。
如果想開發(fā)新型網(wǎng)絡(luò)應用,強烈建議您給 Starlette 一個發(fā)光發(fā)熱的機會。
3. FastAPI
項目網(wǎng)址:
https://github.com/tiangolo/fastapi
Starlette 很贊,但它太迷你了,雖然給了開發(fā)者很大的自由,但有時,用戶要的其實只是一個能快速完成任務(wù)的框架。
Sebastián Ramírez 就是出于這個目的開發(fā)的 FastAPI,怎么說呢?這個支持庫的各個方面都很 Fast。
這個用 Python 開發(fā) API 的新框架具有超高性能,而且可以基于 OpenAPI 標準自動生成交互式文檔。默認支持 Swagger UI 與 ReDoc,允許直接從瀏覽器調(diào)用、測試 API,從而提高開發(fā)效率。用這個框架開發(fā) API,真的是又快又簡單。
該支持庫還支持現(xiàn)代 Python 優(yōu)秀實用功能之一:類型提示。FastAPI 在很多方面都使用了類型提示,其中最酷的一個功能是由 Pydantic 加持的自動數(shù)據(jù)驗證與轉(zhuǎn)換。
FastAPI 基于 Starlette 開發(fā),性能與 NodeJS 和 GO 相當,還自帶 WebSocket 與 GraphQL 原生支持。
最后,對于開源支持庫而言,它的技術(shù)支持文檔也非常不錯。說真的,去看一下吧!
4. Immutables
項目網(wǎng)址:
https://github.com/magicstack/immutables
MagicStack 的兄弟回歸了,這次他們帶來的是一個簡單、優(yōu)雅的不可變映射類型(“凍結(jié)字典”)。
這東西的好處在哪兒?呃,希望你能聽得懂下面這句話,Haskell 等函數(shù)編程語言里使用的哈希數(shù)組映射字典樹(HAMT)的底層數(shù)據(jù)結(jié)構(gòu)。最值得注意的是,不管 set() 還是 get() 操作的性能都為 O(log N),且對于相對較小的映射,可以達到 O(1)。
如果你的應用里字典的規(guī)模較大,并且想提高一下性能,這個酷酷的新支持庫值得一試。
5. Pyodide
項目網(wǎng)址:
https://github.com/iodide-project/pyodide/
Pyodide 是本榜單里最刷三觀的項目。通過 WebAssembly,它把 Python 科學引入到了瀏覽器界面,把科學計算提升到了全新的層面。
想用 Numpy 搞定一些數(shù)字?用 Pandas 處理大型 DataFrame?用 Matplotlib 為計算結(jié)果進行可視化?有了 Pyodide,這些操作在瀏覽器里就可以輕輕松松地實現(xiàn)了。
這還不算完,還有好消息:這個庫可用的 Python 支持庫已經(jīng)超過了 35 個,您這是要上天啊。
6. Modin
項目網(wǎng)址:
https://github.com/modin-project/modin
Modin 的口號是“只改一行代碼,就能加速 Pandas”,沒錯,就是這么簡單。只要安裝 Modin,更改 import 語句,在多核筆記本上,處理數(shù)據(jù)的速度就能提高 4 倍。
我滴個神 ~~ 這是怎么做到的?Modin 有自帶的 modin.pandas.DataFrame 對象,這是一個輕量級的并行 DataFrame 對象。因為與 Pandas API 兼容,使用這個對象就跟是透明的一樣,在后臺,該支持庫使用 Ray 或 Dask 作為計算引擎,執(zhí)行分布式數(shù)據(jù)計算。
有的時候,獲得更快的速度就是那么簡單,改一兩行代碼就可以了,Modin 就是證明。
7. Streamlit
項目網(wǎng)址:
https://github.com/streamlit/streamlit
不論機器學習項目多么的超凡脫俗,都免不了要手動與模型和數(shù)據(jù)交互的工作。
與其投入無數(shù)小時,開發(fā)數(shù)千行代碼的應用,Streamlit 讓你可以快速搭建用來分享模型與分析的 APP。構(gòu)建交互式 UI、實現(xiàn)數(shù)據(jù)可視化、輸出分析模型現(xiàn)在就是小菜一碟。
有了 Streamlit,只要添加幾行代碼,嗖的一下,就能從 Python 腳本代碼飛升為產(chǎn)品級 APP。TensorFlow、Keras、PyTorch、Pandas,只要是你能想到的數(shù)據(jù)科學工具,Streamlit 都已經(jīng)支持了。
8. Transformers
項目網(wǎng)址:
https://github.com/huggingface/transformers
從事機器學習相關(guān)工作的讀者,一定會對過去的一年中自然語言處理(NLP)領(lǐng)域里的重大突破有所耳聞。
BERT、XLNet、roBERTa 等新涌現(xiàn)出來的高性能模型已經(jīng)取得了長足的發(fā)展,尤其是在文本分類、機器翻譯、命名實體識別等眾多 NLP 領(lǐng)域里的高精尖突破層出不窮,讓人眼花繚亂。
對業(yè)界人士來說,找到一款既能在產(chǎn)品級程序上利用這些模型,又不會太過復雜的工具,尤為重要。對研究者而言,一個既不用花費太多時間編寫模板代碼,又能調(diào)校支持庫內(nèi)核,不斷開發(fā)、實驗新模型的支持庫,也非常重要。
Hugging Face 的小伙伴給我們帶來了變形金剛(Transformers),這個支持庫支持最現(xiàn)代的 NLP 模型打包、預訓練等功能,而且還開箱即用。TensorFlow 2.0 與 PyTorch 之間的互操作,讓該支持庫達到了業(yè)界標準,完全可以為研究工作與產(chǎn)品級應用程序加持。該支持庫由研究人員開發(fā),因此,它的更新速度非常快,而且還在不斷引入新式模型。
錦上添花:Hugging Face 團隊開發(fā)了 DistilBERT,這是基于 BERT 提煉出來的,更小、更快、更省錢、更輕量的版本。
還在猶豫要不要用 Hugging Face 的變形金剛處理現(xiàn)代 NLP 任務(wù)?看到這篇文章就是緣分,快來試下這個在線演示,感受變形金剛的魔力吧。
9. Detectron2
項目網(wǎng)址:
https://github.com/facebookresearch/detectron2
Facebook AI 研究團隊(FAIR)在開發(fā)對象探知、姿態(tài)估測、語義/實例分隔、全景分割等模型的同時,不斷將計算機視覺(CV)推向新的高度。
就在短短的幾年前,上述這些技術(shù)就像是科幻小說。我們從未對 FAIR 有過什么期望,但這回他們再一次震撼全場。
Detectron2 是 Detectron 的延續(xù),該支持庫建立在 PyTorch 之上,整合了多種高精尖的計算機視覺算法。
鑒于支持用例類型多種多樣,這類支持庫的開發(fā)難度特別大。與 Hugging Face 的 Transformers 類似,F(xiàn)AIR 團隊的 Detectron2 真的很強大,其延展性與模塊化的設(shè)計風格,讓它在計算機視覺研究應用中獨領(lǐng)風騷。同時,Detectron2 的應用極其簡單,非常適合那些只想快速得到結(jié)果,不想了解核心算法的人。沒錯,只要幾行 Python 代碼,就可以通過 Detectron2 讓你開發(fā)的軟件“理解”圖片。
Detectron2 能否形成生機勃勃的社區(qū),還需要些時間來驗證,但到目前為止,它的前途還是蠻光明的。很多研究人員都在為 Detectron2 研發(fā)更新、更快、更好的模型,因此,它成為計算機視覺應用“首選”解決方案的可能性很大。如果你從事計算機視覺工作,一定要對這個支持庫保持密切的關(guān)注!
10. Metaflow
項目網(wǎng)址:
https://docs.metaflow.org/introduction/what-is-metaflow
Metaflow 這個支持庫實在太新了,差點就沒趕上 2019 年榜單評選!但不要因此就小瞧它:別看它 12 月 3 日才正式發(fā)布,其實它是 Netfilx 兩年精雕細琢的成果,通過了長期內(nèi)部實測,Netflix 才決定開源。
Metaflow 這個 Python 支持庫能幫助數(shù)據(jù)科學家與數(shù)據(jù)工程師開發(fā)在現(xiàn)實世界中應用的實戰(zhàn)項目。它的目標是,減輕非技術(shù)型數(shù)據(jù)科學家學習技術(shù)的負擔,比如,如何利用計算資源、怎么實現(xiàn)并行運算、架構(gòu)設(shè)計、版本控制等。Netflix 與 AWS 合作,讓用戶通過開箱即用的分布式計算即可輕松定義復雜數(shù)據(jù)流。
我們在 Tryolabs 內(nèi)部已經(jīng)評測了幾個 Metaflow 核心項目。如果你也對這個工具感興趣,請參閱 Netflix 博客的發(fā)布貼。
結(jié)論
這一年,或者說又一個10 年馬上就要過去了,開源社區(qū)這些年的對世界的貢獻將對今后幾年產(chǎn)生深遠的影響。