2018年最富含金量的6款開源機器學習項目
剛過去的 2018 年對人工智能與機器學習領域來說是「豐收」的一年,我們看到越來越多具有影響力的機器學習應用被開發(fā)出來,并且應用到了實際生活的諸多領域,特別是在醫(yī)療保健、金融、語音識別、增強現(xiàn)實和更復雜的 3D 視頻應用領域。
此外,我們發(fā)現(xiàn)業(yè)內(nèi)產(chǎn)生越來越多應用驅(qū)動型的研究工作,數(shù)量上甚至超過了理論驅(qū)動型研究。不可否認這種變化有其弊端,然而我們要看到它積極的一面,隨著能夠迅速被商業(yè)轉(zhuǎn)化的研究增多,對整個行業(yè)產(chǎn)生了不可估量的積極影響,這在機器學習開源領域尤其明顯。
***,一起看看過去一年中 6 個最實用的機器學習項目。這些項目都已發(fā)布了代碼與數(shù)據(jù)集,方便個人和小團隊進行學習并創(chuàng)造價值,這些項目也許在理論上并不具有開創(chuàng)性,卻非常實用。
本文源自 Towards Data Science 的 George Seif,編譯如下。
1)Fast.ai
開源地址:
https://github.com/fastai/fastai
Fast.ai 庫能讓我們通過***方案來簡化神經(jīng)網(wǎng)絡的訓練工程,它抽象出了在實際搭建深度神經(jīng)網(wǎng)絡過程中的所有細節(jié)工作,設計上充分考慮了從業(yè)者們構建程序的思維模式,因而非常易于使用。該庫最初是為 Fast.ai 課程的學生所創(chuàng)建,通過簡潔易懂的方式在 Pytorch 庫的基礎上進行編寫。另外,它在文件庫的整理上也是***的。(文件庫地址:https://docs.fast.ai/)
2)Detectron
開源地址:
https://github.com/facebookresearch/Detectron
Detectron 是由 Facebook 開發(fā)用于物體檢測與實例分割的研究型平臺,用深度學習框架 Caffe2 寫成,包含了各類物體檢測算法的實現(xiàn),如:
Mask R-CNN:通過 Faster R-CNN 結構實施物體檢測與實例分割。
(https://arxiv.org/abs/1703.06870)
RetinaNet:特征金字塔網(wǎng)絡,通過獨特的 Focal Loss 來處理具有挑戰(zhàn)性的案例。
(https://arxiv.org/abs/1708.02002)
Faster R-CNN:物體檢測網(wǎng)絡中最常見的結構。
所有網(wǎng)絡均可使用以下任一備選分類網(wǎng)絡:
ResNeXt{50101152}
(https://arxiv.org/abs/1611.05431)
RESNET{50101152}
(https://arxiv.org/abs/1512.03385)
特征金字塔網(wǎng)絡(使用 ResNet / ResNeXt)
(https://arxiv.org/abs/1612.03144)
VGG16
值得一提的是,這些平臺功能自帶 COCO 數(shù)據(jù)集上的預訓練模型,這也意味著用戶可以快速使用。同時這些功能均已嚴格按照標準評估指標在 Detectron model zoo(https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md)中完成測試工作。
3)FastText
開源地址:
https://github.com/facebookresearch/fastText
這是另一項來自 Facebook 的研究成果,fastText 庫專為文本表示與文本分類而編寫。該庫配備了預先訓練好的單詞向量模型,涵蓋語言達 150 多種,可用于完成多項任務,包括文本分類、摘要和翻譯等。
4)AutoKeras
Auto-Keras 是用于自動機器學習(AutoML)的開源軟件庫,由德克薩斯 A&M 大學的 DATA Lab(http://faculty.cs.tamu.edu/xiahu/index.html)與社區(qū)貢獻者共同開發(fā)。AutoML 的目標是為缺乏數(shù)據(jù)科學或機器學習背景的領域?qū)<覀兇蛟煲粋€易于使用的深度學習工具。Auto-Keras 提供了為深度學習模型自動匹配***架構與超參數(shù)的功能。
5)Dopamine
開源地址:
https://github.com/google/dopamine
Dopamine 是 Google 專為加速強化學習算法原型設計而創(chuàng)建的研究框架,在嚴格遵照 RL 算法、指標與基準的基礎上,達到靈活且易于使用的目的。
根據(jù) Dopamine 提供的文檔顯示,他們產(chǎn)品設計原則包括:
-
便于執(zhí)行的實驗:幫助新用戶運行基準實驗
-
靈活的開發(fā)流程:促進更多開創(chuàng)性想法的誕生
-
簡潔可靠:能夠落地實現(xiàn)一些較舊或者較流行的算法
-
可重復性:確保結果得以復現(xiàn)
6)vid2vid
開源地址:
https://github.com/NVIDIA/vid2vid
vid2vid 是基于 Nvidia ***進視頻到視頻合成算法的 Pytorch 實現(xiàn)項目。視頻到視頻合成算法的目標是習得從輸入源視頻(例如一系列語義分割 mask)到輸出可精確描繪源視頻內(nèi)容的真實渲染視頻過程中的映射函數(shù)。
該庫的優(yōu)點在于選擇的多樣性:它提供了針對自動駕駛/城市場景、人臉以及人體姿勢在內(nèi)的不同 vid2vid 應用程序。此外,還附帶了豐富的指令和功能,其中包括數(shù)據(jù)集加載、任務評估、網(wǎng)絡訓練和多 GPU!
特別提及
-
ChatterBot:用于創(chuàng)建對話引擎和聊天機器人的機器學習項目
開源地址:
https://github.com/gunthercox/ChatterBot
-
Kubeflow:Kubernetes 的機器學習工具包
開源地址:
https://github.com/kubeflow/kubeflow
-
imgaug:用于圖像增強的深度學習項目
開源地址:
https://github.com/aleju/imgaug
-
imbalanced-learn:scikit 下的 Python 框架,專用于修復不平衡的數(shù)據(jù)集
開源地址:
https://github.com/scikit-learn-contrib/imbalanced-learn
-
mlflow:用于管理 ML 項目周期的開源平臺,覆蓋實驗、復現(xiàn)與部署等流程。
開源地址:
https://github.com/mlflow/mlflow
-
AirSim:基于 Unreal Engine/ Unity 的自動駕駛汽車模擬器,由微軟出品
開源地址: