自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

遍覽200多個機器學習工具后,我學到了啥

人工智能 機器學習
這篇文章中,Chip小哥統(tǒng)計了兩百多個機器學習相關(guān)工具,并且對整個該領(lǐng)域的發(fā)展和現(xiàn)狀進行了回顧,同時列出機器學習開發(fā)的難點特別是和傳統(tǒng)軟件開發(fā)的不同點,最后還特意討論了開源對該領(lǐng)域的影響。

[[332582]]

大數(shù)據(jù)文摘出品

來源:huyenchip

編譯:Fisher、Andy

因為機器學習研究的放緩,以及大家對產(chǎn)業(yè)化的需求。近來大家對MLOps的關(guān)注越來越高,特別是其中涉及到的各種各樣的工具。

在這篇文章中,Chip小哥統(tǒng)計了兩百多個機器學習相關(guān)工具,并且對整個該領(lǐng)域的發(fā)展和現(xiàn)狀進行了回顧,同時列出機器學習開發(fā)的難點特別是和傳統(tǒng)軟件開發(fā)的不同點,最后還特意討論了開源對該領(lǐng)域的影響。

最近,為了更好地了解機器學習領(lǐng)域工具的整體情況,我決定徹底調(diào)查每個能找到的人工智能/機器學習工具。整個過程中參考的資源包括:

  • Full Stack Deep Learning
  • LF AI Foundation landscape
  • AI Data Landscape
  • 各媒體評選出的AI創(chuàng)業(yè)公司榜單
  • 推特和領(lǐng)英上收到的帖子回復(fù)
  • 別人分享給我的工具列表(包括朋友、陌生人、風險投資人)

在篩掉只有應(yīng)用程序的公司(如用機器學習提供商業(yè)分析的公司)、未處于積極開發(fā)中的工具,以及沒人用的工具后,最后剩下202個工具。

完整列表如下:

https://docs.google.com/spreadsheets/d/1OV0cMh2lmXMU9bK8qv1Kk0oWdc_Odmu2K5sOULS9hHQ/edit?usp=sharing

如果有工具你覺得應(yīng)該列入但未被列入,請務(wù)必在留言區(qū)補充!

免責聲明:

  • 這個工具列表創(chuàng)建于19年11月,現(xiàn)在情況肯定不同了;
  • 有些科技公司提供的一套工具數(shù)量太多,難以一一列舉,如Amazon Web Services提供超過165項功能齊全的服務(wù);
  • 有很多不知名的創(chuàng)業(yè)公司,我可能并不知道,甚至還有些都還沒聽說就倒閉了。

概述

我認為可以將機器學習生產(chǎn)流程歸納成4個主要步驟:

  • 項目創(chuàng)建
  • 數(shù)據(jù)管道
  • 建模和訓練
  • 上線服務(wù)

基于某個工具是服務(wù)于上述流程中哪個,我對工具進行了分類。我沒將項目創(chuàng)建部分包含進來,因為這一步需要的是項目管理工具,而不是機器學習工具。分類有時候并非簡單粗暴的,因為有些工具可能涉及多個步驟。而且這些工具模棱兩可的描述也讓人頭大:什么“我們突破了數(shù)據(jù)科學的極限”,“將AI項目轉(zhuǎn)化為現(xiàn)實世界的商業(yè)成果”,"讓數(shù)據(jù)像空氣一般自由流動",還有我個人最pick的一句:“我們生活于數(shù)據(jù)科學之上,呼吸于數(shù)據(jù)科學之中”。

對于涵蓋了流程中多個步驟的工具,我按照其最為人所知的功能來分類。有些工具多個分類的功能都為大家所熟悉,我就把它們都放在“一體化”(All-in-one)類中。我還增加了“基礎(chǔ)設(shè)施”(Infrastructure)這一類,來納入那些提供基礎(chǔ)設(shè)施來訓練和存儲模型的公司,它們大部分都是“云”提供者。

整體發(fā)展歷程

對此,我記錄了每個工具推出的年份。對于開源項目,我通過查看首次提交時間來確定項目是何時公開的。對于公司,我在Crunchbase網(wǎng)站上查找它的創(chuàng)立年份。然后我繪制了各個類別工具數(shù)目隨時間的變化圖。

隨年份累加的工具數(shù)目圖:左上角圖例依次為一體化、數(shù)據(jù)管道、基礎(chǔ)設(shè)施、建模和訓練、提供服務(wù)。

正如所料,數(shù)據(jù)顯示該領(lǐng)域從12年才開始急速發(fā)展,正好伴隨著人們對深度學習的重新關(guān)注開始。

前AlexNet時期(12年之前)

直到11年,該領(lǐng)域都是以建模和訓練工具為主。一些框架現(xiàn)在還很流行(如scikit-learn),或影響了現(xiàn)在的框架(如Theano)。在12年之前創(chuàng)立并存活至今的工具,有的已上市(Cloudera、Datadog、Alteryx),有的被收購(Figure Eight),有的成為了圈內(nèi)非常熱門的開源項目(Spark、Flink、Kafka)。

發(fā)展時期(2012年到2015年)

隨著機器學習圈開始了"使勁喂數(shù)據(jù)"玩法后,機器學習已經(jīng)變成了數(shù)據(jù)主導(dǎo)的領(lǐng)域??疵磕晖瞥龅母鱾€類別工具數(shù)時,這點尤其明顯。15年,57%(82個中的47個)是數(shù)據(jù)管道工具。

每年推出的各個類別的工具數(shù)。左上角圖例依次為一體化、提供服務(wù)、基礎(chǔ)設(shè)施、數(shù)據(jù)管道、建模和訓練。

產(chǎn)業(yè)化時期(2016年至今)

雖然純研究很重要,但大多數(shù)公司都負擔不起成本,除非研究能在短期就帶來商業(yè)應(yīng)用。隨著機器學習的研究、數(shù)據(jù)和現(xiàn)成模型越來越易得,有更多的人和組織會想要直接找應(yīng)用場景,這就增加了對機器學習產(chǎn)業(yè)化工具的需求。

在16年,谷歌宣布用神經(jīng)機器翻譯來改進谷歌翻譯服務(wù),這是深度學習在現(xiàn)實中的首批重要應(yīng)用中一個。此后,大家開發(fā)了各種工具來幫助機器學習類應(yīng)用部署上線。

整體發(fā)展現(xiàn)狀

盡管AI領(lǐng)域初創(chuàng)公司很多,但大多數(shù)是應(yīng)用型的(提供商業(yè)分析或客戶支持等應(yīng)用),而不是工具型的(打造工具來幫助其他公司開發(fā)應(yīng)用)?;蛘哂蔑L投的行話來講,大多數(shù)創(chuàng)業(yè)公司都是垂直細分AI(Vertical AI)。在19年的福布斯“50家AI創(chuàng)業(yè)公司”榜單中,只有7家是工具型公司。

應(yīng)用類更好銷售,因為你可以直接去一家公司推銷說:“我們可以讓你們一半的客戶支持業(yè)務(wù)自動化”。相比起來,雖然工具類要更長時間來銷售,但會產(chǎn)生更大影響,因為你不是關(guān)注單獨孤立的應(yīng)用程序,而是關(guān)注整個生態(tài)的一部分。對于某一類應(yīng)用,可以有多家供應(yīng)商共存;但對于生態(tài)的一環(huán),通常只有少數(shù)工具能存活下來。

這次,經(jīng)過大量搜索后,我也只找到大約200個AI工具,和傳統(tǒng)軟件工程的工具數(shù)量相比還很少。比如,如果你想對傳統(tǒng)的Python應(yīng)用做測試,2分鐘之內(nèi)就能在谷歌上搜到至少20種工具。而如果你想對機器學習模型做測試,那一個可能也搜不到。

機器學習開發(fā)所面臨的問題

許多傳統(tǒng)的軟件工程工具都能用來開發(fā)或部署機器學習應(yīng)用。但也有很多問題是機器學習應(yīng)用特有的,所以也需要專門的工具。

在傳統(tǒng)的軟件工程中,寫代碼部分是難點。但在機器學習中,寫代碼只是整體的一小部分。開發(fā)一個新模型,而且對實際任務(wù)提供顯著提升,這不光難,成本也很高。所以大部分公司不會專注于開發(fā)模型,而是用現(xiàn)成模型,例如 “BERT大法解決一切”。

對于機器學習,一般有最多/最好數(shù)據(jù)的應(yīng)用就是最好的。因此,大多數(shù)公司并不太專注于改進深度學習算法,而是專注于改善數(shù)據(jù)質(zhì)量。由于數(shù)據(jù)可能會快速變化,所以機器學習應(yīng)用也要求更快的開發(fā)和部署周期。在很多時候,你可能得每晚都部署一個新模型。

模型的大小也是一個問題。經(jīng)過預(yù)訓練的大型 BERT 模型有340M個參數(shù),占1.35GB空間。就算能裝在移動終端比如手機上,因為其推斷要花的時間太長,所以對很多應(yīng)用場景也是沒意義的。比如,如果輸入法提示下一個字符所花時間比你直接輸入還要長,那相應(yīng)的自動補全模型也就沒意義了。

Git通過逐行比較來進行版本管理,這對大多數(shù)傳統(tǒng)程序很有效。但它不適用于對數(shù)據(jù)集或模型做版本管理。對于大多數(shù)傳統(tǒng)數(shù)據(jù)框架的操作,Pandas就很好了,但它卻不能在GPU上跑。

基于行的數(shù)據(jù)格式(比如CSV)對于使用較少數(shù)據(jù)的應(yīng)用效果很好。但如果你的樣本包含許多特征,而你只想用其中一個子集,那么基于行的數(shù)據(jù)格式仍需要先載入所有特征才行。像PARQUET和OCR這樣的列式文件格式對處理這種情況進行了優(yōu)化。

機器學習應(yīng)用開發(fā)所面臨的一些問題:

  • 監(jiān)測:如何得知你的數(shù)據(jù)分布發(fā)生了變化,然后重新訓練模型?例如:Dessa,由AlexNet的Alex Krizhevsky支持,于20年2月被Square收購。
  • 數(shù)據(jù)標記:如何快速標記新數(shù)據(jù)或針對新模型重新標記現(xiàn)有數(shù)據(jù)?例如:Snorkel
  • CI/CD測試:如何運行測試來確保模型在改動后仍能發(fā)揮預(yù)期作用?你不能每次都花幾天時間重新訓練直到收斂。例如:Argo。
  • 部署:如何打包和部署一個新模型或替換掉一個現(xiàn)有模型?例如:OctoML。
  • 模型壓縮:如何壓縮模型來適應(yīng)終端設(shè)備?例如:Xnor.ai是從Allen Institute分拆出來的一家創(chuàng)業(yè)公司,專注模型壓縮。2018年5月,該公司以6200萬美元的估值得到1460萬美元融資。2020年1月,蘋果花了約2億美元收購了它,并關(guān)掉了它的網(wǎng)站。
  • 推斷優(yōu)化:如何加快模型的推斷時間?通過合并若干操作?通過降低模型精度?模型更小會讓推斷速度更快。例如:TensorRT。
  • 邊緣設(shè)備:專門設(shè)計的硬件,使機器學習算法運行起來更快成本更低。例如:Coral SOM。
  • 隱私:如何才能既通過用戶數(shù)據(jù)來訓練模型,同時又保護用戶隱私?如何才能使流程符合歐盟《通用數(shù)據(jù)保護條例》的要求?例如:PySyft。

下面這張圖里,橫坐標是這些工具設(shè)法解決的主要問題,縱坐標是針對特定問題的工具數(shù)量。

可以看出,很大一塊兒比例集中在數(shù)據(jù)管道方面:數(shù)據(jù)管理、數(shù)據(jù)標記、數(shù)據(jù)庫/查詢、數(shù)據(jù)處理、數(shù)據(jù)生成。這類工具可能志在發(fā)展成一體化平臺。因為數(shù)據(jù)處理是項目中最耗費資源的階段,一旦你讓人們把數(shù)據(jù)放到你的平臺上,你會很想用這些數(shù)據(jù)弄出一些預(yù)訓練模型什么。

而針對建模和訓練方面的工具大多是框架。深度學習框架的競爭現(xiàn)在差不多大局已定,主要是PyTorch和TensorFlow兩個框架,此外還包括基于這兩個框架的更高層次的框架,用于特定任務(wù),比如自然語言處理(NLP)、自然語言理解(NLU)以及多模態(tài)問題?,F(xiàn)在還有可以進行分布式訓練的框架。以及最近谷歌推出的新框架JAX,每個討厭TensorFlow的谷歌黨都對它夸夸不停。

還有一些獨立工具針對實驗追蹤,而流行框架內(nèi)也有自己的實驗跟蹤功能。超參數(shù)調(diào)優(yōu)很重要,所以有好幾個工具就專注于此,但好像沒有哪個被廣泛接受——因為超參數(shù)調(diào)優(yōu)的瓶頸不在設(shè)置上,反而在調(diào)優(yōu)過程中所需算力上。

留待解決的最令人興奮的問題是在部署和服務(wù)方面。缺乏服務(wù)解決方案的原因之一是研究人員和產(chǎn)品工程師之間缺乏溝通。在那些有能力進行AI研究的公司(一般是大公司),研究團隊與部署團隊是分開的,兩個團隊只通過帶有字母“p”各種經(jīng)理溝通:產(chǎn)品經(jīng)理(product managers)、項目經(jīng)理(project managers),以及項目群經(jīng)理(program managers)。小公司的員工可以看到全棧的情況,但受制于迫在眉睫的產(chǎn)品需求,也沒什么時間搞。只有少數(shù)創(chuàng)業(yè)公司設(shè)法填補這個空白,這些公司通常是由有為的研究人員創(chuàng)辦,而且有足夠資金來雇用熟練的工程師,隨時準備在AI工具市場上搶占份額。

開放源碼和開放內(nèi)核

我查看的202種工具中,有109種是開源軟件。即使是不開源的那些,通常也有相伴的開源工具。

開源興盛有若干原因。其中一個原因是所有支持開源的人多年來一直在談?wù)摰模和该鞫?、協(xié)作性、靈活性,而且這似乎成了道德規(guī)范??蛻艨赡懿辉甘褂靡粋€沒法看到源代碼的新工具。否則,一旦這個工具停止運營(初創(chuàng)公司里經(jīng)常發(fā)生),就得悲劇地不得不重寫代碼。

當然,開源軟件并不代表非盈利和免費,其維護非常費時,而且昂貴。據(jù)傳TensorFlow團隊的規(guī)模接近1000人。公司在提供開源工具時必須得考慮其商業(yè)目標,例如,越多人使用他們的開源工具,就有越多人了解他們,信任他們的技術(shù),并因此去購買他們的付費工具或想加入他們的團隊。

比如谷歌就希望推廣它的工具,好讓大家用它的云服務(wù)。英偉達維護著cuDF(以及之前的dask),這樣就能賣出更多GPU。Databricks免費提供MLflow,而同時在出售其數(shù)據(jù)分析平臺。就在最近,Netflix組建了專門的機器學習團隊并發(fā)布了他們的Metaflow框架,此舉使他們進入機器學習領(lǐng)域,得以招攬人才。Explosion免費提供SpaCy,但對Prodigy收費。HuggingFace免費提供transformers,但我還不知道他們怎么賺錢的(哈哈哈,良心企業(yè))。

由于開源軟件已經(jīng)成了一種標準,初創(chuàng)公司要找到一種行之有效的商業(yè)模式還是挺難的。因為任何一家公司創(chuàng)立后都必須與現(xiàn)有開源工具競爭。如果你遵循開放內(nèi)核的商業(yè)模式,那就必須決定哪些功能放在開源版本里,哪些放在付費版本里,而且還不顯得吃相太難看;或者琢磨如何讓免費用戶開始付費。

結(jié)論

一直以來都有很多討論,討論AI泡沫是否會破滅。現(xiàn)今AI投資的很大一部分是在自動駕駛汽車上。由于完全自動駕駛離商業(yè)化還比較遙遠,所以有人猜測投資者會對AI行業(yè)徹底失望。加上現(xiàn)在谷歌已經(jīng)停止了機器學習研究員的招聘,而Uber裁掉了AI團隊一半的研究人員。這兩家公司的決定都是在新冠疫情前做出的。有傳言稱,由于大量的人在上機器學習課,所以這方面的技術(shù)人員將會飽和。

現(xiàn)在還是進入機器學習領(lǐng)域的好時機嗎?我相信對人工智能的炒作確實存在,而且是時候冷靜下來了。但我不認為機器學習領(lǐng)域會消失,雖然有能力做機器學習研究的公司可能會減少,但那些需要各種工具把機器學習整合產(chǎn)業(yè)化的公司還是一直需要的。

如果你必須在工程師和機器學習專家之間選擇的話,那我建議你選擇工程師吧。優(yōu)秀的工程師更容易掌握機器學習知識,但機器學習專家要成為優(yōu)秀的工程師就難多了。如果你成了一名工程師,為機器學習領(lǐng)域開發(fā)出很棒的工具,我也會永遠感激你的!

相關(guān)報道:https://huyenchip.com/2020/06/22/mlops.html

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-09-25 06:32:25

前端

2021-10-25 05:43:40

前端技術(shù)編程

2021-03-09 09:55:02

Vuejs前端代碼

2015-07-20 10:02:57

Java團隊領(lǐng)導(dǎo)人

2021-07-28 07:01:09

薅羊毛架構(gòu)Vue+SSR

2020-11-04 07:13:57

數(shù)據(jù)工程代碼編程

2015-09-06 16:03:57

2016-01-18 10:06:05

編程

2022-03-27 09:06:04

React類型定義前端

2020-10-30 12:40:04

Reac性能優(yōu)化

2020-02-22 15:01:51

后端前端開發(fā)

2020-12-31 10:47:03

開發(fā)Vuejs技術(shù)

2020-07-07 09:22:23

機器狗人工智能系統(tǒng)

2023-10-16 08:55:43

Redisson分布式

2018-09-25 06:33:21

機器學習NLPPython

2020-07-06 15:24:50

技術(shù)人工智能面試

2021-04-15 08:15:27

Vue.js源碼方法

2019-08-27 10:49:30

跳槽那些事兒技術(shù)Linux

2023-12-30 21:02:36

2019-08-16 17:14:28

跳槽那些事兒技術(shù)Linux
點贊
收藏

51CTO技術(shù)棧公眾號