自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="lrher"><p id="lrher"></p></sub>

<center id="lrher"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

遍覽200多個機器學習工具后，我學到了啥

作者：大數(shù)據(jù)文摘 2020-07-07 08:52:16

人工智能機器學習

這篇文章中，Chip小哥統(tǒng)計了兩百多個機器學習相關(guān)工具，并且對整個該領(lǐng)域的發(fā)展和現(xiàn)狀進行了回顧，同時列出機器學習開發(fā)的難點特別是和傳統(tǒng)軟件開發(fā)的不同點，最后還特意討論了開源對該領(lǐng)域的影響。

大數(shù)據(jù)文摘出品

來源：huyenchip

編譯：Fisher、Andy

因為機器學習研究的放緩，以及大家對產(chǎn)業(yè)化的需求。近來大家對MLOps的關(guān)注越來越高，特別是其中涉及到的各種各樣的工具。

在這篇文章中，Chip小哥統(tǒng)計了兩百多個機器學習相關(guān)工具，并且對整個該領(lǐng)域的發(fā)展和現(xiàn)狀進行了回顧，同時列出機器學習開發(fā)的難點特別是和傳統(tǒng)軟件開發(fā)的不同點，最后還特意討論了開源對該領(lǐng)域的影響。

最近，為了更好地了解機器學習領(lǐng)域工具的整體情況，我決定徹底調(diào)查每個能找到的人工智能/機器學習工具。整個過程中參考的資源包括：

Full Stack Deep Learning
LF AI Foundation landscape
AI Data Landscape
各媒體評選出的AI創(chuàng)業(yè)公司榜單
推特和領(lǐng)英上收到的帖子回復(fù)
別人分享給我的工具列表(包括朋友、陌生人、風險投資人)

在篩掉只有應(yīng)用程序的公司(如用機器學習提供商業(yè)分析的公司)、未處于積極開發(fā)中的工具，以及沒人用的工具后，最后剩下202個工具。

完整列表如下：

https://docs.google.com/spreadsheets/d/1OV0cMh2lmXMU9bK8qv1Kk0oWdc_Odmu2K5sOULS9hHQ/edit?usp=sharing

如果有工具你覺得應(yīng)該列入但未被列入，請務(wù)必在留言區(qū)補充!

免責聲明：

這個工具列表創(chuàng)建于19年11月，現(xiàn)在情況肯定不同了;
有些科技公司提供的一套工具數(shù)量太多，難以一一列舉，如Amazon Web Services提供超過165項功能齊全的服務(wù);
有很多不知名的創(chuàng)業(yè)公司，我可能并不知道，甚至還有些都還沒聽說就倒閉了。

概述

我認為可以將機器學習生產(chǎn)流程歸納成4個主要步驟：

項目創(chuàng)建
數(shù)據(jù)管道
建模和訓練
上線服務(wù)

基于某個工具是服務(wù)于上述流程中哪個，我對工具進行了分類。我沒將項目創(chuàng)建部分包含進來，因為這一步需要的是項目管理工具，而不是機器學習工具。分類有時候并非簡單粗暴的，因為有些工具可能涉及多個步驟。而且這些工具模棱兩可的描述也讓人頭大：什么“我們突破了數(shù)據(jù)科學的極限”，“將AI項目轉(zhuǎn)化為現(xiàn)實世界的商業(yè)成果”，"讓數(shù)據(jù)像空氣一般自由流動"，還有我個人最pick的一句：“我們生活于數(shù)據(jù)科學之上，呼吸于數(shù)據(jù)科學之中”。

對于涵蓋了流程中多個步驟的工具，我按照其最為人所知的功能來分類。有些工具多個分類的功能都為大家所熟悉，我就把它們都放在“一體化”(All-in-one)類中。我還增加了“基礎(chǔ)設(shè)施”(Infrastructure)這一類，來納入那些提供基礎(chǔ)設(shè)施來訓練和存儲模型的公司，它們大部分都是“云”提供者。

整體發(fā)展歷程

對此，我記錄了每個工具推出的年份。對于開源項目，我通過查看首次提交時間來確定項目是何時公開的。對于公司，我在Crunchbase網(wǎng)站上查找它的創(chuàng)立年份。然后我繪制了各個類別工具數(shù)目隨時間的變化圖。

隨年份累加的工具數(shù)目圖：左上角圖例依次為一體化、數(shù)據(jù)管道、基礎(chǔ)設(shè)施、建模和訓練、提供服務(wù)。

正如所料，數(shù)據(jù)顯示該領(lǐng)域從12年才開始急速發(fā)展，正好伴隨著人們對深度學習的重新關(guān)注開始。

前AlexNet時期(12年之前)

直到11年，該領(lǐng)域都是以建模和訓練工具為主。一些框架現(xiàn)在還很流行(如scikit-learn)，或影響了現(xiàn)在的框架(如Theano)。在12年之前創(chuàng)立并存活至今的工具，有的已上市(Cloudera、Datadog、Alteryx)，有的被收購(Figure Eight)，有的成為了圈內(nèi)非常熱門的開源項目(Spark、Flink、Kafka)。

發(fā)展時期(2012年到2015年)

隨著機器學習圈開始了"使勁喂數(shù)據(jù)"玩法后，機器學習已經(jīng)變成了數(shù)據(jù)主導(dǎo)的領(lǐng)域?？疵磕晖瞥龅母鱾€類別工具數(shù)時，這點尤其明顯。15年，57%(82個中的47個)是數(shù)據(jù)管道工具。

每年推出的各個類別的工具數(shù)。左上角圖例依次為一體化、提供服務(wù)、基礎(chǔ)設(shè)施、數(shù)據(jù)管道、建模和訓練。

產(chǎn)業(yè)化時期(2016年至今)

雖然純研究很重要，但大多數(shù)公司都負擔不起成本，除非研究能在短期就帶來商業(yè)應(yīng)用。隨著機器學習的研究、數(shù)據(jù)和現(xiàn)成模型越來越易得，有更多的人和組織會想要直接找應(yīng)用場景，這就增加了對機器學習產(chǎn)業(yè)化工具的需求。

在16年，谷歌宣布用神經(jīng)機器翻譯來改進谷歌翻譯服務(wù)，這是深度學習在現(xiàn)實中的首批重要應(yīng)用中一個。此后，大家開發(fā)了各種工具來幫助機器學習類應(yīng)用部署上線。

整體發(fā)展現(xiàn)狀

盡管AI領(lǐng)域初創(chuàng)公司很多，但大多數(shù)是應(yīng)用型的(提供商業(yè)分析或客戶支持等應(yīng)用)，而不是工具型的(打造工具來幫助其他公司開發(fā)應(yīng)用)?；蛘哂蔑L投的行話來講，大多數(shù)創(chuàng)業(yè)公司都是垂直細分AI(Vertical AI)。在19年的福布斯“50家AI創(chuàng)業(yè)公司”榜單中，只有7家是工具型公司。

應(yīng)用類更好銷售，因為你可以直接去一家公司推銷說：“我們可以讓你們一半的客戶支持業(yè)務(wù)自動化”。相比起來，雖然工具類要更長時間來銷售，但會產(chǎn)生更大影響，因為你不是關(guān)注單獨孤立的應(yīng)用程序，而是關(guān)注整個生態(tài)的一部分。對于某一類應(yīng)用，可以有多家供應(yīng)商共存;但對于生態(tài)的一環(huán)，通常只有少數(shù)工具能存活下來。

這次，經(jīng)過大量搜索后，我也只找到大約200個AI工具，和傳統(tǒng)軟件工程的工具數(shù)量相比還很少。比如，如果你想對傳統(tǒng)的Python應(yīng)用做測試，2分鐘之內(nèi)就能在谷歌上搜到至少20種工具。而如果你想對機器學習模型做測試，那一個可能也搜不到。

機器學習開發(fā)所面臨的問題

許多傳統(tǒng)的軟件工程工具都能用來開發(fā)或部署機器學習應(yīng)用。但也有很多問題是機器學習應(yīng)用特有的，所以也需要專門的工具。

在傳統(tǒng)的軟件工程中，寫代碼部分是難點。但在機器學習中，寫代碼只是整體的一小部分。開發(fā)一個新模型，而且對實際任務(wù)提供顯著提升，這不光難，成本也很高。所以大部分公司不會專注于開發(fā)模型，而是用現(xiàn)成模型，例如 “BERT大法解決一切”。

對于機器學習，一般有最多/最好數(shù)據(jù)的應(yīng)用就是最好的。因此，大多數(shù)公司并不太專注于改進深度學習算法，而是專注于改善數(shù)據(jù)質(zhì)量。由于數(shù)據(jù)可能會快速變化，所以機器學習應(yīng)用也要求更快的開發(fā)和部署周期。在很多時候，你可能得每晚都部署一個新模型。

模型的大小也是一個問題。經(jīng)過預(yù)訓練的大型 BERT 模型有340M個參數(shù)，占1.35GB空間。就算能裝在移動終端比如手機上，因為其推斷要花的時間太長，所以對很多應(yīng)用場景也是沒意義的。比如，如果輸入法提示下一個字符所花時間比你直接輸入還要長，那相應(yīng)的自動補全模型也就沒意義了。

Git通過逐行比較來進行版本管理，這對大多數(shù)傳統(tǒng)程序很有效。但它不適用于對數(shù)據(jù)集或模型做版本管理。對于大多數(shù)傳統(tǒng)數(shù)據(jù)框架的操作，Pandas就很好了，但它卻不能在GPU上跑。

基于行的數(shù)據(jù)格式(比如CSV)對于使用較少數(shù)據(jù)的應(yīng)用效果很好。但如果你的樣本包含許多特征，而你只想用其中一個子集，那么基于行的數(shù)據(jù)格式仍需要先載入所有特征才行。像PARQUET和OCR這樣的列式文件格式對處理這種情況進行了優(yōu)化。

機器學習應(yīng)用開發(fā)所面臨的一些問題：

監(jiān)測：如何得知你的數(shù)據(jù)分布發(fā)生了變化，然后重新訓練模型?例如：Dessa，由AlexNet的Alex Krizhevsky支持，于20年2月被Square收購。
數(shù)據(jù)標記：如何快速標記新數(shù)據(jù)或針對新模型重新標記現(xiàn)有數(shù)據(jù)?例如：Snorkel
CI/CD測試：如何運行測試來確保模型在改動后仍能發(fā)揮預(yù)期作用?你不能每次都花幾天時間重新訓練直到收斂。例如：Argo。
部署：如何打包和部署一個新模型或替換掉一個現(xiàn)有模型?例如：OctoML。
模型壓縮：如何壓縮模型來適應(yīng)終端設(shè)備?例如：Xnor.ai是從Allen Institute分拆出來的一家創(chuàng)業(yè)公司，專注模型壓縮。2018年5月，該公司以6200萬美元的估值得到1460萬美元融資。2020年1月，蘋果花了約2億美元收購了它，并關(guān)掉了它的網(wǎng)站。
推斷優(yōu)化：如何加快模型的推斷時間?通過合并若干操作?通過降低模型精度?模型更小會讓推斷速度更快。例如：TensorRT。
邊緣設(shè)備：專門設(shè)計的硬件，使機器學習算法運行起來更快成本更低。例如：Coral SOM。
隱私：如何才能既通過用戶數(shù)據(jù)來訓練模型，同時又保護用戶隱私?如何才能使流程符合歐盟《通用數(shù)據(jù)保護條例》的要求?例如：PySyft。

下面這張圖里，橫坐標是這些工具設(shè)法解決的主要問題，縱坐標是針對特定問題的工具數(shù)量。

可以看出，很大一塊兒比例集中在數(shù)據(jù)管道方面：數(shù)據(jù)管理、數(shù)據(jù)標記、數(shù)據(jù)庫/查詢、數(shù)據(jù)處理、數(shù)據(jù)生成。這類工具可能志在發(fā)展成一體化平臺。因為數(shù)據(jù)處理是項目中最耗費資源的階段，一旦你讓人們把數(shù)據(jù)放到你的平臺上，你會很想用這些數(shù)據(jù)弄出一些預(yù)訓練模型什么。

而針對建模和訓練方面的工具大多是框架。深度學習框架的競爭現(xiàn)在差不多大局已定，主要是PyTorch和TensorFlow兩個框架，此外還包括基于這兩個框架的更高層次的框架，用于特定任務(wù)，比如自然語言處理(NLP)、自然語言理解(NLU)以及多模態(tài)問題?，F(xiàn)在還有可以進行分布式訓練的框架。以及最近谷歌推出的新框架JAX，每個討厭TensorFlow的谷歌黨都對它夸夸不停。

還有一些獨立工具針對實驗追蹤，而流行框架內(nèi)也有自己的實驗跟蹤功能。超參數(shù)調(diào)優(yōu)很重要，所以有好幾個工具就專注于此，但好像沒有哪個被廣泛接受——因為超參數(shù)調(diào)優(yōu)的瓶頸不在設(shè)置上，反而在調(diào)優(yōu)過程中所需算力上。

留待解決的最令人興奮的問題是在部署和服務(wù)方面。缺乏服務(wù)解決方案的原因之一是研究人員和產(chǎn)品工程師之間缺乏溝通。在那些有能力進行AI研究的公司(一般是大公司)，研究團隊與部署團隊是分開的，兩個團隊只通過帶有字母“p”各種經(jīng)理溝通：產(chǎn)品經(jīng)理(product managers)、項目經(jīng)理(project managers)，以及項目群經(jīng)理(program managers)。小公司的員工可以看到全棧的情況，但受制于迫在眉睫的產(chǎn)品需求，也沒什么時間搞。只有少數(shù)創(chuàng)業(yè)公司設(shè)法填補這個空白，這些公司通常是由有為的研究人員創(chuàng)辦，而且有足夠資金來雇用熟練的工程師，隨時準備在AI工具市場上搶占份額。

開放源碼和開放內(nèi)核

我查看的202種工具中，有109種是開源軟件。即使是不開源的那些，通常也有相伴的開源工具。

開源興盛有若干原因。其中一個原因是所有支持開源的人多年來一直在談?wù)摰模和该鞫?、協(xié)作性、靈活性，而且這似乎成了道德規(guī)范?？蛻艨赡懿辉甘褂靡粋€沒法看到源代碼的新工具。否則，一旦這個工具停止運營(初創(chuàng)公司里經(jīng)常發(fā)生)，就得悲劇地不得不重寫代碼。

當然，開源軟件并不代表非盈利和免費，其維護非常費時，而且昂貴。據(jù)傳TensorFlow團隊的規(guī)模接近1000人。公司在提供開源工具時必須得考慮其商業(yè)目標，例如，越多人使用他們的開源工具，就有越多人了解他們，信任他們的技術(shù)，并因此去購買他們的付費工具或想加入他們的團隊。

比如谷歌就希望推廣它的工具，好讓大家用它的云服務(wù)。英偉達維護著cuDF(以及之前的dask)，這樣就能賣出更多GPU。Databricks免費提供MLflow，而同時在出售其數(shù)據(jù)分析平臺。就在最近，Netflix組建了專門的機器學習團隊并發(fā)布了他們的Metaflow框架，此舉使他們進入機器學習領(lǐng)域，得以招攬人才。Explosion免費提供SpaCy，但對Prodigy收費。HuggingFace免費提供transformers，但我還不知道他們怎么賺錢的(哈哈哈，良心企業(yè))。

由于開源軟件已經(jīng)成了一種標準，初創(chuàng)公司要找到一種行之有效的商業(yè)模式還是挺難的。因為任何一家公司創(chuàng)立后都必須與現(xiàn)有開源工具競爭。如果你遵循開放內(nèi)核的商業(yè)模式，那就必須決定哪些功能放在開源版本里，哪些放在付費版本里，而且還不顯得吃相太難看;或者琢磨如何讓免費用戶開始付費。

結(jié)論

一直以來都有很多討論，討論AI泡沫是否會破滅。現(xiàn)今AI投資的很大一部分是在自動駕駛汽車上。由于完全自動駕駛離商業(yè)化還比較遙遠，所以有人猜測投資者會對AI行業(yè)徹底失望。加上現(xiàn)在谷歌已經(jīng)停止了機器學習研究員的招聘，而Uber裁掉了AI團隊一半的研究人員。這兩家公司的決定都是在新冠疫情前做出的。有傳言稱，由于大量的人在上機器學習課，所以這方面的技術(shù)人員將會飽和。

現(xiàn)在還是進入機器學習領(lǐng)域的好時機嗎?我相信對人工智能的炒作確實存在，而且是時候冷靜下來了。但我不認為機器學習領(lǐng)域會消失，雖然有能力做機器學習研究的公司可能會減少，但那些需要各種工具把機器學習整合產(chǎn)業(yè)化的公司還是一直需要的。

如果你必須在工程師和機器學習專家之間選擇的話，那我建議你選擇工程師吧。優(yōu)秀的工程師更容易掌握機器學習知識，但機器學習專家要成為優(yōu)秀的工程師就難多了。如果你成了一名工程師，為機器學習領(lǐng)域開發(fā)出很棒的工具，我也會永遠感激你的!

相關(guān)報道：https://huyenchip.com/2020/06/22/mlops.html

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文，微信公眾號“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

機器學習機器學習工具人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營