自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我研究了最熱門(mén)的200種AI工具,卻發(fā)現(xiàn)這個(gè)行業(yè)有點(diǎn)飽和

新聞 人工智能
在 LinkedIn 上,很多你申請(qǐng)的機(jī)器學(xué)習(xí)職位都有超過(guò) 200 名競(jìng)爭(zhēng)者。在 AI 工具上人們也有這么多選擇嗎?

 在 LinkedIn 上,很多你申請(qǐng)的機(jī)器學(xué)習(xí)職位都有超過(guò) 200 名競(jìng)爭(zhēng)者。在 AI 工具上人們也有這么多選擇嗎?

為了完整了解機(jī)器學(xué)習(xí)技術(shù)應(yīng)用的現(xiàn)狀,畢業(yè)于斯坦福大學(xué),曾就職于英偉達(dá)的工程師 Chip Huyen 決定評(píng)測(cè)目前市面上所有能找到的 AI / 機(jī)器學(xué)習(xí)工具。

在搜索各類(lèi)深度學(xué)習(xí)全棧工具列表,接受人們的推薦之后,作者篩選出了 202 個(gè)較為熱門(mén)的工具進(jìn)行評(píng)測(cè)。最近,她的統(tǒng)計(jì)結(jié)果讓機(jī)器學(xué)習(xí)社區(qū)感到有些驚訝。

[[334289]]

首先要注意的是:

這一列表是在 2019 年 11 月列出的,最近開(kāi)源社區(qū)可能會(huì)有新工具出現(xiàn)。

有些科技巨頭的工具列表龐大,無(wú)法一一列舉,比如 AWS 就已經(jīng)提供了超過(guò) 165 種機(jī)器學(xué)習(xí)工具。

有些創(chuàng)業(yè)公司已經(jīng)消失,其提出的工具不為人們所知。

作者認(rèn)為泛化機(jī)器學(xué)習(xí)的生產(chǎn)流程包括 4 個(gè)步驟:

項(xiàng)目設(shè)置

數(shù)據(jù) pipeline

建模和訓(xùn)練

服務(wù)

作者依據(jù)所支持的工作步驟將工具進(jìn)行分類(lèi)。項(xiàng)目設(shè)置這一步?jīng)]有算在內(nèi),因?yàn)樗枰?xiàng)目管理工具,而不是機(jī)器學(xué)習(xí)工具。由于一種工具可能不止用于一個(gè)步驟,所以分類(lèi)并不簡(jiǎn)單?!肝覀兺黄屏藬?shù)據(jù)科學(xué)的極限」,「將 AI 項(xiàng)目轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)世界的商務(wù)成果」,「允許數(shù)據(jù)像您呼吸的空氣一樣自由移動(dòng)」,以及作者個(gè)人最喜歡的「我們賴(lài)以生存和呼吸的數(shù)據(jù)科學(xué)」,這些模棱兩可的表述并沒(méi)有讓問(wèn)題變得更簡(jiǎn)單。

工具的時(shí)間演變歷程

作者追溯了每種工具發(fā)布的年份。如果是開(kāi)源項(xiàng)目,則查看首次提交,以查看項(xiàng)目開(kāi)始公開(kāi)的時(shí)間。如果是一家公司,則查看該公司在 Crunchbase 上的創(chuàng)辦年份。然后她繪制了隨著時(shí)間的推移,每個(gè)類(lèi)別中工具數(shù)量的變化曲線(xiàn)。具體如下圖所示:

我研究了最熱門(mén)的200種AI工具,卻發(fā)現(xiàn)這個(gè)行業(yè)有點(diǎn)飽和

不出所料,數(shù)據(jù)表明,隨著 2012 年深度學(xué)習(xí)的復(fù)興,該領(lǐng)域才開(kāi)始呈爆炸式增長(zhǎng)。

AlexNet 之前(2012 年之前)

直到 2011 年,該領(lǐng)域仍然以建模訓(xùn)練工具為主導(dǎo),有些框架(比如 scikit-learn)仍然非常流行,有些則對(duì)當(dāng)前的框架(Theano)產(chǎn)生了影響。2012 年以前開(kāi)發(fā)出來(lái)且至今仍在使用的一些工具要么完成 IPO(如 Cloudera、Datadog 和 Alteryx),要么被收購(gòu)(Figure Eight),要么成為受社區(qū)歡迎并積極開(kāi)發(fā)的開(kāi)源項(xiàng)目(如 Spark、Flink 和 Kafka)。

開(kāi)發(fā)階段(2012-2015)

隨著機(jī)器學(xué)習(xí)社區(qū)采用「let’s throw data at it」的方法,機(jī)器學(xué)習(xí)空間就變成了數(shù)據(jù)空間。當(dāng)調(diào)查每個(gè)類(lèi)別中每年開(kāi)發(fā)出的工具數(shù)量時(shí),這一點(diǎn)更加明顯。2015 年,57%(82 個(gè)工具中有 42 個(gè))的工具都是數(shù)據(jù) pipeline 工具。具體如下圖所示:

我研究了最熱門(mén)的200種AI工具,卻發(fā)現(xiàn)這個(gè)行業(yè)有點(diǎn)飽和

生產(chǎn)階段(2016 年至今)

每個(gè)人都知道越基礎(chǔ)的研究越重要,但大多數(shù)公司都無(wú)法支持研究人員進(jìn)行純技術(shù)方向的探索——除非能夠看到短期商業(yè)利益。隨著機(jī)器學(xué)習(xí)研究、數(shù)據(jù)和已訓(xùn)練模型數(shù)量的增多,開(kāi)發(fā)者和機(jī)構(gòu)的需求增加,市場(chǎng)對(duì)于機(jī)器學(xué)習(xí)工具的需求也有了巨大的增長(zhǎng)。

2016 年,谷歌宣布將神經(jīng)機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到谷歌翻譯中,這是深度學(xué)習(xí)在現(xiàn)實(shí)世界里首次落地的重要標(biāo)志。

這一全景圖仍不完整

AI 創(chuàng)業(yè)公司現(xiàn)在已經(jīng)有很多了,但它們大多數(shù)都面向技術(shù)的落地(提供面向消費(fèi)者的應(yīng)用),而不是提供開(kāi)發(fā)工具(如向其他公司售賣(mài)框架和軟件開(kāi)發(fā)包)。用風(fēng)險(xiǎn)投資的術(shù)語(yǔ)來(lái)說(shuō),大多數(shù)初創(chuàng)公司都是垂直 AI 領(lǐng)域里的。在福布斯 2019 年公布的 50 大 AI 初創(chuàng)公司里,只有 7 家是以機(jī)器學(xué)習(xí)開(kāi)發(fā)工具為主業(yè)的。

對(duì)于大多數(shù)人來(lái)說(shuō),應(yīng)用更為直觀(guān)。你可以走進(jìn)一家公司說(shuō):「我們可以讓你們的一半客服工作實(shí)現(xiàn)自動(dòng)化?!构ぞ邔?shí)現(xiàn)的價(jià)值總是間接的,但又深入整個(gè)生態(tài)系統(tǒng)。在一個(gè)市場(chǎng)中,很多公司都可以提供相同的應(yīng)用,但其背后用到的工具卻只有寥寥幾種。

經(jīng)過(guò)大量搜索和比對(duì),在這里作者只列出了 200 余個(gè) AI 工具,相對(duì)于傳統(tǒng)計(jì)算機(jī)軟件工程來(lái)說(shuō)這個(gè)數(shù)字很小。如果你想評(píng)測(cè)傳統(tǒng)的 Python 應(yīng)用開(kāi)發(fā),你可以用谷歌幾分鐘內(nèi)找出至少 20 個(gè)工具,但如果你想試試機(jī)器學(xué)習(xí)模型,事情就完全不一樣了。

機(jī)器學(xué)習(xí)工具面臨的問(wèn)題

很多傳統(tǒng)的軟件工具都可以用于開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用。但是在機(jī)器學(xué)習(xí)應(yīng)用中,也有很多挑戰(zhàn)是獨(dú)有的,需要特殊的工具。

在傳統(tǒng)軟件開(kāi)發(fā)流程中,寫(xiě)代碼是最難的一步,但在機(jī)器學(xué)習(xí)工作中,寫(xiě)代碼只是整個(gè)流程中耗費(fèi)精力較小的一部分。開(kāi)發(fā)一個(gè)可以帶來(lái)很大性能提升,并且在現(xiàn)實(shí)世界中可以落地的新模型非常耗費(fèi)時(shí)間和資金。大多數(shù)公司都會(huì)選擇不去開(kāi)發(fā)新模型,而是直接拿來(lái)就用。

對(duì)于機(jī)器學(xué)習(xí)來(lái)說(shuō),使用最多 / 最好數(shù)據(jù)的應(yīng)用總會(huì)獲勝。所以與其專(zhuān)注于提升深度學(xué)習(xí)算法,大多數(shù)公司都會(huì)花費(fèi)大量時(shí)間提升數(shù)據(jù)的質(zhì)量。因?yàn)閿?shù)據(jù)的變化總是很快,機(jī)器學(xué)習(xí)應(yīng)用也需要快速的開(kāi)發(fā)和部署。在很多例子中,你甚至需要每天都部署新的模型。

此外,ML 算法的規(guī)模也是一個(gè)問(wèn)題。預(yù)訓(xùn)練的大規(guī)模 BERT 模型具有 3.4 億參數(shù),大小為 1.35GB。即使 BERT 模型可以擬合手機(jī)等消費(fèi)類(lèi)設(shè)備,但在新樣本上運(yùn)行推理所耗費(fèi)的大量時(shí)間就使其對(duì)于現(xiàn)實(shí)世界的眾多應(yīng)用毫無(wú)用處。

試想,如果自動(dòng)補(bǔ)全模型提示下一個(gè)字符所花費(fèi)的時(shí)間比用戶(hù)自己鍵入的時(shí)間還要長(zhǎng),那么有什么必要用這個(gè)模型呢?

Git 通過(guò)逐行的差異比較實(shí)現(xiàn)了版本控制,因而對(duì)大多數(shù)傳統(tǒng)軟件工程程序的效果很好。但是,Git 并不適用于數(shù)據(jù)庫(kù)或者模型檢查點(diǎn)的版本控制。Panda 對(duì)大多數(shù)傳統(tǒng)數(shù)據(jù)框操作的效果很好,但在 GPU 上不起作用。

CSV 等基于行的數(shù)據(jù)格式對(duì)于使用較少數(shù)據(jù)的應(yīng)用有很好的效果。但是,如果你的樣本具有很多特征,并且你只想利用其中的一個(gè)子特征,則使用基于行的數(shù)據(jù)格式依然需要你加載所有的特征。PARQUET 和 OCR 等柱狀文件格式針對(duì)這種用例進(jìn)行了優(yōu)化。

ML 應(yīng)用面臨的一些問(wèn)題如下所示:

監(jiān)測(cè):怎么知道你的數(shù)據(jù)分布已經(jīng)改變以及需要重新訓(xùn)練模型?

數(shù)據(jù)標(biāo)注:如何快速地標(biāo)注新數(shù)據(jù),或者為新模型重新標(biāo)注現(xiàn)有數(shù)據(jù)?

CI/CD 測(cè)試:由于你不能花幾天的時(shí)間等著模型訓(xùn)練和收斂,所以如何運(yùn)行測(cè)試以確保每次改變后模型像期望地那樣運(yùn)行?

部署:如何封裝和部署新模型或者替換現(xiàn)有模型?

模型壓縮:如何壓縮 ML 模型使其擬合消費(fèi)類(lèi)設(shè)備?

推理優(yōu)化:如果加速模型的推理時(shí)間?是否可以將所有操作融合在一起?是否可以采用更低精度?縮小模型或許可以加速推理過(guò)程。

邊緣設(shè)備:硬件運(yùn)行 ML 算法速度快且成本低。

隱私:如何在保護(hù)隱私的同時(shí)利用用戶(hù)數(shù)據(jù)來(lái)訓(xùn)練模型?如何使流程符合《通用數(shù)據(jù)保護(hù)條例》(GDPR)?

在下圖中,作者根據(jù)開(kāi)發(fā)工具能夠解決的主要問(wèn)題列出了它們的數(shù)量:

我研究了最熱門(mén)的200種AI工具,卻發(fā)現(xiàn)這個(gè)行業(yè)有點(diǎn)飽和

一大部分集中在數(shù)據(jù) pipeline,包括數(shù)據(jù)管理、貼標(biāo)簽、數(shù)據(jù)庫(kù) / 查詢(xún)、數(shù)據(jù)處理和數(shù)據(jù)生成。數(shù)據(jù) pipeline 工具可能也想成為一體化平臺(tái)(all-in-one platform)。由于數(shù)據(jù)處理是項(xiàng)目中最耗費(fèi)資源的階段,一旦有人在你的平臺(tái)上放置他們的數(shù)據(jù),那就很有可能給他們提供預(yù)構(gòu)建或預(yù)訓(xùn)練的模型。

建模和訓(xùn)練工具大多是框架。當(dāng)前深度學(xué)習(xí)框架之爭(zhēng)有所平靜,主要集中在 PyTorch 和 TensorFlow 這兩者之間,以及基于這兩者解決 NLP、NLU 和多模態(tài)問(wèn)題等特定任務(wù)的更高級(jí)的框架。分布式訓(xùn)練領(lǐng)域也有一些框架。還有一個(gè)出自谷歌的新框架 JAX,每個(gè)討厭 TensorFlow 的谷歌員工都力捧這個(gè)框架。

存在一些用于實(shí)驗(yàn)追蹤的獨(dú)立工具,一些流行深度學(xué)習(xí)框架還有內(nèi)置的實(shí)驗(yàn)追蹤功能。超參數(shù)調(diào)整很重要,所以出現(xiàn)專(zhuān)門(mén)用于超參數(shù)調(diào)整的工具并不奇怪,但是它們似乎沒(méi)有一個(gè)流行起來(lái)。因?yàn)槌瑓?shù)調(diào)整的瓶頸不是設(shè)置,而是運(yùn)行它所需的算力。

尚未解決但最令人興奮的問(wèn)題在部署和服務(wù)空間中。缺少服務(wù)方法的原因之一是研究人員與生產(chǎn)工程師之間缺乏溝通。在有能力進(jìn)行人工智能研究的公司(常常是大公司),研究團(tuán)隊(duì)與部署團(tuán)隊(duì)是分開(kāi)工作的,兩個(gè)團(tuán)隊(duì)僅通過(guò) P 打頭的經(jīng)理:產(chǎn)品經(jīng)理、程序經(jīng)理、項(xiàng)目經(jīng)理互相交流進(jìn)行溝通。而員工可以看到整個(gè)堆棧的小公司就會(huì)受到即時(shí)產(chǎn)品需求的限制。

只有少數(shù)幾家初創(chuàng)公司能夠縮小差距,這些公司通常是由已有成就的研究人員創(chuàng)建,并且有足夠的資金雇傭優(yōu)秀的工程師。而這樣的初創(chuàng)公司將會(huì)占據(jù)人工智能工具市場(chǎng)很大一部分。

開(kāi)源和開(kāi)放內(nèi)核(open-core)

作者選擇的 202 種工具中有 109 種是開(kāi)源軟件(Open Source Software, OSS),并且沒(méi)有開(kāi)源的工具也常常與其他開(kāi)源工具綁在一起。

開(kāi)源軟件的出現(xiàn)和發(fā)展由多種原因促成,以下是所有開(kāi)源軟件支持者談?wù)摂?shù)年的一些原因,包括透明度、協(xié)作、靈活性以及合乎倫理道德。客戶(hù)可能不希望使用無(wú)法獲取源代碼的新工具。否則,如果不開(kāi)放源代碼的工具無(wú)法使用,則必須重寫(xiě)代碼。這是初創(chuàng)公司經(jīng)常出現(xiàn)的狀況。

開(kāi)源軟件并不意味著非盈利和免費(fèi),開(kāi)發(fā)者有其更深遠(yuǎn)的目的。需要看到,開(kāi)源軟件的維護(hù)耗時(shí)且花費(fèi)不菲。傳聞 TensorFlow 團(tuán)隊(duì)的成員數(shù)接近 1000 人。一家企業(yè)提供開(kāi)源軟件肯定有其商業(yè)目的,舉例而言,越來(lái)越多的人使用某家公司的開(kāi)源軟件,那么該公司的名頭就會(huì)越來(lái)越響,人們也就更加信任這家公司的專(zhuān)業(yè)技術(shù),最終可能會(huì)購(gòu)買(mǎi)他們的專(zhuān)有工具,甚至加入他們的團(tuán)隊(duì)。

這樣的例子比比皆是。谷歌不遺余力地推廣他們的工具,其目的是想用戶(hù)使用其云服務(wù)。英偉達(dá)維護(hù) cuDF,旨在售賣(mài)更多的 GPU。Databricks 免費(fèi)提供 MLflow,但也售賣(mài)他們的數(shù)據(jù)分析平臺(tái)。

此外,網(wǎng)飛公司最近成立了專(zhuān)門(mén)的機(jī)器學(xué)習(xí)團(tuán)隊(duì),并推出了自己的 Metaflow 框架,從而也加入到了機(jī)器學(xué)習(xí)(ML)的發(fā)展大潮中,以吸引人才。Explosion 免費(fèi)提供 SpaCy,但同時(shí)對(duì) Prodigy 收費(fèi)。HuggingFace 是一個(gè)特例,它免費(fèi)提供 transformer,但不清楚究竟如何盈利。

隨著軟件開(kāi)源成為一種標(biāo)準(zhǔn),初創(chuàng)公司找到一種行之有效的商業(yè)模式變得很困難。任何剛起步的工具類(lèi)公司都必須與現(xiàn)有開(kāi)源工具競(jìng)爭(zhēng)。所以,如果初創(chuàng)公司選擇開(kāi)源內(nèi)核的商業(yè)模式,則必須決定開(kāi)源軟件中涵蓋哪些功能,付費(fèi)版本中包含哪些內(nèi)容才不顯得貪得無(wú)厭,以及如何讓免費(fèi)使用工具的用戶(hù)開(kāi)始付費(fèi)。

未來(lái)展望

關(guān)于 AI 泡沫是否破裂的討論此起彼伏。很大一部分的 AI 投資流向了自動(dòng)駕駛汽車(chē),但我們已了解完全自動(dòng)駕駛的車(chē)輛離落地應(yīng)用還有很長(zhǎng)的路要走,一些人猜測(cè)投資者將會(huì)對(duì) AI 完全喪失信心。

谷歌暫停了 ML 研究人員的招聘,優(yōu)步也解雇了 AI 團(tuán)隊(duì)中一半的研究人員。這些決策都是在新冠肺炎爆發(fā)之前做出的。此外,有傳言稱(chēng),由于選擇攻讀機(jī)器學(xué)習(xí)的人數(shù)太多了,市場(chǎng)上 ML 的工作需求卻遠(yuǎn)遠(yuǎn)少于掌握 ML 技術(shù)的人才。

那么問(wèn)題來(lái)了,現(xiàn)在進(jìn)入 ML 領(lǐng)域還是好時(shí)機(jī)嗎?不可否認(rèn),AI 炒作確實(shí)存在,在某種程度上,這種熱度需要「降溫」。這一點(diǎn)可能已經(jīng)發(fā)生了。然而,作者并不認(rèn)為 ML 會(huì)消失??赡茉絹?lái)越少的企業(yè)能夠支撐得起 ML 研究,但依然會(huì)有企業(yè)需要工具將它們的 ML 付諸生產(chǎn)。

由此,如果必須在工程和 ML 兩者之間選擇,作者建議選擇工程。優(yōu)秀的工程師學(xué)習(xí) ML 知識(shí)更加容易,但 ML 專(zhuān)家想要成為優(yōu)秀的工程師就比較困難了。如果可以成為一位能夠構(gòu)建優(yōu)秀 ML 工具的工程師,那真是再好不過(guò)了!

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2020-12-09 06:17:40

編程語(yǔ)言開(kāi)發(fā)數(shù)據(jù)科學(xué)

2010-07-16 16:45:56

職場(chǎng)培訓(xùn)

2024-08-09 16:30:08

2021-04-11 07:48:42

定時(shí)任務(wù)Linux jdk

2024-12-09 14:01:00

2023-02-13 22:41:24

RedisMQRocketMQ

2013-09-16 11:04:23

大數(shù)據(jù)大數(shù)據(jù)發(fā)展

2017-11-28 16:57:18

2013-09-17 10:04:36

大數(shù)據(jù)西大荒

2024-08-26 09:36:06

2021-03-09 08:00:13

設(shè)計(jì)秒殺TPS

2021-12-17 11:10:05

Chrome開(kāi)發(fā)工具

2024-09-02 14:40:49

2023-12-06 09:17:50

2017-12-07 11:27:30

編程開(kāi)發(fā)代碼

2013-12-25 10:27:13

IT認(rèn)證

2023-12-28 10:15:38

2021-05-26 09:35:22

Github開(kāi)源項(xiàng)目

2017-09-06 08:41:47

2013-12-16 15:56:15

網(wǎng)絡(luò)技術(shù)SDNBYOD
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)