企業(yè)中的機器學(xué)習(xí):下一個萬億級的增長從哪來?
在“哈利.波特”的世界中,分院帽是一種算法,可以獲得學(xué)生的行為歷史、喜好和性格等方面的數(shù)據(jù),然后據(jù)此作出決定,確定學(xué)生應(yīng)該進入霍格沃茨學(xué)校里的哪一個分院。如果現(xiàn)實世界里存在這樣的分院帽的話,它應(yīng)該會是機器學(xué)習(xí)應(yīng)用程序,可以根據(jù)復(fù)雜的數(shù)據(jù)集自主地做出決策。如今,機器學(xué)習(xí)正在推動數(shù)萬億規(guī)模的全球產(chǎn)業(yè),例如醫(yī)療保健、安全和農(nóng)業(yè)等。
如果機器學(xué)習(xí)有望創(chuàng)造可觀的價值,那么問題來了:這些價值將在哪里產(chǎn)生呢?在本文中,筆者將介紹三種類型的公司創(chuàng)造并獲取價值的方式:應(yīng)用機器學(xué)習(xí)的傳統(tǒng)公司、構(gòu)建無行業(yè)屬性機器學(xué)習(xí)工具的公司以及構(gòu)建垂直集成機器學(xué)習(xí)應(yīng)用的公司。
機器學(xué)習(xí)不僅僅是科技巨頭的游戲
臉書、亞馬遜、蘋果、網(wǎng)飛和谷歌在機器學(xué)習(xí)方面的創(chuàng)新廣為人知,從新聞推送到推薦引擎不一而足,但是絕大部分人還沒有意識到傳統(tǒng)行業(yè)對機器學(xué)習(xí)的需求正在日益增長。預(yù)計到2023年,全球人工智能系統(tǒng)支出將達到980億美元,比2019年支出規(guī)模的2.5倍還要多,其中金融服務(wù),零售和汽車領(lǐng)域處于領(lǐng)先地位。
比如,掌管了超過7萬億美元資產(chǎn)的投資管理公司黑石(Blackrock)在2018年推出了幾款機器學(xué)習(xí)支撐的ETF產(chǎn)品。而目前,機器學(xué)習(xí)也已經(jīng)在醫(yī)療保健行業(yè)引發(fā)了廣泛的關(guān)注,涉及醫(yī)療影像、診斷和藥物發(fā)現(xiàn)的機器學(xué)習(xí)解決方案的預(yù)算有望在未來三年內(nèi)達到100億美元的規(guī)模。
在這些企業(yè)客戶中,出現(xiàn)了三個廣泛的客戶群:軟件工程師、數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師,業(yè)務(wù)分析師有時也被稱為“公民數(shù)據(jù)科學(xué)家”。盡管業(yè)務(wù)分析師受過的技術(shù)培訓(xùn)水平較低,但是他們構(gòu)成了一個龐大并且不斷增長的用戶群體,這個群體正在應(yīng)用機器學(xué)習(xí)幫助他們的企業(yè)利用自身不斷增長的數(shù)據(jù)存儲庫。
機器學(xué)習(xí)工具已經(jīng)滲透進入各行各業(yè)
為了適應(yīng)這些客戶群體,希望在這輪淘金熱中賣鎬的公司數(shù)量不斷激增。曾經(jīng)在特斯拉和Snap擔(dān)任過工程副總裁的Stuart Bowers表示:“挑戰(zhàn)并不在于讓機器學(xué)習(xí)變得透明,而是讓痛苦的部分(例如日志記錄、數(shù)據(jù)管理、部署和可再現(xiàn)性)變得容易,然后讓模型訓(xùn)練變得高效并且可調(diào)試。”
作為銷售更多基礎(chǔ)架構(gòu)服務(wù)策略的一部分,現(xiàn)存的供應(yīng)商——特別是那些公有云供應(yīng)商已經(jīng)采用了“端到端平臺”的方式。舉例來說,AWS的機器學(xué)習(xí)平臺Sagemaker最初是面向?qū)<议_發(fā)人員和數(shù)據(jù)科學(xué)家的,它最近推出了Sagemaker Studio,以將受眾群體擴大到技術(shù)背景較弱的用戶。對于像AWS這樣的技術(shù)巨頭來說,銷售機器學(xué)習(xí)工具是一種推動其客戶增加基礎(chǔ)設(shè)施支出的方式,這意味著他們有能力以很低的成本提供這些工具。
獨角獸們還經(jīng)常會和云服務(wù)供應(yīng)商合作創(chuàng)造價值。比如,Databricks就是一個機器學(xué)習(xí)平臺,以強大的數(shù)據(jù)工程功能聞名,平臺建立在Apache Spark的基礎(chǔ)之上。該公司成立于2013年,如今價值62億美元。DataBricks和微軟之間的合作伙伴關(guān)系讓微軟的Azure能夠處理更多的數(shù)據(jù)和計算,同時也極大地幫助DataBricks拓展了市場。
然而,企業(yè)從業(yè)人員們開始要求“同類最佳”解決方案,而不是那些意在吸引他們購買更多基礎(chǔ)架構(gòu)的工具。為了解決這個問題,下一代的創(chuàng)業(yè)企業(yè)將會追求更具針對性的方法。和當(dāng)前各大現(xiàn)有平臺廣泛采用的模式相反,初創(chuàng)企業(yè)可以選擇特定問題并開發(fā)專用工具,這樣可以更有效地解決這些問題。在機器學(xué)習(xí)工具領(lǐng)域,現(xiàn)在存在著三大問題對用戶構(gòu)成了重大挑戰(zhàn)。
- 數(shù)據(jù)集管理
雖然機器學(xué)習(xí)的結(jié)果可能看起來很優(yōu)雅,但實際上,從業(yè)人員要將大部分的時間花在數(shù)據(jù)清理、整理和轉(zhuǎn)換工作上。因為數(shù)據(jù)越來越多地以各種不同的格式分散在多臺機器和云之中,因此將數(shù)據(jù)變成同一種可消費的格式,讓團隊能夠輕松使用并且將其用于協(xié)作是非常困難的一件事。
為了解決這個問題,Tecton的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Mike Del Balso正在通過他新的創(chuàng)業(yè)公司使他在Uber倡導(dǎo)的最佳實踐民主化。他表示:“被破壞的數(shù)據(jù)是導(dǎo)致生產(chǎn)機器學(xué)習(xí)系統(tǒng)出現(xiàn)問題的最常見原因。建模人員將大部分時間都花在訓(xùn)練時選擇和轉(zhuǎn)換功能,然后建立管道,將這些功能傳遞到生產(chǎn)模型之中。” Tecton構(gòu)建了一個平臺來管理這些“功能”,并以這種方式來簡化數(shù)據(jù)層的復(fù)雜性,從企業(yè)原始數(shù)據(jù)中收集到的智能實時信號對于優(yōu)化機器學(xué)習(xí)至關(guān)重要。
在更上游,Liquidata正在為數(shù)據(jù)庫構(gòu)建開源的GitHub等效項。在我與Liquidata的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Tim Sehn(他曾經(jīng)是Snap的前工程副總裁)的談話中,他強調(diào)“就像開源軟件一樣,我們需要在開放數(shù)據(jù)方面進行協(xié)作——在互聯(lián)網(wǎng)級別。這就是為什么我們創(chuàng)建了DoltHub的原因,DoltHub是互聯(lián)網(wǎng)上免費存儲、托管和協(xié)作數(shù)據(jù)的地方。”
- 實驗跟蹤和版本控制
另一個常見的問題是結(jié)果之間缺乏可重復(fù)性。機器學(xué)習(xí)模型版本控制的缺位讓實驗變得很難復(fù)現(xiàn)。
正如Weights and Biases的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Lukas Biewald在接受我們的采訪時分享的那樣,“如今,最大的痛苦是缺乏基本的軟件和最佳實踐來管理全新的編碼風(fēng)格。你無法使用糟糕的畫筆很好地作畫,你沒有辦法在糟糕的IDE(集成開發(fā)環(huán)境)中很好地編寫代碼,你也無法使用我們現(xiàn)在擁有的工具構(gòu)建和部署很棒的深度學(xué)習(xí)模型。”他的公司于2018年推出了一個實驗跟蹤解決方案,讓OpenAI等客戶能夠?qū)⒁娊鈴膯蝹€研究人員擴散到整個團隊。
- 模型可擴展
對于這個正在成熟的市場來說或,建立基礎(chǔ)架構(gòu)以在生產(chǎn)中擴展模型部署并監(jiān)控結(jié)果是另一個重要的問題。
Anyscale是開源框架Ray背后的公司,這家初創(chuàng)公司已經(jīng)抽象出了分布式應(yīng)用程序和可擴展機器學(xué)習(xí)的基礎(chǔ)架構(gòu)。在我同Anyscale的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Robert Nishihara的交談中,他分享了自己的想法,“就像微軟的操作系統(tǒng)為開發(fā)人員工具和應(yīng)用程序創(chuàng)造了一個生態(tài)系統(tǒng)一樣,我們也在創(chuàng)造基礎(chǔ)架構(gòu),以支持應(yīng)用程序和庫的富生態(tài)系統(tǒng),從模型訓(xùn)練到部署,讓開發(fā)人員可以輕松地擴展機器學(xué)習(xí)應(yīng)用程序。”
在自然語言處理或者被稱為NLP的領(lǐng)域中,可擴展性也在飛速發(fā)展。Hugging Face建立了一個開源庫來構(gòu)建、訓(xùn)練和共享NLP模型。該公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官ClémentDelangue表示:“過去三年中發(fā)生了范式轉(zhuǎn)變,NLP的轉(zhuǎn)換學(xué)習(xí)開始極大地改變了將NLP集成到業(yè)務(wù)應(yīng)用程序中的可用性和準確性。”他表示:“我們讓企業(yè)有可能在一周而不是幾個月之內(nèi),將最新研究的NLP模型應(yīng)用于生產(chǎn)。”
其他有前途的初創(chuàng)公司包括Streamlit,該公司讓開發(fā)人員可以僅僅使用幾行Python就創(chuàng)建機器學(xué)習(xí)應(yīng)用并立刻進行部署。OctoML為機器學(xué)習(xí)應(yīng)用了附加的智能層,是系統(tǒng)變得更加易于優(yōu)化和部署。Fiddler Labs已經(jīng)建立了Explainable AI Platform(可解釋的人工智能平臺),可以不間斷地解釋和監(jiān)控生產(chǎn)結(jié)果。
要想在與老牌公司的激烈競爭中建立起長期穩(wěn)固的公司,初創(chuàng)公司必須問自己兩個問題:對于哪些客戶來說我們是必不可少的?接觸這些客戶的最佳方式是什么?
很多初創(chuàng)公司會提出想法,要在某個大市場中占據(jù)1%的份額,但是通常來說,這些大市場就算沒有過度擁擠,其中的需求也已經(jīng)得到了很好地滿足。專注于贏得核心客戶群的公司必須展現(xiàn)出強大的早期吸引力,這將轉(zhuǎn)化為長期擴展?jié)摿?。為了吸引這些客戶,Databricks和Datarobot等大多數(shù)成型企業(yè)都采用了自上而下的企業(yè)銷售方式。與我們在開發(fā)人員工具領(lǐng)域中看到的情況類似,我期待著機器學(xué)習(xí)初創(chuàng)企業(yè)最終將從單純的企業(yè)銷售發(fā)展為推動自下而上的采用,并獲得更多優(yōu)勢,勝過當(dāng)今以企業(yè)為中心的成型公司。
垂直集成的機器學(xué)習(xí)應(yīng)用程序正在顛覆現(xiàn)狀
機器學(xué)習(xí)領(lǐng)域中一些最令人興奮的公司正在開拓新的商業(yè)模式以顛覆整個行業(yè)。汽車行業(yè)就是個最明顯的例子,僅僅在2019年一年,就有100億美元的資金投入到了這個行業(yè)。機器學(xué)習(xí)也將產(chǎn)生革命性影響的下一代垂直市場還包括醫(yī)療保健、工業(yè)、安全和農(nóng)業(yè)。
Salesforce的首席科學(xué)家Richard Socher表示:“在‘機器學(xué)習(xí)+X’的模式下,機器學(xué)習(xí)最為有效。”他表示,“最好的機器學(xué)習(xí)公司都有著清晰的垂直重點。他們甚至不會將自己定義為機器學(xué)習(xí)公司。”他認為醫(yī)療保健領(lǐng)域是一個非常獨特的領(lǐng)域,極有前途:Athelas已將機器學(xué)習(xí)應(yīng)用于免疫監(jiān)測,通過收集病人白血球數(shù)量的數(shù)據(jù)幫助他們優(yōu)化藥物攝入。Curai利用機器學(xué)習(xí)技術(shù)來提高醫(yī)生推薦的效率和質(zhì)量,讓他們可以把更多的時間花在治療患者的工作上。Zebra和AIdoc通過訓(xùn)練數(shù)據(jù)集來更快地確定醫(yī)療狀況,從而提高了放射科醫(yī)生的工作能力。
在工業(yè)和物流領(lǐng)域,Covariant是一家結(jié)合了強化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的初創(chuàng)公司,該公司讓機器人能夠管理大型倉庫設(shè)施中的物體;Agility and Dexterity同樣在構(gòu)建機器人,以越來越復(fù)雜的方式適應(yīng)各種不可預(yù)測的情況;Interos應(yīng)用機器學(xué)習(xí)技術(shù)評估全球供應(yīng)鏈網(wǎng)絡(luò),幫助企業(yè)圍繞供應(yīng)商管理、業(yè)務(wù)連續(xù)性和風(fēng)險做出關(guān)鍵決策。
在安全和國防領(lǐng)域,Verkada通過智能地分析實時視頻并從中學(xué)習(xí),重新構(gòu)想了企業(yè)物理安全;Anduril建立了一個機器學(xué)習(xí)主干,該主干可以集成來自傳感器塔的數(shù)據(jù),以增強國家安全的智能;Shield AI的軟件讓無人系統(tǒng)可以解釋信號,并且在戰(zhàn)場上智能行動。
農(nóng)業(yè)是另一個從機器學(xué)習(xí)技術(shù)中獲得巨大收益的垂直領(lǐng)域。John Deere收購了Blue River Technology,后者是一家開發(fā)智能農(nóng)作物噴灑設(shè)備的初創(chuàng)公司。合并后的公司Intelligent Solutions Group的首席科學(xué)家Lee Redden表示:“我們引入計算機視覺技術(shù)來識別單株植物并針對單株植物采取行動,通過這種方式改變了農(nóng)業(yè)世界。”其他著名的農(nóng)科企業(yè)還包括Indigo,該公司將機器學(xué)習(xí)用于“精準農(nóng)業(yè)”,利用數(shù)據(jù),以更有利可圖、更具可持續(xù)性的方式生產(chǎn)食品。
我們將何去何從?
總結(jié)來說,機器學(xué)習(xí)已經(jīng)悄然成為我們?nèi)粘I畹囊徊糠?,支撐我們的汽車,醫(yī)院的運營并保障我們所吃的食物。到目前為止,大型企業(yè)孵化了最先進的技術(shù),但是真正的希望存在于下一波機器學(xué)習(xí)應(yīng)用程序和工具,將圍繞著機器智能各種華而不實的炒作從哈利.波特式的幻想轉(zhuǎn)化為有形的社會價值。
對于機器學(xué)習(xí)能夠在未來幾年內(nèi)創(chuàng)造的價值,我們有很多理由保持樂觀。傳統(tǒng)企業(yè)將訓(xùn)練數(shù)以百萬計的公民數(shù)據(jù)科學(xué)家,將破碎的行業(yè)重塑為更高效的行業(yè)。機器學(xué)習(xí)工具將降低構(gòu)建智能應(yīng)用程序的門檻,推動數(shù)以百萬計的新想法變成產(chǎn)品。垂直機器學(xué)習(xí)業(yè)務(wù)模型將讓人們獲得健康的食品,可靠的人身安全保障和負擔(dān)得起的醫(yī)療保健服務(wù),這是一個民主化的進程。
我們將在這些地方找到機器學(xué)習(xí)的真正價值。