自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么所有的機器學習模型有90%從沒有投入生產

人工智能 機器學習
公司正經歷艱難時期。我不是在談論大流行和股市波動。時代是不確定的,并且必須使客戶體驗越來越無縫和沉浸,并不會減輕公司的壓力。因此,可以理解的是,他們?yōu)殚_發(fā)機器學習模型投入了數十億美元,以改善他們的產品。

 公司正經歷艱難時期。我不是在談論大流行和股市波動。

時代是不確定的,并且必須使客戶體驗越來越無縫和沉浸,并不會減輕公司的壓力。因此,可以理解的是,他們?yōu)殚_發(fā)機器學習模型投入了數十億美元,以改善他們的產品。

但是有一個問題。 公司不僅可以向數據科學家和機器學習工程師投入資金,還希望魔法能夠實現(xiàn)。

數據說明一切。 根據VentureBeat的報告,大約90%的機器學習模型從未投入生產。 換句話說,實際上只有十分之一的數據科學家工作日能為公司帶來有用的東西。

盡管十分之九的技術主管認為AI將成為下一次技術革命的核心,但AI的采用和部署仍具有增長的空間。而且數據科學家也不應該受到指責。

數據科學家的工作市場非常好。 公司正在招聘,他們也準備支付高薪。

當然,經理和企業(yè)領導者希望這些數據科學家能為他們增加很多價值。 目前,他們還不容易做到這一點。

GAP數據和分析高級副總裁Chris Chapo說:"有時候人們認為,我所要做的就是把錢扔在一個問題上或投入一項技術,而成功則來自另一端。"

為了幫助數據科學家發(fā)揮出色的作用,領導者不僅需要在正確的方向上引導資源,還需要了解機器學習模型的全部含義。一種可能的解決方案是,領導者自己接受數據科學的入門培訓,以便他們可以在公司中將這些知識付諸實踐。

缺乏可訪問的數據

公司在收集數據方面也不錯。但是,許多公司非常孤立,這意味著每個部門都有自己的收集數據的方式,首選格式,存儲數據的位置以及安全性和隱私偏好。

另一方面,數據科學家通常需要來自多個部門的數據。孤島式存儲使清理和處理該數據變得更加困難。此外,許多數據科學家抱怨說,他們甚至無法獲得所需的數據。但是,如果您沒有必要的數據,您甚至應該如何訓練模型?

孤立的公司結構和不可訪問的數據過去可能是可管理的。 但是,在一個以驚人的速度進行技術改造的時代,公司將需要加強并在整個過程中建立統(tǒng)一的數據結構。

 

IT,數據科學與工程之間的脫節(jié)

如果公司的目標是減少孤島,這也意味著各部門之間需要更多地溝通并調整其目標。

在許多公司中,IT和數據科學部門之間存在根本的鴻溝。IT部門傾向于優(yōu)先考慮使事情正常運行并保持穩(wěn)定。另一方面,數據科學家喜歡嘗試和破壞事物。這不會導致有效的溝通。

此外,工程技術并非總是被認為對數據科學家至關重要。這是一個問題,因為工程師可能并不總是了解數據科學家所設想的所有細節(jié),或者由于溝通不暢而可能以不同的方式實施事情。因此,正如StackOverflow所指出的那樣,可以部署模型的數據科學家在競爭模型方面具有競爭優(yōu)勢。

如果模型在較小的環(huán)境中運行良好,則并不意味著它可以在任何地方運行。

一方面,用于處理更大數據集的硬件或云存儲空間可能不可用。此外,機器學習模型的模塊化在大范圍上并不總是與小規(guī)模上一樣。

最后,數據來源可能不容易甚至不可能。 如前所述,這可能是由于公司的筒倉結構所致,還是由于獲取更多數據方面的其他挑戰(zhàn)所致。

這是統(tǒng)一組織之間的數據結構并鼓勵不同部門之間進行交流的另一個原因。

努力重復

在部署機器學習模型的漫長道路上,超過四分之一的公司面臨重復的工作。

例如,軟件工程師可能會嘗試實施數據科學家告訴他們的操作。后者可能會繼續(xù)自己做一些工作。

這不僅浪費時間和資源。 當涉眾不知道要使用哪個版本的代碼,以及遇到任何錯誤時該向誰求助,這也可能導致其他混亂。

盡管數據科學家能夠實施自己的模型具有優(yōu)勢,但他們應與工程師明確交流由誰來完成的工作。這樣,他們可以節(jié)省公司的時間和資源。

 

行政人員并不總是買賬

技術主管堅信整個AI的力量,但這并不意味著他們對每個想法都深信不疑。正如Algorithmia報道的那樣,三分之一的企業(yè)高管將部署統(tǒng)計數字不佳歸咎于缺乏高級支持。

似乎數據科學家仍被視為有些書呆子且缺乏商業(yè)意識。 這使得數據科學家增強其業(yè)務技能并在可能的情況下尋求與高級管理人員之間的對話顯得尤為重要。

當然,這并不意味著每個數據科學家都突然需要MBA才能勝任工作。但是,從課堂或業(yè)務經驗中獲得的一些重要經驗可能會為他們提供長期服務。

缺乏跨語言和框架支持

由于機器學習模型仍處于起步階段,因此在涉及不同的語言和框架時仍存在很大的差距。

一些管道以Python開始,以R繼續(xù),以Julia結束。 其他人則走另一條路,或完全使用其他語言。 由于每種語言都帶有獨特的庫和依賴項集,因此很難快速跟蹤項目。

此外,某些管道可能會利用Docker和Kubernetes的容器化,而另一些可能不會。 一些管道將部署特定的API,而其他管道則不會。 而這樣的例子不勝枚舉。

TFX,Mlflow和Kubeflow之類的工具開始出現(xiàn),以填補這一空白。但是這些工具仍處于起步階段,到目前為止,它們的專業(yè)知識還很少。

數據科學家知道,他們需要不斷檢查其領域的最新進展。 這也應適用于模型部署。

版本控制和可重復性仍然充滿挑戰(zhàn)

與上述問題相關的是,到目前為止,尚無版本控制機器學習模型的方法。 顯然,數據科學家需要跟蹤他們所做的任何更改,但是如今這已經很麻煩了。

此外,數據集可能會隨時間漂移。 隨著公司和項目的發(fā)展,這是很自然的事,但是很難再現(xiàn)過去的結果。

更為重要的是,一旦開始一個項目,就建立一個基準,該基準現(xiàn)在和將來都將根據該基準運行。結合勤奮的版本控制,數據科學家可以使他們的模型可重現(xiàn)。

 

如何停止嘗試并開始部署

如果90%的數據科學家的努力無濟于事,那就不是一個好兆頭。如上所示,這不是數據科學家的錯,而是由于固有的和組織性的障礙。

改變不是一天到一天的變化。 因此,對于剛開始使用機器學習模型的公司,建議從一個非常小而簡單的項目開始。

一旦經理們概述了一個清晰而簡單的項目,第二步就是選擇合適的團隊。它應該是跨功能的,并且應該包括數據科學家,工程師,DevOps以及任何其他對其成功至關重要的角色。

第三,管理者應該在開始時考慮利用第三方來幫助他們加速發(fā)展。IBM是提供這種服務的公司之一,但是市場上也有其他公司。

最后的警告是不要不惜一切代價追求復雜性。如果便宜又簡單的型號可以滿足80%的客戶需求,并且可以在幾個月內發(fā)貨,那么這已經是一個很棒的壯舉。此外,構建簡單模型的經驗將推動更復雜模型的實施,希望該模型可以使客戶100%滿意。

底線:革命需要時間

就像過去的十年一樣,下一個十年注定是革命性的。人工智能的廣泛采用只是眾多增長趨勢之一。物聯(lián)網,先進的機器人技術和區(qū)塊鏈技術的興起也算入此列表。

我故意說的是幾十年而不是幾年。 例如,考慮到90%的公司都在云中-如此之多,甚至很難想象如果沒有它,我們的生活將會如何。 另一方面,云花費了數十年才得到廣泛采用。

沒有理由相信AI革命應該有所不同。 實施將需要一段時間,因為現(xiàn)狀包含許多要解決的障礙。

但是,由于機器學習提供了許多改善客戶體驗和企業(yè)效率的方法,因此很明顯,贏家將是那些能夠盡早而早地部署模型的人。

責任編輯:華軒 來源: 今日頭條
點贊
收藏

51CTO技術棧公眾號