自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="oujno"></style><style id="oujno"></style>

<sub id="oujno"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”？

作者：雷鋒字幕組 2020-11-18 14:40:46

大數(shù)據(jù) 自動(dòng)化

一切可以自動(dòng)化的東西似乎最終都會(huì)實(shí)現(xiàn)。因此，當(dāng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的某些方面在某個(gè)時(shí)候?qū)崿F(xiàn)自動(dòng)化時(shí)，我們不應(yīng)感到驚訝。相反，我們應(yīng)該專注于難以自動(dòng)化的數(shù)據(jù)科學(xué)領(lǐng)域，并將在可預(yù)見的未來繼續(xù)增加價(jià)值。

前幾天，我讀了一篇關(guān)于Uber希望如何賦予其每位員工數(shù)據(jù)科學(xué)力量的文章。以下引文特別引人注意：

“預(yù)測平臺(tái)的宏偉愿景是只需按一下按鈕即可提供預(yù)測，完全不需要預(yù)測專家。用戶唯一需要的輸入是歷史數(shù)據(jù)，無論是CSV文件還是查詢鏈接的形式，以及預(yù)測范圍。您想預(yù)測多遠(yuǎn)?其他一切都完全在引擎蓋下完成。” — Uber 數(shù)據(jù)科學(xué)總監(jiān)Franziska Bell

這讓我思考，預(yù)測真的可以商業(yè)化到這種程度嗎?微軟，谷歌和亞馬遜也一直在努力使他們的機(jī)器學(xué)習(xí)解決方案更加“drag and drop”他們各自的云客戶，因此Uber絕對不是唯一的雄心壯志。

貝爾的話引出了兩個(gè)截然不同的結(jié)論-要么Uber的預(yù)測平臺(tái)非常出色，要么他們對預(yù)測未來的挑戰(zhàn)過于隨意。為了好玩，讓我們嘗試各種可能性：

Uber的預(yù)測平臺(tái)非常出色-只需按一下按鈕，Uber就能做些什么來產(chǎn)生預(yù)測，而唯一需要輸入的是目標(biāo)變量的歷史數(shù)據(jù)?他們必須能夠：

擁有數(shù)據(jù)并知道是否要包含任何和所有相關(guān)功能。您需要外生變量來構(gòu)建模型，尤其是當(dāng)您嘗試預(yù)測復(fù)雜的事物時(shí)。 Uber不僅必須在生成預(yù)測之前隨時(shí)提供所有可用數(shù)據(jù)，還必須知道要包括哪些功能以及如何轉(zhuǎn)換每個(gè)功能。
它還必須能夠比較和對比各種預(yù)測算法(線性回歸與隨機(jī)森林與神經(jīng)網(wǎng)絡(luò))。并能夠?yàn)槊糠N特定算法選擇最優(yōu)超參數(shù)。
預(yù)測還必須進(jìn)行回測(以減輕從模型中取出模型時(shí)發(fā)生爆炸的風(fēng)險(xiǎn))，Uber需要能夠與用戶溝通模型所基于的假設(shè)以及在何種條件下可能會(huì)崩潰。

達(dá)成這些要付出很多，只要他們能做到，就對他們表示敬意。

但是，如果Uber過于隨意，該怎么辦–相反的觀點(diǎn)是，該預(yù)測平臺(tái)只是ARIMA model 或 LSTM，可以根據(jù)對目標(biāo)的以往觀察來預(yù)測未來。對于某些應(yīng)用程序，這是可以的。

但是僅使用目標(biāo)變量的滯后作為特征意味著可能會(huì)錯(cuò)過關(guān)鍵的外生關(guān)系，這將使模型嚴(yán)重不適合并易于表現(xiàn)不佳。

對其保留一定態(tài)度

我個(gè)人對Uber的“預(yù)測即服務(wù)”目標(biāo)持懷疑態(tài)度。我可以理解，Uber是否允許其員工使用預(yù)先構(gòu)建的模型“按需”預(yù)測某些關(guān)鍵業(yè)務(wù)指標(biāo)，這些模型已經(jīng)過數(shù)據(jù)科學(xué)團(tuán)隊(duì)的廣泛研究和完善。但是我不認(rèn)為這就是弗朗茲卡·貝爾(Franziska Bell)的意思?？磥硭哪繕?biāo)是能夠通過按一下按鈕就幾乎可以預(yù)測所有事物。

這是一個(gè)非常困難的問題，幾乎是不可能的問題。讓我們逐步完成預(yù)測過程的每個(gè)步驟，以更好地了解可以輕松實(shí)現(xiàn)哪些自動(dòng)化。

明確定義問題-需要預(yù)測什么?

沒有要解決的問題，建立模型并進(jìn)行預(yù)測就沒有多大意義了。因此，第一步是弄清楚我的問題是什么，我可以預(yù)測該問題的哪些方面使問題更加清晰?

這通常不像乍看起來那樣明顯。自從Uber入手以來，讓我們繼續(xù)以它為例。假設(shè)我們是 Uber的分析師，我們的工作是預(yù)測明年舊金山 Uber的需求。我們能否僅將Uber需求的歷史時(shí)間序列提供給預(yù)測平臺(tái)并加以處理?

可能不是。我的意思是我們的老板所說的需求是什么意思?可能是以下任何一種：

明年的車手人數(shù)。
明年的總騎乘次數(shù)，即騎乘人數(shù)乘以每名騎乘人的騎乘次數(shù)。
車手在明年支付的金額，即乘客人數(shù)乘以每位乘客的乘車次數(shù)乘以每位乘客的平均價(jià)格。

因此，圍繞我們到底需要預(yù)測什么是不明確的。您是否注意到，在充實(shí)需求定義時(shí)，我們需要逐步預(yù)測更多變量?

甚至車手本身的數(shù)量也是許多因素的相互作用：

可用駕駛員的數(shù)量-駕駛員的數(shù)量和騎手的數(shù)量相互之間具有循環(huán)效應(yīng)，Uber雇用的駕駛員越多，使用其平臺(tái)的騎手就越多(這被稱為網(wǎng)絡(luò)效應(yīng))。
競爭格局(Lyft，出租車，踏板車等)如何隨著時(shí)間變化。這包括競爭者的數(shù)量，每個(gè)競爭者的營銷和定價(jià)策略等。

因此，看似簡單的問題最終變得非常復(fù)雜且難以自動(dòng)化。如上所述，正確的預(yù)測模型通常是多個(gè)單獨(dú)模型和預(yù)測的集合。如果我們沒有考慮到足夠多的變量，我們的模型將錯(cuò)過關(guān)鍵的因素。而且，如果我們嘗試在集成中包含太多模型和/或預(yù)測，我們將迷失在復(fù)雜的迷宮中。

弄清楚要預(yù)測的內(nèi)容并不容易，作為一名負(fù)責(zé)充實(shí)模型各個(gè)組成部分的架構(gòu)師，經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家可能是無價(jià)的，因此可以跨越太簡單和太復(fù)雜之間的界限。

識(shí)別有效的數(shù)據(jù)(并找到它)

一旦確定了要預(yù)測的變量并為我們的模型整體繪制了簡潔的流程圖，我們就準(zhǔn)備好了嗎?錯(cuò)，首先我們需要弄清楚我們是否擁有所需的所有數(shù)據(jù)。在最樂觀的情況下，我們所有的數(shù)據(jù)都可以使用，清洗并準(zhǔn)備放入數(shù)據(jù)庫，但是在現(xiàn)實(shí)世界中很少有這樣的事情發(fā)生。

一旦知道了要預(yù)測的內(nèi)容，就需要確定候選特征集，以用于生成預(yù)測。通常，這些數(shù)據(jù)并不容易獲取-相反，數(shù)據(jù)科學(xué)家的工作是找出從哪兒、怎樣獲取這些數(shù)據(jù)。如果不可能直接觀察，那么如何用實(shí)際可用的東西來替代它。

這一步也很難自動(dòng)化。除非公司的數(shù)據(jù)湖像Google一樣廣闊和深厚，否則他們將需要數(shù)據(jù)科學(xué)家智能地、創(chuàng)造性地搜尋世界范圍內(nèi)的有效數(shù)據(jù)。

建立預(yù)測—特征工程和選擇正確算法

這部分可能更易于自動(dòng)化。假設(shè)我們已成功獲取并清除了所有數(shù)據(jù)(不容易做到)，那么現(xiàn)在就可以構(gòu)建模型了。

雖然我認(rèn)為經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家或統(tǒng)計(jì)學(xué)家在選擇正確的模型并正確設(shè)置其參數(shù)方面是非常寶貴的專家，但我也知道，在這里絕對有可能采用暴力，自動(dòng)化的方法。

您甚至可能會(huì)爭辯說，我們不必為了選擇最佳模型而運(yùn)行和測試每個(gè)模型。相反，我們可以假設(shè)使用XGBoostor或神經(jīng)網(wǎng)絡(luò)為我們提供足夠好的結(jié)果，前提是它們經(jīng)過適當(dāng)?shù)挠?xùn)練且不會(huì)過度擬合。

另外，上述兩種算法都有效地使特征工程過程自動(dòng)化。例如，給定足夠的神經(jīng)元和層數(shù)，神經(jīng)網(wǎng)絡(luò)可以輕松捕獲特征與目標(biāo)之間的任何非線性關(guān)系。因此，無需顯式地包含特性的日志和指數(shù)或特性之間的交互作用。

當(dāng)然，這種自動(dòng)化需要付出一定的代價(jià)?？山忉屝缘?換句話說，我們不知道是什么在推動(dòng)我們的預(yù)測。例如，在線性回歸中，β系數(shù)A告訴我們特征A增加1單位將始終對我們的預(yù)測產(chǎn)生確切的影響;在神經(jīng)網(wǎng)絡(luò)中，我們不知道特征A的增加如何影響我們的預(yù)測。

在當(dāng)今的大數(shù)據(jù)和復(fù)雜數(shù)據(jù)世界中，模型的可解釋性似乎是一種很好的選擇，而不是必須具備的。但我認(rèn)為，在更簡單，更易解釋的模型不花很多錢的情況下(就預(yù)測的準(zhǔn)確性而言)，保持簡單是明智的。

知道模型何時(shí)可能斷裂

賦予每個(gè)人預(yù)測能力一種被低估的風(fēng)險(xiǎn)是，沒有事先預(yù)測經(jīng)驗(yàn)的人對無效或過度擬合模型可能造成的破壞，缺乏健康的尊重。

從行為上講，當(dāng)我們看到定量準(zhǔn)確的預(yù)測時(shí)，就會(huì)陷入一種錯(cuò)誤的安全感(我們對數(shù)字和數(shù)學(xué)的精度感到滿意)。但是，經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家會(huì)知道質(zhì)疑模型的假設(shè)，并認(rèn)識(shí)到模型在什么條件下可能表現(xiàn)不佳。

這是另一個(gè)令人費(fèi)解的模型的缺點(diǎn)-如果我們看不到推動(dòng)我們預(yù)測的關(guān)鍵關(guān)系，那么很難知道我們處于一個(gè)這些關(guān)系不再有效的環(huán)境中。

我認(rèn)為，這很難自動(dòng)化?？傆幸环莨ぷ魇菫槟切┘攘私饨⒛Ｐ秃妥龀鲱A(yù)測的好處和風(fēng)險(xiǎn)的人準(zhǔn)備的。

結(jié)論

一切可以自動(dòng)化的東西似乎最終都會(huì)實(shí)現(xiàn)。因此，當(dāng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的某些方面在某個(gè)時(shí)候?qū)崿F(xiàn)自動(dòng)化時(shí)，我們不應(yīng)感到驚訝。相反，我們應(yīng)該專注于難以自動(dòng)化的數(shù)據(jù)科學(xué)領(lǐng)域，并將在可預(yù)見的未來繼續(xù)增加價(jià)值：

了解您業(yè)務(wù)的主要驅(qū)動(dòng)因素，以及影響這些驅(qū)動(dòng)因素的因素。
知道如何適當(dāng)?shù)卮_定范圍和設(shè)計(jì)模型，以使其既不會(huì)太簡單，不足或太復(fù)雜。
知道如何挖掘有洞察力的數(shù)據(jù)，這些數(shù)據(jù)可用于提供數(shù)據(jù)科學(xué)模型。
建立也“足夠好”的可解釋模型。
能夠確定您的模型何時(shí)以及在何種情況下可能崩潰并產(chǎn)生不良的預(yù)測。

當(dāng)然，這些只是我的想法。我也很想聽聽您的聲音。 Cheers!

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

責(zé)任編輯：未麗燕來源：雷鋒網(wǎng)

數(shù)據(jù)科學(xué)自動(dòng)化 Uber

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="nwudx"><track id="nwudx"></track></legend>