自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)專業(yè)是否會(huì)“被自動(dòng)化”?

大數(shù)據(jù) 自動(dòng)化
一切可以自動(dòng)化的東西似乎最終都會(huì)實(shí)現(xiàn)。 因此,當(dāng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的某些方面在某個(gè)時(shí)候?qū)崿F(xiàn)自動(dòng)化時(shí),我們不應(yīng)感到驚訝。 相反,我們應(yīng)該專注于難以自動(dòng)化的數(shù)據(jù)科學(xué)領(lǐng)域,并將在可預(yù)見的未來繼續(xù)增加價(jià)值。

前幾天,我讀了一篇關(guān)于Uber希望如何賦予其每位員工數(shù)據(jù)科學(xué)力量的文章。以下引文特別引人注意:

  • “預(yù)測平臺(tái)的宏偉愿景是只需按一下按鈕即可提供預(yù)測,完全不需要預(yù)測專家。用戶唯一需要的輸入是歷史數(shù)據(jù),無論是CSV文件還是查詢鏈接的形式,以及預(yù)測范圍。您想預(yù)測多遠(yuǎn)?其他一切都完全在引擎蓋下完成。” — Uber 數(shù)據(jù)科學(xué)總監(jiān)Franziska Bell

這讓我思考,預(yù)測真的可以商業(yè)化到這種程度嗎?微軟,谷歌和亞馬遜也一直在努力使他們的機(jī)器學(xué)習(xí)解決方案更加“drag and drop”他們各自的云客戶,因此Uber絕對不是唯一的雄心壯志。

貝爾的話引出了兩個(gè)截然不同的結(jié)論-要么Uber的預(yù)測平臺(tái)非常出色,要么他們對預(yù)測未來的挑戰(zhàn)過于隨意。為了好玩,讓我們嘗試各種可能性:

Uber的預(yù)測平臺(tái)非常出色-只需按一下按鈕,Uber就能做些什么來產(chǎn)生預(yù)測,而唯一需要輸入的是目標(biāo)變量的歷史數(shù)據(jù)?他們必須能夠:

  • 擁有數(shù)據(jù)并知道是否要包含任何和所有相關(guān)功能。您需要外生變量來構(gòu)建模型,尤其是當(dāng)您嘗試預(yù)測復(fù)雜的事物時(shí)。 Uber不僅必須在生成預(yù)測之前隨時(shí)提供所有可用數(shù)據(jù),還必須知道要包括哪些功能以及如何轉(zhuǎn)換每個(gè)功能。
  • 它還必須能夠比較和對比各種預(yù)測算法(線性回歸與隨機(jī)森林與神經(jīng)網(wǎng)絡(luò))。并能夠?yàn)槊糠N特定算法選擇最優(yōu)超參數(shù)。
  • 預(yù)測還必須進(jìn)行回測(以減輕從模型中取出模型時(shí)發(fā)生爆炸的風(fēng)險(xiǎn)),Uber需要能夠與用戶溝通模型所基于的假設(shè)以及在何種條件下可能會(huì)崩潰。

達(dá)成這些要付出很多,只要他們能做到,就對他們表示敬意。

但是,如果Uber過于隨意,該怎么辦–相反的觀點(diǎn)是,該預(yù)測平臺(tái)只是ARIMA model 或 LSTM,可以根據(jù)對目標(biāo)的以往觀察來預(yù)測未來。對于某些應(yīng)用程序,這是可以的。

但是僅使用目標(biāo)變量的滯后作為特征意味著可能會(huì)錯(cuò)過關(guān)鍵的外生關(guān)系,這將使模型嚴(yán)重不適合并易于表現(xiàn)不佳。

[[352941]]

對其保留一定態(tài)度

我個(gè)人對Uber的“預(yù)測即服務(wù)”目標(biāo)持懷疑態(tài)度。我可以理解,Uber是否允許其員工使用預(yù)先構(gòu)建的模型“按需”預(yù)測某些關(guān)鍵業(yè)務(wù)指標(biāo),這些模型已經(jīng)過數(shù)據(jù)科學(xué)團(tuán)隊(duì)的廣泛研究和完善。但是我不認(rèn)為這就是弗朗茲卡·貝爾(Franziska Bell)的意思??磥硭哪繕?biāo)是能夠通過按一下按鈕就幾乎可以預(yù)測所有事物。

這是一個(gè)非常困難的問題,幾乎是不可能的問題。讓我們逐步完成預(yù)測過程的每個(gè)步驟,以更好地了解可以輕松實(shí)現(xiàn)哪些自動(dòng)化。

明確定義問題-需要預(yù)測什么?

沒有要解決的問題,建立模型并進(jìn)行預(yù)測就沒有多大意義了。因此,第一步是弄清楚我的問題是什么,我可以預(yù)測該問題的哪些方面使問題更加清晰?

這通常不像乍看起來那樣明顯。自從Uber入手以來,讓我們繼續(xù)以它為例。假設(shè)我們是 Uber的分析師,我們的工作是預(yù)測明年舊金山 Uber的需求。我們能否僅將Uber需求的歷史時(shí)間序列提供給預(yù)測平臺(tái)并加以處理?

可能不是。我的意思是我們的老板所說的需求是什么意思?可能是以下任何一種:

  • 明年的車手人數(shù)。
  • 明年的總騎乘次數(shù),即騎乘人數(shù)乘以每名騎乘人的騎乘次數(shù)。
  • 車手在明年支付的金額,即乘客人數(shù)乘以每位乘客的乘車次數(shù)乘以每位乘客的平均價(jià)格。

因此,圍繞我們到底需要預(yù)測什么是不明確的。您是否注意到,在充實(shí)需求定義時(shí),我們需要逐步預(yù)測更多變量?

甚至車手本身的數(shù)量也是許多因素的相互作用:

  • 可用駕駛員的數(shù)量-駕駛員的數(shù)量和騎手的數(shù)量相互之間具有循環(huán)效應(yīng),Uber雇用的駕駛員越多,使用其平臺(tái)的騎手就越多(這被稱為網(wǎng)絡(luò)效應(yīng))。
  • 競爭格局(Lyft,出租車,踏板車等)如何隨著時(shí)間變化。這包括競爭者的數(shù)量,每個(gè)競爭者的營銷和定價(jià)策略等。

因此,看似簡單的問題最終變得非常復(fù)雜且難以自動(dòng)化。如上所述,正確的預(yù)測模型通常是多個(gè)單獨(dú)模型和預(yù)測的集合。如果我們沒有考慮到足夠多的變量,我們的模型將錯(cuò)過關(guān)鍵的因素。而且,如果我們嘗試在集成中包含太多模型和/或預(yù)測,我們將迷失在復(fù)雜的迷宮中。

弄清楚要預(yù)測的內(nèi)容并不容易,作為一名負(fù)責(zé)充實(shí)模型各個(gè)組成部分的架構(gòu)師,經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家可能是無價(jià)的,因此可以跨越太簡單和太復(fù)雜之間的界限。

識(shí)別有效的數(shù)據(jù)(并找到它)

一旦確定了要預(yù)測的變量并為我們的模型整體繪制了簡潔的流程圖,我們就準(zhǔn)備好了嗎?錯(cuò),首先我們需要弄清楚我們是否擁有所需的所有數(shù)據(jù)。在最樂觀的情況下,我們所有的數(shù)據(jù)都可以使用,清洗并準(zhǔn)備放入數(shù)據(jù)庫,但是在現(xiàn)實(shí)世界中很少有這樣的事情發(fā)生。

一旦知道了要預(yù)測的內(nèi)容,就需要確定候選特征集,以用于生成預(yù)測。通常,這些數(shù)據(jù)并不容易獲取-相反,數(shù)據(jù)科學(xué)家的工作是找出從哪兒、怎樣獲取這些數(shù)據(jù)。如果不可能直接觀察,那么如何用實(shí)際可用的東西來替代它。

這一步也很難自動(dòng)化。除非公司的數(shù)據(jù)湖像Google一樣廣闊和深厚,否則他們將需要數(shù)據(jù)科學(xué)家智能地、創(chuàng)造性地搜尋世界范圍內(nèi)的有效數(shù)據(jù)。

建立預(yù)測—特征工程和選擇正確算法

這部分可能更易于自動(dòng)化。假設(shè)我們已成功獲取并清除了所有數(shù)據(jù)(不容易做到),那么現(xiàn)在就可以構(gòu)建模型了。

雖然我認(rèn)為經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家或統(tǒng)計(jì)學(xué)家在選擇正確的模型并正確設(shè)置其參數(shù)方面是非常寶貴的專家,但我也知道,在這里絕對有可能采用暴力,自動(dòng)化的方法。

您甚至可能會(huì)爭辯說,我們不必為了選擇最佳模型而運(yùn)行和測試每個(gè)模型。相反,我們可以假設(shè)使用XGBoostor或神經(jīng)網(wǎng)絡(luò)為我們提供足夠好的結(jié)果,前提是它們經(jīng)過適當(dāng)?shù)挠?xùn)練且不會(huì)過度擬合。

另外,上述兩種算法都有效地使特征工程過程自動(dòng)化。例如,給定足夠的神經(jīng)元和層數(shù),神經(jīng)網(wǎng)絡(luò)可以輕松捕獲特征與目標(biāo)之間的任何非線性關(guān)系。因此,無需顯式地包含特性的日志和指數(shù)或特性之間的交互作用。

當(dāng)然,這種自動(dòng)化需要付出一定的代價(jià)??山忉屝缘?換句話說,我們不知道是什么在推動(dòng)我們的預(yù)測。例如,在線性回歸中,β系數(shù)A告訴我們特征A增加1單位將始終對我們的預(yù)測產(chǎn)生確切的影響;在神經(jīng)網(wǎng)絡(luò)中,我們不知道特征A的增加如何影響我們的預(yù)測。

在當(dāng)今的大數(shù)據(jù)和復(fù)雜數(shù)據(jù)世界中,模型的可解釋性似乎是一種很好的選擇,而不是必須具備的。但我認(rèn)為,在更簡單,更易解釋的模型不花很多錢的情況下(就預(yù)測的準(zhǔn)確性而言),保持簡單是明智的。

[[352942]]

知道模型何時(shí)可能斷裂

賦予每個(gè)人預(yù)測能力一種被低估的風(fēng)險(xiǎn)是,沒有事先預(yù)測經(jīng)驗(yàn)的人對無效或過度擬合模型可能造成的破壞,缺乏健康的尊重。

從行為上講,當(dāng)我們看到定量準(zhǔn)確的預(yù)測時(shí),就會(huì)陷入一種錯(cuò)誤的安全感(我們對數(shù)字和數(shù)學(xué)的精度感到滿意)。 但是,經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家會(huì)知道質(zhì)疑模型的假設(shè),并認(rèn)識(shí)到模型在什么條件下可能表現(xiàn)不佳。

這是另一個(gè)令人費(fèi)解的模型的缺點(diǎn)-如果我們看不到推動(dòng)我們預(yù)測的關(guān)鍵關(guān)系,那么很難知道我們處于一個(gè)這些關(guān)系不再有效的環(huán)境中。

我認(rèn)為,這很難自動(dòng)化??傆幸环莨ぷ魇菫槟切┘攘私饨⒛P秃妥龀鲱A(yù)測的好處和風(fēng)險(xiǎn)的人準(zhǔn)備的。

結(jié)論

一切可以自動(dòng)化的東西似乎最終都會(huì)實(shí)現(xiàn)。 因此,當(dāng)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的某些方面在某個(gè)時(shí)候?qū)崿F(xiàn)自動(dòng)化時(shí),我們不應(yīng)感到驚訝。 相反,我們應(yīng)該專注于難以自動(dòng)化的數(shù)據(jù)科學(xué)領(lǐng)域,并將在可預(yù)見的未來繼續(xù)增加價(jià)值:

  • 了解您業(yè)務(wù)的主要驅(qū)動(dòng)因素,以及影響這些驅(qū)動(dòng)因素的因素。
  • 知道如何適當(dāng)?shù)卮_定范圍和設(shè)計(jì)模型,以使其既不會(huì)太簡單,不足或太復(fù)雜。
  • 知道如何挖掘有洞察力的數(shù)據(jù),這些數(shù)據(jù)可用于提供數(shù)據(jù)科學(xué)模型。
  • 建立也“足夠好”的可解釋模型。
  • 能夠確定您的模型何時(shí)以及在何種情況下可能崩潰并產(chǎn)生不良的預(yù)測。

當(dāng)然,這些只是我的想法。 我也很想聽聽您的聲音。 Cheers!

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

 

責(zé)任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關(guān)推薦

2018-07-13 06:46:35

數(shù)據(jù)中心自動(dòng)化微服務(wù)

2010-12-06 09:42:17

網(wǎng)絡(luò)自動(dòng)化

2017-11-01 15:38:54

機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)資源

2023-02-01 13:23:00

AI自動(dòng)化

2021-03-09 08:00:00

人工智能超自動(dòng)化IT

2017-12-17 21:58:18

2024-06-11 10:41:14

2022-04-12 10:34:16

物聯(lián)網(wǎng)家庭自動(dòng)化IOT

2021-10-08 14:03:54

人工智能AI深度學(xué)習(xí)

2019-09-18 20:39:07

數(shù)據(jù)科學(xué)自動(dòng)化工具機(jī)器學(xué)習(xí)

2015-07-07 08:54:27

云計(jì)算自動(dòng)化運(yùn)維

2024-08-07 14:57:00

2020-03-05 21:10:08

人工智能AI

2009-05-19 15:48:43

2018-02-25 19:29:49

自動(dòng)化數(shù)字化IT

2017-08-08 09:48:41

數(shù)據(jù)科學(xué)技術(shù)

2019-08-22 09:07:11

大數(shù)據(jù)數(shù)據(jù)科學(xué)專業(yè)

2021-10-13 10:06:49

自動(dòng)化IT安全

2010-12-06 09:59:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)