你要了解數(shù)據(jù)科學(xué)團隊中的這些角色
譯文譯者 | 李睿
審校 | 孫淑娟
全球知名的流媒體服務(wù)商Netflix公司在2017年將其五星級評級系統(tǒng)更改為“拇指向上”(喜歡)和“拇指向下”(不喜歡)簡單的評價系統(tǒng)。該系統(tǒng)可以根據(jù)百分比匹配來推薦電影,但也有人對這一做法很反感。那么如何將電影藝術(shù)中所有的細(xì)微差別簡化為一種原始的二元反應(yīng)?
實際上,Netflix公司發(fā)現(xiàn)人們對那些他們認(rèn)為很好的電影給予了很高的評價,但不一定是他們真正喜歡觀看的電影。至少數(shù)據(jù)是這么描述的。那么數(shù)據(jù)分析在像Netflix這樣的公司中是如何工作的?數(shù)據(jù)科學(xué)團隊的角色是什么?
Netflix反饋系統(tǒng)
Gibson Biddle是Netflix公司的前副總裁兼首席產(chǎn)品官。在談到消費者洞察時,他對導(dǎo)致整個評級系統(tǒng)發(fā)生變化的意外客戶行為進行了解釋。在轉(zhuǎn)換成百分比匹配時,Netflix表示雖然觀眾可能喜歡觀看亞當(dāng)·桑德勒主演的喜劇,但給出的評價可能只有三顆星;而觀眾對觀看《辛德勒的名單》這部電影感覺很好,并給出五顆星的評價,但這并不會增加其整體樂趣,讓訂閱者滿意對Netflix來說是至關(guān)重要的。因此,他們簡化了反饋系統(tǒng)以避免偏差。但是這些對客戶的洞察本身就令人印象深刻,如果沒有促進數(shù)據(jù)使用的文化和強大的數(shù)據(jù)基礎(chǔ)設(shè)施這個因素,它們是不可能實現(xiàn)的。用技術(shù)術(shù)語來說,這被稱為數(shù)據(jù)驅(qū)動的組織。
數(shù)據(jù)驅(qū)動的組織
人們可能多次聽到“數(shù)據(jù)驅(qū)動”這個流行術(shù)語,但它的真正含義是什么?僅Netflix公司每天就記錄超過7000億個事件,從登錄和點擊電影縮略圖到暫停視頻和打開字幕。所有這些數(shù)據(jù)都可供用戶使用。任何人都可以使用tableau或Jupiter等可視化工具訪問它,或者他們可以通過大數(shù)據(jù)門戶訪問它——這是一個允許用戶檢查報告、生成報告或查詢他們需要的任何信息的環(huán)境。然后,這些數(shù)據(jù)用于制定業(yè)務(wù)決策,從較小的縮略圖(例如展示哪些縮略圖)到企業(yè)的決策(例如Netflix公司下一步應(yīng)該投資和推出哪些節(jié)目)。
數(shù)據(jù)驅(qū)動的組織并非只有Netflix公司一家。據(jù)估計,財富1000強企業(yè)中約有97%的企業(yè)投資于人工智能和大數(shù)據(jù)等項目。以下了解真正的數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)和使其運營的數(shù)據(jù)工程師。
數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)
為了描述數(shù)據(jù)基礎(chǔ)設(shè)施的工作原理,技術(shù)人員借用了通常運輸液體或氣體的“管道”這一術(shù)語。數(shù)據(jù)管道有自己的起點、終點和中間站。所以這是一個非常貼切的比喻。數(shù)據(jù)的來源可能是任何事務(wù),從點擊保留按鈕和刷新頁面到與客戶支持的對話記錄,從車輛跟蹤設(shè)備到發(fā)電廠的渦輪振動傳感器。在當(dāng)今世界,實際上很難說有什么不能生成數(shù)據(jù),即使沒有數(shù)據(jù)也能告訴人們一些事情。
一旦生成數(shù)據(jù)項,它就會沿著管道到達(dá)暫存區(qū)域。這是保存所有原始數(shù)據(jù)的地方。原始數(shù)據(jù)尚未準(zhǔn)備好使用。你必須做好準(zhǔn)備。如果沒有做,必須填補空白,更改其格式或合并來自不同來源的數(shù)據(jù),以獲得更細(xì)致的觀察。一旦完成這些操作,就會獲得結(jié)構(gòu)化和干凈的數(shù)據(jù)。所有這些操作都是自動進行的。它們用兩個詞語來描述。
- 提?。簭臄?shù)據(jù)源中提取數(shù)據(jù)并將其送到暫存區(qū)域。
- 轉(zhuǎn)換:準(zhǔn)備數(shù)據(jù)以供使用并加載將準(zhǔn)備好的數(shù)據(jù)進一步推入ETL。
所有準(zhǔn)備好的數(shù)據(jù)都進入另一個存儲器,即數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫
與暫存區(qū)域不同,數(shù)據(jù)倉庫是所有存儲記錄都進行結(jié)構(gòu)化并準(zhǔn)備使用的地方。就像圖書館的分類系統(tǒng)一樣,可以查詢、可視化和下載倉庫的信息。為此,必須擁有商業(yè)智能(BI)軟件。它將數(shù)據(jù)呈現(xiàn)給最終用戶。
數(shù)據(jù)列表和業(yè)務(wù)分析師
數(shù)據(jù)列表和業(yè)務(wù)分析師是執(zhí)行基本任務(wù)的人員。他們訪問數(shù)據(jù)、探索數(shù)據(jù)、將其可視化,并嘗試使其具有商業(yè)意義。例如,企業(yè)的營銷活動成功嗎?表現(xiàn)最差的渠道是什么?它們就像一個感官系統(tǒng),通過歷史數(shù)據(jù)為企業(yè)提供支持,并為管理層以及最終決策者提供見解。
數(shù)據(jù)工程師
數(shù)據(jù)工程師負(fù)責(zé)構(gòu)建整個管道。大多數(shù)技術(shù)人員都精通所謂的“管道”。通過管道將數(shù)據(jù)從源頭移動到目的地,并在途中對其進行轉(zhuǎn)換。他們設(shè)計管道架構(gòu)、設(shè)置ETL流程、配置倉庫,并將其與報告工具連接起來。例如,Airbnb公司擁有約50名數(shù)據(jù)工程師。該公司有時可能會遇到涉及一些額外規(guī)則的更精細(xì)的方法。例如,數(shù)據(jù)質(zhì)量工程師確保正確捕獲和轉(zhuǎn)換數(shù)據(jù)。當(dāng)試圖從中得出決策時,擁有有偏見或不正確的數(shù)據(jù)代價太高。可能有單獨的工程師僅負(fù)責(zé)ETL。此外,商業(yè)智能開發(fā)人員只專注于集成報告和可視化工具。然而,報告工具并不會成為頭條新聞,數(shù)據(jù)工程師也不是21世紀(jì)的最佳工作,但機器學(xué)習(xí)和數(shù)據(jù)科學(xué)家可能是。
機器學(xué)習(xí)和數(shù)據(jù)科學(xué)家
眾所周知的是,數(shù)據(jù)科學(xué)家特別擅長收集數(shù)據(jù)并回答有關(guān)數(shù)據(jù)的復(fù)雜問題,例如企業(yè)下個季度的收入是多少?優(yōu)步預(yù)約的汽車什么時候到達(dá)?喜歡《辛德勒名單》和《原鉆》的可能性有多大?
實際上有兩種方法可以回答這些問題。數(shù)據(jù)科學(xué)家像業(yè)務(wù)分析師和數(shù)據(jù)分析師一樣使用商業(yè)智能工具和倉庫數(shù)據(jù)。所以,他們會從倉庫中獲取數(shù)據(jù)。有時數(shù)據(jù)科學(xué)家會使用數(shù)據(jù)湖:另一種存儲非結(jié)構(gòu)化欺詐數(shù)據(jù)的存儲類型。他們將創(chuàng)建一個預(yù)測模型,并提出可供管理層使用的預(yù)測。它適用于收入估算的一次性報告,但對預(yù)測優(yōu)步預(yù)約汽車的到達(dá)時間沒有幫助。
機器學(xué)習(xí)的真正價值在于生產(chǎn)模型可以自動工作,并定期生成復(fù)雜問題的答案,有時每秒生成數(shù)千次,用它們處理的事情要復(fù)雜得多。
生產(chǎn)機器學(xué)習(xí)模型
為了使模型工作,還需要基礎(chǔ)設(shè)施。有時這是一個很大的問題。數(shù)據(jù)科學(xué)家探索數(shù)據(jù)倉庫和數(shù)據(jù)湖中的數(shù)據(jù),對其進行實驗,選擇算法,并訓(xùn)練模型以產(chǎn)生最終的機器學(xué)習(xí)代碼。這需要對統(tǒng)計數(shù)據(jù)庫、機器學(xué)習(xí)算法和學(xué)科領(lǐng)域有深入的理解。
SLAC公司前數(shù)據(jù)工程負(fù)責(zé)人Josh Wills在推特上表示,“數(shù)據(jù)科學(xué)家是比任何軟件工程都更擅長統(tǒng)計學(xué)的人。”
例如訂餐者使用ubereats 軟件點餐。用戶一旦確認(rèn)訂單,該應(yīng)用程序必須估計交付時間、訂餐者的位置、餐廳和訂單數(shù)據(jù)發(fā)送到部署了交付預(yù)測機器學(xué)習(xí)模型的服務(wù)器。但這些數(shù)據(jù)還不足夠。該模型還從一個單獨的數(shù)據(jù)庫中獲取額外數(shù)據(jù),其中包含餐廳準(zhǔn)備的平均時間和其他詳細(xì)信息。一旦有了所有的數(shù)據(jù),模型會向訂餐者返回預(yù)測。然而,這一過程并沒有就此結(jié)束。預(yù)測本身保存在一個單獨的數(shù)據(jù)庫中。它將針對監(jiān)控模型性能,并通過分析工具探索模型,以便稍后對其進行更新。所有這些數(shù)據(jù)最終都會出現(xiàn)在數(shù)據(jù)湖和數(shù)據(jù)倉庫中。
實際上,僅ubereats訂餐服務(wù)就使用了數(shù)百種不同的模型同時工作,對推薦進行評分,對餐廳進行搜索排名,并估計送貨時間。
結(jié)論
Foursquare公司核心技術(shù)負(fù)責(zé)人Adam Waxman認(rèn)為,未來將不再有數(shù)據(jù)科學(xué)家或機器學(xué)習(xí)工程師這些職位,因為隨著模型訓(xùn)練的自動化和持續(xù)構(gòu)建生產(chǎn)環(huán)境,許多數(shù)據(jù)科學(xué)家的工作將成為軟件開發(fā)中的常見功能。
原文標(biāo)題:??Roles in Data Science Teams??,作者:Anomi Ragendran