數(shù)據(jù)科學(xué)家:21世紀(jì)尤其臟的工作
在大數(shù)據(jù)世界里,數(shù)據(jù)科學(xué)家受到人們的尊敬,他們采用人工智能或深度學(xué)習(xí)的方法,提出寶貴的商業(yè)見解,造福社會(huì)。
《哈佛商業(yè)評(píng)論》曾這樣描述數(shù)據(jù)科學(xué)家——“數(shù)據(jù)科學(xué)家從事著21世紀(jì)最時(shí)尚的工作”。
對(duì)我來說,雖然過去五年擁有著“數(shù)據(jù)科學(xué)家”這個(gè)頭銜,但我仍然沒有完全弄清楚工作的哪個(gè)部分很時(shí)尚。可能是我新燙的頭發(fā)使我看起來像韓國(guó)歐巴。
確實(shí),云端的出現(xiàn)以及企業(yè)朝著互聯(lián)網(wǎng)方向的發(fā)展,帶來了數(shù)據(jù)的爆炸。這推動(dòng)了某些部門對(duì)數(shù)據(jù)科學(xué)家的需求以及該崗位的短缺。
但是,數(shù)據(jù)科學(xué)家每天要做什么工作呢?
通過分析領(lǐng)英上發(fā)布的職位信息,可以找到此問題的答案。以下總結(jié)了一些熱門的崗位要求:
- 了解業(yè)務(wù)和客戶,驗(yàn)證假設(shè)理論
- 建立預(yù)測(cè)模型和機(jī)器學(xué)習(xí)流水線,進(jìn)行A/ B測(cè)試
- 對(duì)業(yè)務(wù)相關(guān)者進(jìn)行概念化分析
- 開發(fā)算法以賦能商業(yè)決策
- 試驗(yàn)并研究新技術(shù)和方法,提高技術(shù)能力。
這些聽起來很時(shí)尚/高大上,不是嗎?
除非工作還包括處理Kaggle數(shù)據(jù)集,否則這些工作描述只是數(shù)據(jù)科學(xué)家工作的一小部分。
以下調(diào)查結(jié)果由CrowdFlower發(fā)布,總結(jié)了數(shù)據(jù)科學(xué)家的日常活動(dòng):
數(shù)據(jù)科學(xué)家花費(fèi)時(shí)間最多的事情。[摘自CrowdFlower]
從上表可以看出,數(shù)據(jù)科學(xué)家大部分時(shí)間都在收集數(shù)據(jù)集,清理和組織數(shù)據(jù)。
21世紀(jì)的高性能數(shù)據(jù)真空
數(shù)據(jù)湖是一個(gè)集中存儲(chǔ)庫(kù),存儲(chǔ)著公司的所有數(shù)據(jù)。公司得以使用該數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型和儀表板。遺憾的是,有些人僅僅把數(shù)據(jù)湖當(dāng)作數(shù)據(jù)轉(zhuǎn)儲(chǔ)的場(chǎng)所,或者超大硬盤。
許多公司開始實(shí)施數(shù)據(jù)湖時(shí),對(duì)如何處理收集到的數(shù)據(jù)一無所知。這些公司會(huì)說:“讓我們收集所有的數(shù)據(jù)吧。”雖然數(shù)據(jù)湖的重點(diǎn)是將公司的所有數(shù)據(jù)集中在一個(gè)地方,但仍然需要根據(jù)特定的項(xiàng)目需求進(jìn)行設(shè)計(jì)。如果不進(jìn)行任何計(jì)劃,你就像創(chuàng)建了一個(gè)新的“無標(biāo)題文件夾”,然后在其中復(fù)制并粘貼公司的全部數(shù)據(jù)。
如果把臺(tái)式機(jī)視為數(shù)據(jù)轉(zhuǎn)儲(chǔ)場(chǎng)
從歷史的角度看,糟糕的計(jì)劃會(huì)帶來雜亂無章的元數(shù)據(jù),這讓任何人都很難搜索或查找所需的數(shù)據(jù)。數(shù)據(jù)科學(xué)家經(jīng)常需要與不同部門聯(lián)系以獲取數(shù)據(jù)。他們可能需要從不同的數(shù)據(jù)所有者中獲取有關(guān)數(shù)據(jù)的信息。僅存儲(chǔ)數(shù)據(jù)而不進(jìn)行分類是一個(gè)很大的錯(cuò)誤。建立有效數(shù)據(jù)湖的關(guān)鍵就是要確保元數(shù)據(jù)有良好的歸類。
由于數(shù)據(jù)治理問題或數(shù)據(jù)所有者過于忙碌,且他們往往是不同部門的利益相關(guān)者,因此獲取重要數(shù)據(jù)可能需要數(shù)周的時(shí)間。觀察一段時(shí)間后,數(shù)據(jù)科學(xué)家可能最終會(huì)發(fā)現(xiàn)數(shù)據(jù)不相關(guān)或存在嚴(yán)重的質(zhì)量問題。
當(dāng)數(shù)據(jù)科學(xué)家最終收集到數(shù)據(jù)時(shí),他們需要花費(fèi)大量時(shí)間來探索和熟悉這些數(shù)據(jù),必須將這些混亂的數(shù)據(jù)塊重組為符合項(xiàng)目需求的新表。
21世紀(jì)里高需求的數(shù)據(jù)管理員
來源:data.lovedata
每個(gè)處理數(shù)據(jù)的專業(yè)人員都應(yīng)該聽說過“臟數(shù)據(jù)”一詞。臟數(shù)據(jù)影響了數(shù)據(jù)集的完整性。臟數(shù)據(jù)的特征有:不完整、不準(zhǔn)確、不一致和重復(fù)。
不完整的數(shù)據(jù)是指當(dāng)某些基本功能為空時(shí),例如,假設(shè)任務(wù)是預(yù)測(cè)房?jī)r(jià)。假設(shè)“房子的位置”對(duì)于做出良好的預(yù)測(cè)至關(guān)重要,但是這一數(shù)據(jù)卻沒有。這可能會(huì)變得具有挑戰(zhàn)性,并且模型的效果也不佳。
不正確的數(shù)據(jù)和不一致的數(shù)據(jù)是指該值在技術(shù)上是正確的,但在語境下是錯(cuò)誤的。例如,一名員工更改了地址,但數(shù)據(jù)卻未更新,或者當(dāng)數(shù)據(jù)有很多副本,而數(shù)據(jù)科學(xué)家得到的版本卻已過時(shí)。
數(shù)據(jù)重復(fù)也是一個(gè)常見問題。在此分享一個(gè)我在電子商務(wù)公司工作時(shí)發(fā)生的故事。按照設(shè)計(jì),當(dāng)訪問者單擊“收集優(yōu)惠券”按鈕時(shí),網(wǎng)站將響應(yīng)發(fā)送到服務(wù)器。這使我們能夠衡量已收集到優(yōu)惠券的用戶數(shù)量。
該網(wǎng)站一直運(yùn)行良好,直到有一天出現(xiàn)了一些變化,而我對(duì)此一無所知。前端開發(fā)人員在有人成功收集優(yōu)惠券時(shí)添加了另一個(gè)響應(yīng),理由是某些優(yōu)惠券可能缺貨了。數(shù)據(jù)科學(xué)家想跟蹤單擊該按鈕的訪問者,以及已經(jīng)收集了優(yōu)惠券的訪問者。
這時(shí),兩個(gè)響應(yīng)發(fā)送到同一日志表??纯次业膱?bào)告工具,優(yōu)惠券的數(shù)量似乎在一夜之間翻了一番!在前一天部署模型時(shí),我以為新模型是很成功的。我記得曾為這個(gè)小模型歡呼鼓掌,但后來意識(shí)到這只是在重復(fù)計(jì)算。
另外,在過去五年里,作為數(shù)據(jù)科學(xué)家,我收集到的一些數(shù)據(jù)是公司員工手動(dòng)輸入的。在Excel電子表格中,許多數(shù)據(jù)是不準(zhǔn)確、不完整且不一致的。
無論數(shù)據(jù)是人工輸入還是機(jī)器日志,數(shù)據(jù)整理在現(xiàn)實(shí)世界中應(yīng)用廣泛。數(shù)據(jù)科學(xué)家必須處理這些數(shù)據(jù)。為了使監(jiān)督學(xué)習(xí)有效,我們需要可靠的、分類好的數(shù)據(jù)。除非正確標(biāo)記數(shù)據(jù),否則無法建立預(yù)測(cè)模型。但是沒有人喜歡標(biāo)記數(shù)據(jù)。
許多人將其描述為二八規(guī)則。數(shù)據(jù)科學(xué)家僅花了20%的時(shí)間構(gòu)建模型,而其他80%的時(shí)間用于收集、分析、清理和重組數(shù)據(jù)。處理臟數(shù)據(jù)是數(shù)據(jù)科學(xué)家日常工作中最耗時(shí)的。
來源:Pexels
有必要說明的是,數(shù)據(jù)清理至關(guān)重要,混亂的數(shù)據(jù)不會(huì)帶來良好的結(jié)果,你可能聽過“垃圾進(jìn),垃圾出”這句話。
數(shù)據(jù)科學(xué)家在瀏覽數(shù)據(jù)時(shí)確實(shí)會(huì)有所發(fā)現(xiàn),但是在數(shù)據(jù)科學(xué)家可以開始訓(xùn)練任何模型之前,必須首先成為數(shù)據(jù)管理員。數(shù)據(jù)需要清理,也需要標(biāo)記。
所以,將數(shù)據(jù)科學(xué)家稱為大數(shù)據(jù)世界的清潔工,應(yīng)該也挺合適吧……