自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)家:21世紀(jì)尤其臟的工作

大數(shù)據(jù)
在大數(shù)據(jù)世界里,數(shù)據(jù)科學(xué)家受到人們的尊敬,他們采用人工智能或深度學(xué)習(xí)的方法,提出寶貴的商業(yè)見解,造福社會(huì)。

在大數(shù)據(jù)世界里,數(shù)據(jù)科學(xué)家受到人們的尊敬,他們采用人工智能或深度學(xué)習(xí)的方法,提出寶貴的商業(yè)見解,造福社會(huì)。

《哈佛商業(yè)評(píng)論》曾這樣描述數(shù)據(jù)科學(xué)家——“數(shù)據(jù)科學(xué)家從事著21世紀(jì)最時(shí)尚的工作”。

對(duì)我來說,雖然過去五年擁有著“數(shù)據(jù)科學(xué)家”這個(gè)頭銜,但我仍然沒有完全弄清楚工作的哪個(gè)部分很時(shí)尚。可能是我新燙的頭發(fā)使我看起來像韓國(guó)歐巴。

確實(shí),云端的出現(xiàn)以及企業(yè)朝著互聯(lián)網(wǎng)方向的發(fā)展,帶來了數(shù)據(jù)的爆炸。這推動(dòng)了某些部門對(duì)數(shù)據(jù)科學(xué)家的需求以及該崗位的短缺。

數(shù)據(jù)科學(xué)家

但是,數(shù)據(jù)科學(xué)家每天要做什么工作呢?

通過分析領(lǐng)英上發(fā)布的職位信息,可以找到此問題的答案。以下總結(jié)了一些熱門的崗位要求:

  • 了解業(yè)務(wù)和客戶,驗(yàn)證假設(shè)理論
  • 建立預(yù)測(cè)模型和機(jī)器學(xué)習(xí)流水線,進(jìn)行A/ B測(cè)試
  • 對(duì)業(yè)務(wù)相關(guān)者進(jìn)行概念化分析
  • 開發(fā)算法以賦能商業(yè)決策
  • 試驗(yàn)并研究新技術(shù)和方法,提高技術(shù)能力。

這些聽起來很時(shí)尚/高大上,不是嗎?

除非工作還包括處理Kaggle數(shù)據(jù)集,否則這些工作描述只是數(shù)據(jù)科學(xué)家工作的一小部分。

以下調(diào)查結(jié)果由CrowdFlower發(fā)布,總結(jié)了數(shù)據(jù)科學(xué)家的日常活動(dòng):

數(shù)據(jù)科學(xué)家:21世紀(jì)最臟的工作

數(shù)據(jù)科學(xué)家花費(fèi)時(shí)間最多的事情。[摘自CrowdFlower]

從上表可以看出,數(shù)據(jù)科學(xué)家大部分時(shí)間都在收集數(shù)據(jù)集,清理和組織數(shù)據(jù)。

21世紀(jì)的高性能數(shù)據(jù)真空

數(shù)據(jù)湖是一個(gè)集中存儲(chǔ)庫(kù),存儲(chǔ)著公司的所有數(shù)據(jù)。公司得以使用該數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型和儀表板。遺憾的是,有些人僅僅把數(shù)據(jù)湖當(dāng)作數(shù)據(jù)轉(zhuǎn)儲(chǔ)的場(chǎng)所,或者超大硬盤。

許多公司開始實(shí)施數(shù)據(jù)湖時(shí),對(duì)如何處理收集到的數(shù)據(jù)一無所知。這些公司會(huì)說:“讓我們收集所有的數(shù)據(jù)吧。”雖然數(shù)據(jù)湖的重點(diǎn)是將公司的所有數(shù)據(jù)集中在一個(gè)地方,但仍然需要根據(jù)特定的項(xiàng)目需求進(jìn)行設(shè)計(jì)。如果不進(jìn)行任何計(jì)劃,你就像創(chuàng)建了一個(gè)新的“無標(biāo)題文件夾”,然后在其中復(fù)制并粘貼公司的全部數(shù)據(jù)。

[[319605]]

如果把臺(tái)式機(jī)視為數(shù)據(jù)轉(zhuǎn)儲(chǔ)場(chǎng)

從歷史的角度看,糟糕的計(jì)劃會(huì)帶來雜亂無章的元數(shù)據(jù),這讓任何人都很難搜索或查找所需的數(shù)據(jù)。數(shù)據(jù)科學(xué)家經(jīng)常需要與不同部門聯(lián)系以獲取數(shù)據(jù)。他們可能需要從不同的數(shù)據(jù)所有者中獲取有關(guān)數(shù)據(jù)的信息。僅存儲(chǔ)數(shù)據(jù)而不進(jìn)行分類是一個(gè)很大的錯(cuò)誤。建立有效數(shù)據(jù)湖的關(guān)鍵就是要確保元數(shù)據(jù)有良好的歸類。

由于數(shù)據(jù)治理問題或數(shù)據(jù)所有者過于忙碌,且他們往往是不同部門的利益相關(guān)者,因此獲取重要數(shù)據(jù)可能需要數(shù)周的時(shí)間。觀察一段時(shí)間后,數(shù)據(jù)科學(xué)家可能最終會(huì)發(fā)現(xiàn)數(shù)據(jù)不相關(guān)或存在嚴(yán)重的質(zhì)量問題。

當(dāng)數(shù)據(jù)科學(xué)家最終收集到數(shù)據(jù)時(shí),他們需要花費(fèi)大量時(shí)間來探索和熟悉這些數(shù)據(jù),必須將這些混亂的數(shù)據(jù)塊重組為符合項(xiàng)目需求的新表。

21世紀(jì)里高需求的數(shù)據(jù)管理員

[[319606]]

來源:data.lovedata

每個(gè)處理數(shù)據(jù)的專業(yè)人員都應(yīng)該聽說過“臟數(shù)據(jù)”一詞。臟數(shù)據(jù)影響了數(shù)據(jù)集的完整性。臟數(shù)據(jù)的特征有:不完整、不準(zhǔn)確、不一致和重復(fù)。

不完整的數(shù)據(jù)是指當(dāng)某些基本功能為空時(shí),例如,假設(shè)任務(wù)是預(yù)測(cè)房?jī)r(jià)。假設(shè)“房子的位置”對(duì)于做出良好的預(yù)測(cè)至關(guān)重要,但是這一數(shù)據(jù)卻沒有。這可能會(huì)變得具有挑戰(zhàn)性,并且模型的效果也不佳。

不正確的數(shù)據(jù)和不一致的數(shù)據(jù)是指該值在技術(shù)上是正確的,但在語境下是錯(cuò)誤的。例如,一名員工更改了地址,但數(shù)據(jù)卻未更新,或者當(dāng)數(shù)據(jù)有很多副本,而數(shù)據(jù)科學(xué)家得到的版本卻已過時(shí)。

數(shù)據(jù)重復(fù)也是一個(gè)常見問題。在此分享一個(gè)我在電子商務(wù)公司工作時(shí)發(fā)生的故事。按照設(shè)計(jì),當(dāng)訪問者單擊“收集優(yōu)惠券”按鈕時(shí),網(wǎng)站將響應(yīng)發(fā)送到服務(wù)器。這使我們能夠衡量已收集到優(yōu)惠券的用戶數(shù)量。

該網(wǎng)站一直運(yùn)行良好,直到有一天出現(xiàn)了一些變化,而我對(duì)此一無所知。前端開發(fā)人員在有人成功收集優(yōu)惠券時(shí)添加了另一個(gè)響應(yīng),理由是某些優(yōu)惠券可能缺貨了。數(shù)據(jù)科學(xué)家想跟蹤單擊該按鈕的訪問者,以及已經(jīng)收集了優(yōu)惠券的訪問者。

這時(shí),兩個(gè)響應(yīng)發(fā)送到同一日志表??纯次业膱?bào)告工具,優(yōu)惠券的數(shù)量似乎在一夜之間翻了一番!在前一天部署模型時(shí),我以為新模型是很成功的。我記得曾為這個(gè)小模型歡呼鼓掌,但后來意識(shí)到這只是在重復(fù)計(jì)算。

另外,在過去五年里,作為數(shù)據(jù)科學(xué)家,我收集到的一些數(shù)據(jù)是公司員工手動(dòng)輸入的。在Excel電子表格中,許多數(shù)據(jù)是不準(zhǔn)確、不完整且不一致的。

無論數(shù)據(jù)是人工輸入還是機(jī)器日志,數(shù)據(jù)整理在現(xiàn)實(shí)世界中應(yīng)用廣泛。數(shù)據(jù)科學(xué)家必須處理這些數(shù)據(jù)。為了使監(jiān)督學(xué)習(xí)有效,我們需要可靠的、分類好的數(shù)據(jù)。除非正確標(biāo)記數(shù)據(jù),否則無法建立預(yù)測(cè)模型。但是沒有人喜歡標(biāo)記數(shù)據(jù)。

許多人將其描述為二八規(guī)則。數(shù)據(jù)科學(xué)家僅花了20%的時(shí)間構(gòu)建模型,而其他80%的時(shí)間用于收集、分析、清理和重組數(shù)據(jù)。處理臟數(shù)據(jù)是數(shù)據(jù)科學(xué)家日常工作中最耗時(shí)的。

[[319607]]

來源:Pexels

有必要說明的是,數(shù)據(jù)清理至關(guān)重要,混亂的數(shù)據(jù)不會(huì)帶來良好的結(jié)果,你可能聽過“垃圾進(jìn),垃圾出”這句話。

數(shù)據(jù)科學(xué)家在瀏覽數(shù)據(jù)時(shí)確實(shí)會(huì)有所發(fā)現(xiàn),但是在數(shù)據(jù)科學(xué)家可以開始訓(xùn)練任何模型之前,必須首先成為數(shù)據(jù)管理員。數(shù)據(jù)需要清理,也需要標(biāo)記。

所以,將數(shù)據(jù)科學(xué)家稱為大數(shù)據(jù)世界的清潔工,應(yīng)該也挺合適吧……

責(zé)任編輯:趙寧寧 來源: 讀芯術(shù)
相關(guān)推薦

2012-10-09 13:41:09

數(shù)據(jù)科學(xué)家職業(yè)

2020-05-29 17:30:05

數(shù)據(jù)科學(xué)數(shù)據(jù)工程師職業(yè)

2017-09-11 10:37:56

編程語言名單

2024-04-22 11:40:50

2022-11-14 12:38:29

2015-09-30 09:26:38

大數(shù)據(jù)高薪

2020-04-10 10:11:15

數(shù)據(jù)泄露漏洞信息安全

2013-05-21 16:20:40

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2013-06-03 09:36:24

21世紀(jì)代碼寫代碼

2019-10-08 10:35:53

編譯Linux內(nèi)核

2013-06-03 10:18:59

WindowsLinux微軟Office

2011-04-20 13:14:33

BlackBerry黑莓RIM

2019-12-30 22:24:50

大數(shù)據(jù)機(jī)器學(xué)習(xí)文章

2011-11-23 09:33:46

程序員

2018-12-21 14:44:17

數(shù)據(jù)科學(xué)職業(yè)生涯代碼

2018-02-01 16:25:55

2020-12-22 09:42:47

生物識(shí)別網(wǎng)絡(luò)安全

2019-03-06 08:37:46

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家Python

2019-08-26 09:47:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)