自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

別跟風(fēng)了!你的公司根本不需要數(shù)據(jù)科學(xué)家

大數(shù)據(jù) 數(shù)據(jù)分析
企業(yè)管理者如果能從全局出發(fā)部署數(shù)據(jù)戰(zhàn)略,才能真正解決當(dāng)下數(shù)據(jù)科學(xué)家的痛點(diǎn),這樣數(shù)據(jù)科學(xué)家才能發(fā)揮作用解決公司的痛點(diǎn)。

[[239141]]

大數(shù)據(jù)文摘出品

編譯:Hope、倪倪、夏雅薇

數(shù)據(jù)科學(xué)家不是魔法師,當(dāng)所需的數(shù)據(jù)不可得或者質(zhì)量很差的時(shí)候,數(shù)據(jù)科學(xué)家能做的很有限,這已經(jīng)超過了技術(shù)的范疇。企業(yè)管理者如果能從全局出發(fā)部署數(shù)據(jù)戰(zhàn)略,才能真正解決當(dāng)下數(shù)據(jù)科學(xué)家的痛點(diǎn),這樣數(shù)據(jù)科學(xué)家才能發(fā)揮作用解決公司的痛點(diǎn)。

大約在四年前,數(shù)據(jù)科學(xué)家成為了每個公司的必須雇的人。技術(shù)人員爭先恐后地甩掉在大學(xué)用的統(tǒng)計(jì)課本,花大量的時(shí)間重新學(xué)習(xí)Python Pandas和R,然后惡補(bǔ)最時(shí)髦的機(jī)器學(xué)習(xí)理論,再買幾件geek制服顯得更像那么回事。我就是其中一員。

如果你是做Hadoop開發(fā)的,這也是你的黃金時(shí)代。因?yàn)榇蠹乙呀?jīng)達(dá)成了共識,不會map/reduce得數(shù)據(jù)科學(xué)家不是合格的數(shù)據(jù)科學(xué)家。伴隨著數(shù)據(jù)科學(xué)的熱潮,印度的程序員工廠推出了數(shù)以千計(jì)的Hadoop程序員和數(shù)據(jù)科學(xué)“專家”來迎接未來的“大事件”,一定程度上延長了瀕臨倒閉的Hadoop公司的壽命。

各大公司在***時(shí)間都開始了對數(shù)據(jù)科學(xué)家的投入。每一家在納斯達(dá)克指數(shù)中占有一席之地的公司都向這些數(shù)據(jù)科學(xué)家支付了巨額薪水,他們認(rèn)為數(shù)據(jù)的先知力量會讓他們挫敗競爭對手。

而各個銷售經(jīng)理和高層管理只要每天早上打開iPad就能實(shí)時(shí)看到公司具體運(yùn)營情況。數(shù)據(jù)儀表圖成為了重要的地位象征,企業(yè)高管會獲得具有3D可視化和實(shí)時(shí)動畫散點(diǎn)圖的超級豪華儀表圖,而基層員工也會看到平面2D儀表盤,雖然沒有那么花哨,但也會得到必要的信息和簡要的摘要。

然而,這其實(shí)改變不了什么。那些數(shù)據(jù)科學(xué)家(大部分具有高學(xué)歷和多年工作經(jīng)驗(yàn),如在制藥或高級材料工程領(lǐng)域)將會很快意識到他們使用的數(shù)據(jù)質(zhì)量其實(shí)非常糟糕。

[[239142]]

大家普遍認(rèn)為企業(yè)中存在各個環(huán)節(jié)、部門的各式各樣的數(shù)據(jù)都是有用的,但是***他們發(fā)現(xiàn)這些數(shù)據(jù)大部分是過時(shí)的,沒有固定格式的,只能夠?yàn)楫?dāng)時(shí)需要并收集這些數(shù)據(jù)的程序員所用。

大部分?jǐn)?shù)據(jù)都是以電子表格形式儲存,在沒有監(jiān)管的情況下多次被修改,因此與真實(shí)數(shù)據(jù)有很大偏差。很多數(shù)據(jù)集沒有詳盡的文檔記錄,表格的表頭名稱意義不清,比如MFGRTL3QREVPRJ,不同表格之間也沒有一致的主鍵。換句話說,他們擁有的數(shù)據(jù)不適合做任何分析,更不要提針對藥物試驗(yàn)的專業(yè)測試分析。

現(xiàn)在你拿著15萬美元的薪水來做可視化儀表圖,給那些根本不懂統(tǒng)計(jì)只想獲得百萬利潤和巨額提成的銷售經(jīng)理看。你的數(shù)據(jù)一團(tuán)糟,根本沒法用。當(dāng)你請求重建數(shù)據(jù)庫時(shí),公司陷入了掙扎,這個項(xiàng)目要花上百萬,而他們認(rèn)為沒有必要。現(xiàn)在你面臨一個選擇,其實(shí)你可以撒個謊,用計(jì)算機(jī)隨機(jī)產(chǎn)生數(shù)據(jù),然后得到一個很可能比目前數(shù)據(jù)更加準(zhǔn)確的結(jié)果。但是這對于數(shù)據(jù)工作者是個難題,因?yàn)檫@違背了他們追求精準(zhǔn)的初衷。那該怎么辦?

現(xiàn)在,我可以裝作一個語義分析傳道者,告訴你需要開發(fā)一個語義數(shù)據(jù)中心。實(shí)際上,這不是很難實(shí)現(xiàn),并且是有益處的,但它并不是什么神奇的魔法。語義數(shù)據(jù)可以比較容易轉(zhuǎn)化成可用的數(shù)據(jù)形式(如果沒有發(fā)現(xiàn)有用的數(shù)據(jù),也能發(fā)現(xiàn)并摒棄掉沒有的部分),但本質(zhì)上這不是數(shù)據(jù)科學(xué)問題——它是數(shù)據(jù)質(zhì)量和本體工程問題。

好了,對于那些高層決策者,當(dāng)你遇到數(shù)據(jù)上的問題,你的數(shù)據(jù)科學(xué)家可以有“萬花筒”般的數(shù)據(jù)分析方法,但是沒有高質(zhì)量的數(shù)據(jù)做保證,得到的結(jié)果一點(diǎn)用都沒有。巧婦難為無米之炊,這不是數(shù)據(jù)科學(xué)家的問題,是你的問題,你天天盯著那些能給你賺千萬資金的可視化儀表盤,其實(shí)是看著你的錢從門前溜走。

在數(shù)據(jù)分析的項(xiàng)目中盡管你不是實(shí)際操作的人,但你的參與絕對不是可有可無,首先你需要明確你想要什么信息,然后花時(shí)間與數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員一起確定需要收集什么數(shù)據(jù)。不要指望你想要的數(shù)據(jù)會奇跡般地從數(shù)據(jù)庫中出現(xiàn)。

再來談?wù)剶?shù)據(jù)庫。數(shù)據(jù)庫大多是為程序員所用,寫各種應(yīng)用程序,它存在的首要目的不是為你的公司提供具有洞見的指導(dǎo)性意見。首先你要坐下來好好想想你已經(jīng)有什么資源,因?yàn)橐獜膭e人那里索要數(shù)據(jù)資源是非常被動的,特別是當(dāng)這個數(shù)據(jù)獲得權(quán)涉及到別人的工作和職責(zé)范圍的時(shí)候。

再者,你要明白大多數(shù)數(shù)據(jù)庫都沒有詳盡的文檔記錄(有的甚至沒有文檔記錄),很多信息都需要從隱藏文獻(xiàn)中提取。這個過程被稱為推理計(jì)算,很多程序員不愿意做這個事情,因?yàn)檫@意味著他們需要從代碼去反推其他程序員的意圖,而別的程序員要么已經(jīng)離職了,要么能力有限,要么已經(jīng)忘了他們十年前寫的東西。

關(guān)系型的數(shù)據(jù)湖不能解決這個問題,數(shù)據(jù)湖唯一能夠解決的問題是讓計(jì)算機(jī)進(jìn)程能夠訪問所有的數(shù)據(jù)。這是此類推理計(jì)算的必要部分,但它不是最難也不是最昂貴的部分。最昂貴的部分是弄清楚數(shù)據(jù)實(shí)際意義是什么,獲得不同的數(shù)據(jù)集甚至能夠識別出它們是關(guān)于同一件事的。這些問題都沒有現(xiàn)成的解決方案,需要靠摸索。

這里,我們再次提出語義的解決方案——圖形三重存儲,RDF,本體管理,查詢和所有內(nèi)容。它不是一個開箱即用的解決方案,但它是一種工具,可以使推理分析變得可行,并且可以把這個工具交給程序員來管理。

不過,你需要經(jīng)常對整個數(shù)據(jù)流的過程進(jìn)行重新思考。你需要知道最開始從哪里獲得信息,然后讓信息盡早流入數(shù)據(jù)通道。這需要你的程序員和數(shù)據(jù)庫管理員放棄一定程度的自主權(quán),在一個集中化的環(huán)境中工作。作為執(zhí)行人的你,應(yīng)該更加熟悉數(shù)據(jù)治理的世界。

對于商業(yè)人士來說,這是一個相當(dāng)激進(jìn)的改變,不止一些人意識到他們要實(shí)際動手去解決IT問題。不過,如今的企業(yè)正在進(jìn)行轉(zhuǎn)變(并且大部分已經(jīng)成功轉(zhuǎn)型),成為專業(yè)的數(shù)據(jù)管理公司,產(chǎn)品和服務(wù)更像是它們的副產(chǎn)品。

現(xiàn)今CEO的角色是在管理銷售的同時(shí)了解公司數(shù)據(jù)的輸入與輸出,確保他們的數(shù)據(jù)質(zhì)量是***的。這不僅是為了合理的監(jiān)管,更因?yàn)閿?shù)據(jù)的完整最終會決定他們是否能夠在市場競爭中脫穎而出。

企業(yè)***要多與數(shù)據(jù)團(tuán)隊(duì)協(xié)作交流,來確定你需要知道什么,想要知道什么,什么東西是相關(guān)的,然后再來構(gòu)建和你商業(yè)需求相關(guān)的數(shù)據(jù)收集過程。隨意從數(shù)據(jù)庫里提取一些信息來分析,只是徒增磁盤儲存的成本而已,雇傭數(shù)據(jù)科學(xué)家來分析垃圾數(shù)據(jù)只能得到垃圾的分析結(jié)果。結(jié)果呈現(xiàn)可能很漂亮,各種漸變梯度各種三維效果,然而卻毫無價(jià)值。

相關(guān)報(bào)道:

https://medium.com/@kurtcagle/why-you-dont-need-data-scientists-a9654cc9f0e4

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2013-09-23 10:36:17

Hadoop大數(shù)據(jù)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2019-07-05 10:29:17

大數(shù)據(jù)數(shù)據(jù)科學(xué)家

2023-10-16 07:42:10

前端構(gòu)建高性能

2019-07-22 14:44:20

流量周杰倫微博

2013-11-12 09:27:01

大數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2012-12-24 10:41:00

大數(shù)據(jù)數(shù)據(jù)分析

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2020-08-03 12:47:58

DevOps數(shù)據(jù)科學(xué)家代碼

2018-01-25 14:19:32

深度學(xué)習(xí)數(shù)據(jù)科學(xué)遷移學(xué)習(xí)

2012-12-06 15:36:55

CIO

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2020-03-09 17:05:54

機(jī)器學(xué)習(xí)工程師數(shù)據(jù)結(jié)構(gòu)

2019-03-25 21:18:41

數(shù)據(jù)科學(xué)家大數(shù)據(jù)技能

2019-07-03 16:10:27

數(shù)據(jù)科學(xué)家數(shù)據(jù)庫數(shù)據(jù)工程師

2010-11-23 10:55:47

跳槽

2012-08-23 09:50:07

測試測試人員軟件測試

2023-05-23 09:34:16

科學(xué)家AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號