自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何用好數(shù)據(jù)科學(xué)?

譯文 精選
大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)科學(xué)正逐漸成為一些組織夢寐以求的資產(chǎn),隨著時間的推移,它必將獲得更多的關(guān)注。

很長一段時間以來,數(shù)據(jù)科學(xué)一直被視為科技和商業(yè)領(lǐng)域的下一次重大革命。最近幾年增加了不少使用數(shù)據(jù)科學(xué)應(yīng)用的企業(yè)。根據(jù)Statista的數(shù)據(jù),截至2021年,近60%的公司在其團(tuán)隊中擁有至少50名數(shù)據(jù)科學(xué)家。

然而,如果客觀地看待,數(shù)據(jù)科學(xué)提供的結(jié)果與它的期望并不匹配。許多將數(shù)據(jù)科學(xué)方法應(yīng)用于數(shù)據(jù)的企業(yè)經(jīng)常發(fā)現(xiàn)他們的數(shù)據(jù)科學(xué)項目是不可行的。

導(dǎo)致這種結(jié)果的一個重要原因是不能正確執(zhí)行數(shù)據(jù)科學(xué)的程序。其他原因通常包括對業(yè)務(wù)問題缺乏了解、項目設(shè)計不一致以及將數(shù)據(jù)洞察力轉(zhuǎn)化為可操作結(jié)果的能力不足。

數(shù)據(jù)科學(xué)是復(fù)雜的,公司需要使用一些最佳實踐來更好地實施數(shù)據(jù)科學(xué)程序。

在本文中,我們將討論公司可以參考哪些實踐,以提高數(shù)據(jù)科學(xué)工作的成功率。首先讓我們了解一些數(shù)據(jù)科學(xué)的基本概念。

解讀數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)聽起來好像類似于比特幣、NFT、加密等IT流行語。但是拋開炒作,我們會看到一個多層次的領(lǐng)域,是融合了數(shù)學(xué)推理和計算機編程等多個方面來理解數(shù)據(jù)。

與看起來相反的是,數(shù)據(jù)科學(xué)并不是一個新的IT術(shù)語。在20世紀(jì)后期它的用途接近于統(tǒng)計,意思是有組織的數(shù)據(jù)文檔。

數(shù)據(jù)科學(xué)從根本上說是大數(shù)據(jù)、數(shù)據(jù)挖掘和機器學(xué)習(xí)等學(xué)科的擴充和結(jié)合?,F(xiàn)在,它本質(zhì)上是指收集和分析一個公司或組織的非結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)科學(xué)家是記錄和解讀龐大和雜亂數(shù)據(jù)的專業(yè)人士,他們使用數(shù)學(xué)能力、編碼技能和一系列有關(guān)數(shù)據(jù)庫、計算和通信等技能來處理數(shù)據(jù)并得出相關(guān)見解。然后,公司利用這些見解來改善他們的客戶服務(wù)、產(chǎn)品質(zhì)量、組織間溝通等等。

數(shù)據(jù)科學(xué)正逐漸成為一些組織夢寐以求的資產(chǎn),隨著時間的推移,它必將獲得更多的關(guān)注。

10 個有效的數(shù)據(jù)科學(xué)最佳實踐操作指南

 到目前為止,我們已經(jīng)收集了有關(guān)數(shù)據(jù)科學(xué)的定義和目標(biāo)的信息?,F(xiàn)在讓我們看看公司可以遵守的一些數(shù)據(jù)科學(xué)實踐操作,以便更好地利用數(shù)據(jù)科學(xué)的優(yōu)勢。

1. 在組織中建立專門的數(shù)據(jù)科學(xué)計劃

公司不能充分利用其數(shù)據(jù)科學(xué)能力的一個主要原因是缺乏專門的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施。通常情況下,公司由兩到三個數(shù)據(jù)科學(xué)團(tuán)隊組成,他們同時從事不同的工作。他們沒有成文的工作方式,也缺乏衡量他們完成的每項任務(wù)是否成功所需的指標(biāo)。

此外,在許多情況下,這些團(tuán)隊缺乏必要的技術(shù)支持,無法發(fā)揮其潛力。因此,這些團(tuán)隊為企業(yè)的整體發(fā)展提供的價值并不大。

為了更好地利用其數(shù)據(jù)科學(xué)團(tuán)隊未被充分利用的能力,每個企業(yè)都需要鼓勵建立一個數(shù)據(jù)科學(xué)計劃,其中包括:

1.數(shù)據(jù)科學(xué)計劃的目標(biāo)

2.為自己配備必要的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施(訓(xùn)練有素的專家、性能優(yōu)越的設(shè)備等)

3.交付路線圖

4.績效衡量標(biāo)準(zhǔn)

2. 創(chuàng)建有能力的團(tuán)隊,而不是尋找獨角獸

 獨角獸指的是一種神話般的生物,它像一匹馬,額頭上有角。在流行文化中,這個詞被用作比喻許多人渴望但難以獲得的東西。

在數(shù)據(jù)科學(xué)的語境里,獨角獸這個詞指的是一個人,更具體地說是一個數(shù)據(jù)科學(xué)家,他擁有企業(yè)所需的幾乎所有數(shù)據(jù)科學(xué)技能。

與獨角獸的定義一樣,數(shù)據(jù)科學(xué)獨角獸是一種罕見的現(xiàn)象。

這意味著,企業(yè)應(yīng)該優(yōu)先建立跨職能的數(shù)據(jù)科學(xué)團(tuán)隊,而不是尋找一個全能型的人。

典型的跨職能或跨學(xué)科數(shù)據(jù)科學(xué)團(tuán)隊由以下人員組成:

數(shù)據(jù)工程師,負(fù)責(zé)收集、轉(zhuǎn)換和匯集未經(jīng)提煉的數(shù)據(jù),為團(tuán)隊其他成員提供可訪問和可用的信息。

機器學(xué)習(xí)專家,創(chuàng)建ML數(shù)據(jù)模型,以識別所收集數(shù)據(jù)的模式。

DevOps工程師,來部署和維護(hù)ML數(shù)據(jù)模型。

商業(yè)分析師,了解公司的要求以及它所瞄準(zhǔn)的市場。

一個團(tuán)隊領(lǐng)導(dǎo),來正確引導(dǎo)團(tuán)隊。

跨職能團(tuán)隊是獨角獸的更好選擇,因為他們可以:

1.分擔(dān)工作量

2.在解決問題時提供不同的觀點

3.改善整體決策

3. 在著手解決問題之前,先徹底定義問題

能整體性地描述數(shù)據(jù)科學(xué)問題的能力再怎么強調(diào)也不為過,甚至包括描述最細(xì)微的細(xì)節(jié)。

揭示問題的細(xì)節(jié)使數(shù)據(jù)科學(xué)家能夠檢查其每個組成部分,并根據(jù)具體參數(shù)(例如優(yōu)先級、清晰度、可用數(shù)據(jù)和投資回報率)對其進(jìn)行衡量。這也使他們能夠確定處理該問題所需的主要和次要利益相關(guān)者。一旦定義了問題,數(shù)據(jù)科學(xué)家就可以將數(shù)據(jù)收集、分析和解釋系統(tǒng)化。

然而,這個看似基本的問題,卻沒有多少公司在開展數(shù)據(jù)科學(xué)業(yè)務(wù)時關(guān)注它。他們反而含糊其辭地解釋問題,使數(shù)據(jù)科學(xué)家的工作更加復(fù)雜。

因此,在嘗試解決問題之前,公司需要將其刨根問底,暴露其所有要素和要求。

4. 確保POC在明確的用例上運行

POC(概念證明)對于任何數(shù)據(jù)科學(xué)項目都至關(guān)重要,因為它們決定了數(shù)據(jù)模型或數(shù)據(jù)科學(xué)解決方案是否可行。它本質(zhì)上是更廣泛的數(shù)據(jù)科學(xué)解決方案的測試用例,它決定了公司的數(shù)據(jù)科學(xué)計劃是否能夠滿足其需求。

首先,運行POC需要一個用例。而正是對用例的選擇,可以決定POC進(jìn)入生產(chǎn)階段的前景。因此,數(shù)據(jù)科學(xué)家應(yīng)該選擇最合適的用例,在運行POC時提供可量化的結(jié)果。

此外,用例應(yīng)表示關(guān)鍵業(yè)務(wù)問題或一系列問題,以便為 POC 提供具體和相關(guān)的測量標(biāo)準(zhǔn)。

5. 確定并列出所有KPI指標(biāo)

是什么決定了一家公司的數(shù)據(jù)科學(xué)工作是否取得了足夠的成果?就是與之并列的關(guān)鍵績效指標(biāo)(KPI)。

目前,雖然大多數(shù)實施數(shù)據(jù)科學(xué)的公司都有一套業(yè)務(wù)目標(biāo),但他們?nèi)狈σ欢ǖ年P(guān)鍵績效指標(biāo)來監(jiān)測他們實現(xiàn)這些目標(biāo)的進(jìn)展。

因此,企業(yè)需要預(yù)留某些可衡量的關(guān)鍵績效指標(biāo),如投資回報率、每個消費者的收入增長百分比、CSAT得分等,以確定其數(shù)據(jù)科學(xué)項目的可行性。

例如,如果企業(yè)部署了優(yōu)化算法來增加收入,它可以使用月銷售額、網(wǎng)站訪問者數(shù)量等績效指標(biāo)。

6. 強調(diào)對利益相關(guān)者的適當(dāng)管理

 根據(jù)數(shù)據(jù)科學(xué)術(shù)語,利益相關(guān)者是使用數(shù)據(jù)科學(xué)家提供的數(shù)據(jù)的個人。他們可以是內(nèi)部的,例如使用數(shù)據(jù)促進(jìn)業(yè)務(wù)增長的業(yè)務(wù)分析師,也可以是外部的,如使用數(shù)據(jù)科學(xué)家解釋數(shù)據(jù)結(jié)果的客戶。

現(xiàn)在,數(shù)據(jù)科學(xué)主要處理的是數(shù)據(jù)。但是,牢記計劃使用它的個人——利益相關(guān)者,也是必要的。

這樣做可以確保數(shù)據(jù)科學(xué)家不僅分析數(shù)據(jù),還分析與之相關(guān)的人為因素。換句話說,管理利益相關(guān)者使數(shù)據(jù)科學(xué)家能夠與人一起合作,而不僅僅是數(shù)據(jù)。

為了有效管理利益相關(guān)者,數(shù)據(jù)科學(xué)家應(yīng)實施以下策略:

1.建立透明的溝通渠道

2.將項目的所有可能結(jié)果進(jìn)行反饋

3.尋求反饋

4.發(fā)起合作努力

7. 基于利益相關(guān)者的數(shù)據(jù)科學(xué)文檔

文檔對于任何數(shù)據(jù)科學(xué)項目都至關(guān)重要。

適當(dāng)?shù)赜涗浺粋€項目的所有方面,可以讓利益相關(guān)者更好地理解和利用其數(shù)據(jù)。

但是,無論文檔有多好,如果你不能將數(shù)據(jù)科學(xué)項目的具體內(nèi)容傳達(dá)給正確的利益相關(guān)者,那么項目可能就不會變得那么有效。

因此,你應(yīng)該根據(jù)所涉及的利益相關(guān)者的要求和專業(yè)來記錄一個項目,而不是采取"一刀切"的方式。

8. 學(xué)會用適當(dāng)?shù)墓ぞ邅砥ヅ鋽?shù)據(jù)科學(xué)工作

 這一點似乎很明顯,但是將正確的數(shù)據(jù)科學(xué)項目與正確的工具配對需要高超的技能和對數(shù)據(jù)科學(xué)的適應(yīng)性。

可以選擇的工具:

1.選擇合適的數(shù)據(jù)可視化軟件

2.衡量項目的云存儲容量

3.選擇合適的編程語言

4.評估當(dāng)前數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施的可擴展性

5.確定解決手頭問題的正確方法

要做好這種數(shù)據(jù)科學(xué)操作的前提是,準(zhǔn)備好工作所需的工具有助于數(shù)據(jù)科學(xué)家更快、更有效地處理數(shù)據(jù)。

9. 融入敏捷方法論

如果剝?nèi)ニ械拿枋龊筮M(jìn)行概括,敏捷方法論指出,軟件開發(fā)應(yīng)該分塊進(jìn)行,溝通和互動是關(guān)鍵。

目前雖然有些人可能不同意,但將敏捷方法運用到數(shù)據(jù)科學(xué)項目中會有奇效。

敏捷框架基本上將一個項目分為幾個沖刺階段,時間限制通常為幾周,數(shù)據(jù)科學(xué)家在其中從事項目的特定方面。

每個沖刺都是在與利益相關(guān)者互動后啟動的,以概述其要求,確定利益相關(guān)者的預(yù)算,為他們提供交付計劃,并確定要完成的任務(wù)的優(yōu)先級。

在每個沖刺階段結(jié)束時,都會進(jìn)行審查以評估迄今為止所做的工作。

10. 掌握數(shù)據(jù)道德規(guī)范

數(shù)據(jù)模型的執(zhí)行是客觀的,但數(shù)據(jù)科學(xué)家不是。因此,數(shù)據(jù)科學(xué)家必須建立不違反數(shù)據(jù)收集、分析和解釋的道德模型。

不遵守數(shù)據(jù)倫理可能會以多種方式嚴(yán)重影響公司的信譽和聲譽。

結(jié)論

以上就是10個數(shù)據(jù)科學(xué)最佳實踐操作指南的清單,可以幫助你的數(shù)據(jù)科學(xué)事業(yè)。

數(shù)據(jù)科學(xué)是一個快速發(fā)展的領(lǐng)域,其應(yīng)用范圍與日俱增。如果實施得當(dāng),數(shù)據(jù)科學(xué)可以成為企業(yè)的重要組成部分,并大大促進(jìn)其增長。唯一的問題是,公司應(yīng)該為自己配備足夠的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施,雇用合適的人,進(jìn)行廣泛的合作并遵循上述最佳實踐操作指南,以使他們的數(shù)據(jù)科學(xué)成果發(fā)揮最大的作用。

譯者介紹

翟珂,51CTO社區(qū)編輯,目前在杭州從事軟件研發(fā)工作,做過電商、征信等方面的系統(tǒng),享受分享知識的過程,充實自己的生活。

參考鏈接:https://www.datasciencecentral.com/10-best-practices-for-data-science

責(zé)任編輯:閆懷德 來源: 51CTO
相關(guān)推薦

2016-10-17 15:12:36

2020-10-27 07:08:06

2021-03-18 10:21:45

數(shù)據(jù)科學(xué)大數(shù)據(jù)機器學(xué)習(xí)

2009-07-18 16:05:53

光纖拉遠(yuǎn)TD-SCDMA

2022-12-20 07:49:48

數(shù)據(jù)庫TypeDB傳統(tǒng)關(guān)系型

2011-09-26 11:35:01

2016-05-03 15:12:35

數(shù)據(jù)科學(xué)

2016-11-01 13:23:50

數(shù)據(jù)分析大數(shù)據(jù)

2019-04-22 14:00:56

公共云托管遷移

2015-09-22 10:36:09

數(shù)據(jù)面試工作

2020-04-29 13:45:42

機器學(xué)習(xí)ML數(shù)據(jù)科學(xué)家

2018-06-19 09:00:25

數(shù)據(jù)科學(xué)數(shù)據(jù)算法

2010-09-01 16:12:19

無線局域網(wǎng)

2018-06-21 08:31:13

數(shù)據(jù)數(shù)據(jù)科學(xué)大數(shù)據(jù)

2010-05-18 16:20:15

數(shù)據(jù)庫索引

2022-06-02 08:00:00

數(shù)據(jù)科學(xué)機器學(xué)習(xí)工具

2010-03-15 08:58:46

2023-05-04 08:24:52

ChatGPT產(chǎn)品經(jīng)理工業(yè)革命
點贊
收藏

51CTO技術(shù)棧公眾號