如何11步轉行數據科學家 (適用數據員/ MIS / BI分析師)
數據科學作為一個專業(yè)領域迅速崛起,吸引了來自各種職業(yè)背景的人。工程師、計算機科學家、市場和金融畢業(yè)生、分析師、人力資源人員——每個人都想嘗一塊 “數據科學餡餅”。
那么,為什么我要特別關注這些職業(yè):數據分析/數據倉庫(MIS)/商業(yè)智能(BI)呢?讓我先解釋一下。
我經常遇到一些優(yōu)秀的商業(yè)智能分析師 (BI),尋求獲得自己人生的第一個數據科學角色。但他們常常因缺乏機會而沮喪。他們中很多人感覺自己的角色是重復的,或者只需要扮演好被要求的角色。
他們實際上忽略了一個事實:比起任何其他職業(yè)的人,他們離數據科學更近。
商業(yè)智能分析師 (BI) 為何能更輕松地過渡到數據科學領域
商業(yè)智能專業(yè)人士比幾乎所有試圖過渡到數據科學的人都擁有巨大優(yōu)勢,原因如下:
- 商業(yè)智能分析師已經在各個項目中接觸到了數據科學家;
- 知曉如何管理和處理數據(有時按比例);
- 有業(yè)務背景,他們密切地從事相關業(yè)務;
他們有基本的數據探索步驟的經驗,因為除了用在報告中,業(yè)務部門也會經常要求這些。
換句話說,這些人工作在數據科學項目的“前半部分”,這已經比大多數有志成為數據科學家的人多了很多行業(yè)經驗。
如果你正是這樣一位希望從數據分析/數據倉庫(MIS)/商業(yè)智能(BI)跳轉到數據科學家,這篇文章就是為你量身定制的。你可以將這11步作為你能遵循的學習路徑。實際上,我強烈建議你在當前的角色中執(zhí)行這些步驟。開始于你正站著的地方,直到破霧而出,進入數據科學!我自己整理的一份新的大數據進階資料和高級開發(fā)教程,大數據學習群:522189307 歡迎進階中和進想深入大數據的小伙伴加入。
在下面的內容中--—商業(yè)智能、數據倉庫師、數據員、數據分析員都可以互換使用。這些角色和名稱幾乎沒有區(qū)別,而且有很多重疊。
準備好和我一起踏上征程了嗎?讓我們一步一步地來。
第一步:進行探查分析并解讀分析成果
讓我以三個BI人員日常報告的例子開始。
示例 1:
該BI人員已經得到了數據結果,其中包含有關城市和地區(qū)級別的業(yè)務來源,以及業(yè)務質量的詳細信息。
示例 2:
在這里,BI人員為“拒絕分數”列添加了RAG (紅-琥珀色-綠) 分析。拒絕分數越低,業(yè)務質量越高。
示例 3:
在本例中,BI人員通過對分析結果進行解讀,將報告提升到了另一個層次。你可以看到他從報告中得出的前2個發(fā)現。
這里我只舉了一個簡單的例子對報告進行解讀分析。你可以根據正在分享的信息類型加入更多視覺效果/圖表。
以上哪個示例對于業(yè)務用戶更有意義?
看看上面的3個例子,我傾向于“示例3”,因為它為業(yè)務增加了更多價值:
- 為報告添加了更多可理解性;
- 它還強調了可著手的操作領域;
如果你查看那些“發(fā)現”,其中一個是區(qū)域級別匯總報告后得出的。
這些實際上能很大地幫助業(yè)務人員。當你與高層管理者合作時,你會發(fā)現他們中的大多數需要可著手操作的項目,而不想花時間在解釋報告和深入分析上。
想要生成一份類似的報告,一位BI人員應該具有好奇心,關注細節(jié),熟練掌握任何一種工具(Excel/SQL/QlikView/Tableau), 以及業(yè)務知識。
這個技能集不僅限于從事BI的人員。它對于成為一名好的數據科學專家也是關鍵。在大多數情況下,一名數據科學家60%—70%的工作是關于業(yè)務理解,數據探索和對手頭問題產生見解。
與其它正在向數據科學過渡的人員相比,一位BI人士擁有巨大的優(yōu)勢。你可以從今天開始練習這個技能集,它也將幫助你在現在的工作中做得更好。這是雙贏!
面臨的挑戰(zhàn)和解決方案:
無法在分析結果與業(yè)務之間建立聯系:生成見解與你對業(yè)務的理解直接相關。我建議你與領域專家聯系,并嘗試解釋它正如何影響著業(yè)務指標。
沒有足夠時間生成見解:我同意--—你正在緊張的期限下,忙著做業(yè)務報告,沒有時間生成見解。這種情況下,我有2個建議:
不要開始一個有著非常嚴格時間表的報告(例如日報)。挑選有較少時間限制的報告任務。月報便是一個很好的開始,因為它們包含重要的信息并且為你深入挖掘信息提供了時間。
自動生成報告。這將為你節(jié)省大量時間,你可以利用這些時間來理解報告并生成見解。你應該學習 Excel/SAS 的宏指令或其它類似自動化報告工具。
第二步:學習統(tǒng)計學以支持你對于報告的見解
是時候用一些統(tǒng)計指標來支持你的見解了。不要把你自己局限在僅僅靠視覺解釋來生成見解??纯聪旅娴膱D--—你的第一反應是什么?
這個圖上可以看到競爭前和競爭后的平均業(yè)務來源。現在的問題是“競爭是平均業(yè)務來源增長的背后推動力,還是只是一種隨機增長?”這里,我們需要依靠某些統(tǒng)計概念來支持我們的見解,比如做 z-檢測, t-檢測或其它統(tǒng)計檢驗。掌握好統(tǒng)計知識將在這些處境中幫助到你。
你應該對以下統(tǒng)計主題有扎實的理解,如果你想進入數據科學角色的話:
- 描述性統(tǒng)計
- 平均數,中位數,眾數
- 方差和標準差
- 概率
- 伯努利試驗與概率質量函數
- 中心極限定理
- 正態(tài)分布
- 推論統(tǒng)計學
- 置信區(qū)間
- 假設檢驗
- 協方差/相關性
面臨的挑戰(zhàn)和解決方案:
描述性統(tǒng)計很容易理解,但推理統(tǒng)計的茶不好喝:實踐是關鍵。我建議盡可能地多練習,并對概念有一個直觀的理解。在看數學方程前先做這件事。這種方法將幫助你首先關注于應用方面,而不是陷入理論的泥潭中。
這些看起來都太統(tǒng)計學了,我無法和股東或客戶分享:查看這些報告的客戶大致有兩類。第一類對直觀的見解更感興趣,而另一類(風險/數據科學團隊)則更關注統(tǒng)計見解。與后一類人聯系,并就你的發(fā)現展開討論。此外,這里好的策略是用他們的語言討論業(yè)務,而不是統(tǒng)計語言。例如,開始時我不會使用“統(tǒng)計顯著”一詞,聽眾可能會感到不舒服。我只會說,相比于我們從過去中看到的,這個事件是否有足夠大的可能性發(fā)生。
第三步:把你的發(fā)現呈現給正確的小組
如果你沒有和正確的小組分享你的發(fā)現,那探查分析和統(tǒng)計分析將不會幫助你進入數據科學的角色。
“講故事是一名數據科學專家必須掌握的關鍵技能。”
這里,我強烈建議在你現有的角色中練習“講故事”的能力。你可以從以下內容開始:
- 始終在你的報告或分析中分享詳細的見解;
分享你的見解并通過演示幻燈片展示你的故事。
這是一個我個人職業(yè)生涯非常受益的基本建議——在你的幻燈片中添加可視化效果。如果是報告或會議演講,則應該對應你的可視化添加背景。困惑嗎?讓我用一個例子來解釋一下。
看看下面的可視化。它展示了關于Sachin Tendulkar職業(yè)生涯中測試賽的細節(jié)。你可以在這里使用圖表和數字討論各種度量。這也展示了為何業(yè)務理解如此重要——如果你沒有業(yè)務經驗的話,你根本無法討論這些指標。
面臨的挑戰(zhàn)和解決方案:
不能向小組傳達統(tǒng)計見解:不要總使用單一語言(統(tǒng)計語言)進行溝通。我們應當根據聽眾來改變我們溝通的方式。例如,你正和一個統(tǒng)計小組溝通,那話語中有很多統(tǒng)計推斷沒問題。如果你與一個非技術團隊溝通,統(tǒng)計和直觀結合的方式將更有幫助。
以前從未分享過見解,怎么開始?你可能有過這樣的想法:
這些見解對于業(yè)務來說有意義嗎?
我可能誤解了這些數字。這將導致溝通不良并產生負面影響。
你的擔心是可理解的,但你不得不從某個地方開始積累經驗。我的建議是首先和你的經理、有經驗的同事或你的客戶分享見解。這將給你信心——這是非常重要的推動力。所以開始練習吧!
第四步:探索一個開源工具來生成報告或執(zhí)行檢測分析
到目前為止,我還沒有討論任何生成報告和見解的工具。我特意回避了這樣的問題,例,你該選擇哪樣工具?哪個是合適的或更好的?這是因為我的目標是讓你的關注點聚焦于檢測分析、統(tǒng)計概念和磨練你的溝通技巧,這樣你可以用你現在工作中的工具來展現你的新發(fā)現。
現在,是時候來學習一種工具了,它具有以下特點:
- 處理(大量)數據的能力;
- 可視化能力;
- 建立預測模型的能力(機器學習模型);
- 深度學習支持;
- 客戶服務支持和繁榮的社區(qū)。
你可以在 SAS/R/Python中任意選擇,因為這些工具都有以上功能。在這里,你的初始任務是非常具體的,在學習一個新工具的同時,讓你自己習慣執(zhí)行數據探索、可視化、檢測分析和統(tǒng)計測試。你不需要在這些工具上擁有完整的專業(yè)知識(不管怎樣,開始時不需要)
面臨的挑戰(zhàn)和解決方案:
沒有編程經驗:記住,你無需成為該工具的專家。重點是你該用一個新工具來執(zhí)行相同的練習(如探索,可視化或統(tǒng)計檢驗)。你將通過練習掌握這些技能和工具。
當前的數據科學團隊在SAS上工作,我該轉移到Python/R上嗎?我建議只從SAS開始。始終選擇當前組織中的數據科學團隊正在使用的工具。這將有助于你向數據科學過渡。
第五步:了解建模/預測建模的步驟
現在終于到了數據科學最吸引人的部分——建模!在你投身于研究具體模型前,我建議你首先理解存在的問題類型。
大體上,我們可以將建模過程分為5步:
- 定義問題
- 生成假設
- 探索數據
- 模型建立
- 模型評估和驗證
我將前兩步放到后面講(定義問題和生成假設)。這里我們先討論探索數據。
探索分析的步驟類似于檢測分析,這里我們的主要目標是理解每個變量的行為和它們互相的關系。良好的統(tǒng)計知識將對你有很大幫助。這一步的終點是生成見解和數據清洗。你可能需要輸入丟失值,檢測和處理異常值和執(zhí)行多種類型的轉換。
面臨的挑戰(zhàn)和解決方案:
它是如何區(qū)分于檢測分析的:它與檢測分析類似,添加了數據清洗和轉換步驟。這里,你的重點應該是進行數據探索以實現特定目標,例如判斷“給定變量”是否會對目標變量產生影響。
在沒有首先陳述問題時,我將如何建立和目標變量的關系?你可以使用定義了問題語句的任何開放數據集,并開始練習你的數據探索技能。
第六步:評估模型性能的方法
在模型構建的過程中,我們在一個預先知道了目標的數據集上訓練模型,然后將其應用到測試數據集上,以預測目標變量。我們顯然希望在預測目標變量時足夠準確。
如何檢查模型是否準確?我們需要一個能根據實際觀察結果去評估模型結果方法。讓我們用一個例子來理解這一點:
我們有一個客戶群,C1、C2和C3。我們估計只有C3會購買產品A。然而事實證明,C2和C3都買了這件商品。這意味著我們的準確率是 66.6%。這個準確率就被稱為“評估指標”。
評估指標將根據你正在解決的問題類型而不同。
現在你已經決定了評估指標的方法,但你有“實際結果”來評估你的模型嗎?你不能跳到未來去準備一個測試數據集!在這種情況下,我們保留了數據集的一個特定樣本,該樣本集不用來訓練模型。稍后我們用這個樣本集來評估模型。這種方法稱為模型驗證。面臨的挑戰(zhàn)和解決方案:
有必要知道所有的評估指標嗎?不一定。目前,只關注兩個評估指標—“RMSE” 和“混淆矩陣”。這兩個對于起步已經足夠了。你可以使用RMSE應對回歸問題,用混淆矩陣來應對分類問題。
第七步:用線性回歸和邏輯回歸介紹預測建模
你已經了解了數據集并查看了評估模型性能的指標。下一步是什么?
應用建模技術!不要同時學習各種技術?,F在只關注兩個:
- 線性回歸
- 邏輯回歸
這兩個技術將幫助你預測連續(xù)變量和分類變量。
例如:
- 線性回歸將幫助你預測下個季度保險公司銷售代理的預期業(yè)績。
- 邏輯回歸將幫助你了解交叉銷售產品給特定客戶的可能性。
面臨的挑戰(zhàn)和解決方案:
算法太數學化,難以理解:首先你要對這些技術建立一個直觀的理解,然后再深入到數學細節(jié)。這里我建議采用自上而下的方法,更多地關注實際方面。你必須能夠解釋模型結果(例如了解該模型是否運行良好)
第八步:確定業(yè)務問題(與你的角色相關)將其轉換為數據問題并進行預測
那么,哪里可以找到你所在領域的數據集呢?找到一個商業(yè)問題可能很困難。
你應該與領導層或團隊經理交談,并將他們的業(yè)務挑戰(zhàn)之一作為你的項目。這里,第一步是將業(yè)務問題轉換成數據問題。然后,開始順著以下步驟前進(我們在前面第5點中討論過)——生成假設,收集數據,探索數據,數據清理,模型構建和驗證。
作為一名BI專業(yè)人員,你具有的優(yōu)勢之一是你已經熟悉數據集中的變量。你的檢測分析技能將幫助你理解變量間的關系。你可以跳轉到數據清理、轉換、確定正確的評估度量、設置驗證集以及最終構建模型等任務。
面臨的挑戰(zhàn)和解決方案:
無法找到業(yè)務問題:你可能遭遇這樣的處境,你無法獲得業(yè)務問題或不能說服業(yè)務/團隊經理了解你的技能集。如果這正是你目前的處境,那么你可以試試這些方法:
以你自己的能力開始構建模型,以獲得更為明確的問題陳述:假設你要分析保險代理逐月的業(yè)務來源。你可以在制作分析報告時考慮預測代理們下個月的表現。你可以基于過去已有的人口統(tǒng)計或業(yè)績表現數據。一個月后你再來驗證你的結果,檢查你的預測有多好。
參加開放的數據科學競賽,提高自己的形象:參加數據科學競賽是一個極好學習數據科學的方式,這將提高你的知識和形象,以及了解你相對于世界頂級科學家所處的位置。
第九步:與企業(yè)主分享你的模型結果,獲得他們的信任
在構建模型后,你應該與你的主管或決策者共享結果(如團隊或項目經理)。作為一名數據科學專家,分享你的發(fā)現是非常重要的(比如哪些特征會對目標變量產生影響)。你還應該圍繞模型結果和實際數字之間的比較進行定期更新。
這個過程將也會幫助你調整和改進你的模型。如果模型運行良好,那么你很有可能獲得另外一個任務或參與到核心的數據科學團隊中的機會。這也正是我們的目標,不是嗎?
面臨的挑戰(zhàn)和解決方案:
我的模型表現不好,那我該怎么辦呢?沒關系的。你可以進一步研究數據集和尋找問題。可以關注不同的算法,它可能更適合你正在解決的問題。
第十步:不斷學習新算法,參加數據科學社團,專注構建個人檔案
在數據科學領域,學習永無止境。這是一個不斷發(fā)展的領域,我們需要同它一起不斷進化。至此你已經學習了線性回歸和邏輯回歸,是時候擴展你的知識,超越自己了。學習決策樹,隨機森林,甚至神經網絡等算法。
就像我之前提到過的,你應該在實踐中學習。擁有算法知識固然很好,但除非你能把它應用于實踐中。撿回我們之前用過的數據集,并應用這些新算法。你很可能將看到你的模型有了巨大的改善。
現在,讓我們在工具和技術之外更進一步。我想強調在數據科學社區(qū)構建你的社交網絡和個人資料的重要性。
開始參加以數據科學為中心的會議。你將遇到志趣相投的人,還有可以給你指導的經驗豐富的專家。我看到過很多有抱負的數據科學人員通過這些活動獲得了工作機會,所以我可以擔保這確實有用!
你應該關注個人資料的數字化方面。既然你一直在與數據科學項目合作,那就向社區(qū)展示你的工作!將代碼上傳到Gitthub上并開始發(fā)布關于你的發(fā)現的博客/文章。這將有助于你未來的雇主看到,你對某些項目有著很好的理解。
面臨的挑戰(zhàn)和解決方案:
我不能決定我該研究哪種算法:這是一個經典問題。曾讓很多有志的數據科學家感到困惑。我的建議是研究你現在的組織中使用的算法。這使你的目光聚焦在你們的數據科學團隊需要的東西上。之前我們提到過組織內部轉型,還記得嗎?這是一個很好向已有的數據科學團隊展示你的價值的方法。
我不知道從哪里找到小組或加入哪里組織?由于數據科學的蓬勃發(fā)展,有很多相關會議。如果你無法在你所在的城市找到,那你可以自己主辦一次。我看到過很多人主動在Linkedin和meetup.com上發(fā)布聚會詳細信息,并要求加入他們的社交網絡。你會對出現的人感到驚訝。
第十一步:在你的組織中專注地向數據科學角色過渡
雖然并沒有簡單的方法過渡到數據科學,但還是有確定的、常有人走的路徑。其中之一是從你現在的組織中切換到數據科學團隊。讓我解釋一下為什么你該關注這種方式而不是其他路徑(至少對于初學者來說):
你已經知道該領域是如何運作的。面對數據集中的某些變量,你非常擅長處理它們,因為你具有所需的業(yè)務知識。
你的領導和團隊經理已經熟悉你的表現和職業(yè)道德。他們知道你帶來了什么——信任是任何一個團隊中的重要因素,尤其是數據科學團隊。這將對你有利。
無需花時間在組織外尋找工作機會。每個人都恐懼在招聘門戶上看著時間溜走而無法指望能找到一份體面的工作。
這可能不適用于所有人,但當你切換組織時,你可能無法指望大幅的工資增長。記住,你是要過渡到你經驗有限的部門。
你只要記住這一點,總是在你現在的公司中尋找機會。與高層或數據科學團隊交談。建立你的社交網絡,相信我,它最終會有回報的。
面臨的挑戰(zhàn)和解決方案:
無法在目前的組織中找到機會:如果這種情況發(fā)生了,你應該撒一張大網。正如我們前面步驟中討論的,你的Linkedin網絡和數據科學社區(qū)將派上用場。不要堅持用在線求職門戶被動求職——通過Lindedin和其它專業(yè)網絡聯系招聘經理。線上展示你的項目。別放棄!這將考驗你的耐心,但第一次的突破值得你所付出的所有努力。
結束語
這是一段令人興奮的旅程。我已經在幾年前經歷過了這樣的過渡。我看到這個領域隨著時間推移而發(fā)展,本文的目的是幫助你實現轉變。你目前已經完成了很多其它向數據科學過渡的人沒有完成的步驟。記住這一點。