自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

還在為自學數(shù)據(jù)科學發(fā)愁嗎?化學工程畢業(yè)生教你如何轉(zhuǎn)行

大數(shù)據(jù)
“你是如何從工程學轉(zhuǎn)向數(shù)據(jù)科學的?”這也是我問自己的問題-我是怎么實現(xiàn)這個轉(zhuǎn)變的?一年多以前,我就一直想著去分享關于數(shù)據(jù)科學家技能掌握的旅程。

[[357986]]

大數(shù)據(jù)文摘出品

來源:medium

編譯:張大筆茹

作為一名最近畢業(yè)于化學工程專業(yè)的學生,我第一份工作是在一家科技公司擔任數(shù)據(jù)分析師。我曾在這里記錄了從化學工程到數(shù)據(jù)科學的轉(zhuǎn)變。從那時起,每當我與學校的學生談論這一舉動時,許多人表達了相同的興趣和疑問……

“你是如何從工程學轉(zhuǎn)向數(shù)據(jù)科學的?”

這也是我問自己的問題-我是怎么實現(xiàn)這個轉(zhuǎn)變的?一年多以前,我就一直想著去分享關于數(shù)據(jù)科學家技能掌握的旅程。

并非缺乏信息使學習變得困難。相反,學習數(shù)據(jù)科學的大量資源使得很難從普通資源中找到最佳資源。

如此多的選擇,如此少的時間…

但是首先,讓我們先明白…

什么是數(shù)據(jù)科學?

額…這是一個很難回答的問題。不同的公司對數(shù)據(jù)科學的定義不同,這使其變得模棱兩可,有些難以捉摸。一些人認為是編程,另一些人認為是數(shù)學,還有一些人認為和理解數(shù)據(jù)相關,它們在某種程度上來說都是正確的。對我來說,我最同意的定義是:

數(shù)據(jù)科學是一個跨學科領域,它是綜合數(shù)學,計算機科學,領域知識領域中的技術(shù)和理論。

對我來說,這就是數(shù)據(jù)科學的樣子。我以模糊的方式表示各個領域部分之間的界限,即來自各領域的知識融合在一起形成了所謂的“數(shù)據(jù)科學”。

好,那我該如何學習數(shù)據(jù)科學?

這一系列博客將重點介紹在自學中參加的一些課程以及它們的優(yōu)缺點。希望能借此幫助你規(guī)劃數(shù)據(jù)科學領域的自學之旅。包括:

  • 第1部分-使用SQL,Python和R進行數(shù)據(jù)處理(本文)
  • 第2部分-數(shù)學,概率論和統(tǒng)計
  • 第3部分-計算機科學基礎
  • 第4部分-機器學習

在這篇文章中,我將重點介紹如何學習數(shù)據(jù)科學家所需的數(shù)據(jù)處理知識。學習處理數(shù)據(jù),通常需要:

  • 使用SQL(標準查詢語言)從數(shù)據(jù)庫中提取數(shù)據(jù)
  • 清理,整合,分析數(shù)據(jù)(通常用Python和/或R)
  • 有效地可視化數(shù)據(jù)

1. 使用SQL進行數(shù)據(jù)提取

SQL是一種數(shù)據(jù)庫查詢和程序設計語言,用于存取數(shù)據(jù)以及查詢、更新和管理關系數(shù)據(jù)庫系統(tǒng)。如果把數(shù)據(jù)比作埋在地下的寶藏,那SQL則是挖掘?qū)毑卦夹问降墓ぞ摺8唧w地說,它可以從數(shù)據(jù)庫中的一個表或多個表的組合中提取信息。

[[357987]]

精通SQL并不難。

SQL有很多不同的“風格”,如SQL Server,PostgreSQL,Oracle,MySQL和SQLite。每種方法都有細微的差別,但是語法大致相似,因此不必擔心要學習哪種SQL。

要學習一種語言,首先要學習單詞,然后再將它們組合成句子和段落。學SQL也是一樣的。

我用Datacamp(SQL入門)和Dataquest(SQL基礎)學習最基本的概念(SQL的單詞或句子)。(稍后,我將介紹Datacamp和Dataquest的優(yōu)缺點。)通常這些站點里包括講解練習和示例來學習基本的SQL技能。涵蓋的一些概念是:

  • 過濾和選擇功能SELECT和WHERE
  • COUNT,SUM,MAX,GROUP BY,HAVING用于匯總數(shù)據(jù)
  • DISTINCT,COUNT DISTINCT用于生成有用的不同列表和不同集合
  • OUTER(例如LEFT)和INNER JOIN何時/何地使用它們
  • 字符串和時間轉(zhuǎn)換

完成這些練習并不能使我變成分析師。就像我能夠理解單詞和句子,但無法寫完整的段落一樣。尤其是缺少一些重要的中級和高級概念,例如子查詢和窗口功能,這些已經(jīng)在數(shù)次技術(shù)訪談中進行了測試,并且對于作為分析師的角色來說是必不可少的。這些技能包括:

  • 使用COALESCE處理NULL
  • 子查詢及其對查詢效率的影響
  • 臨時表
  • 自加入
  • 窗口功能,例如PARTITION,LEAD,LAG
  • 用戶定義的功能
  • 在查詢中使用索引以使操作更快

學習這些技能,我主要用免費的SQLZoo.net,它通過設置有挑戰(zhàn)性的聯(lián)系來鞏固學習每個概念。我最喜歡的SQLZoo功能是它的在一個綜合問題中測試不同概念的練習。例如,提供以下實體關系圖,并要求其基于該關系圖創(chuàng)建復雜的查詢。

實體關系圖示例。圖片來源:Ottomachin,根據(jù)知識共享許可

這與我們在分析師工作中遇到的情況相似,即使用了已學到的不同技術(shù)從同一數(shù)據(jù)庫中提取信息。

以下是SQLZoo問題“幫助臺”的實體關系圖。系統(tǒng)要求您顯示經(jīng)理和2017–08–12一天中每小時的已接電話數(shù)量。(在這里自己嘗試!)

我使用的其他資源包括Zachary Thomas的SQL Questions和Leetcode。

2. 使用R和Python進行數(shù)據(jù)處理

開始學習數(shù)據(jù)科學所需的編程和工具是總是躲不過R和/或Python。它們都是非常流行的編程語言,用于數(shù)據(jù)處理,可視化和調(diào)整。R 還是 Python是一個古老的問題,值得單獨寫一篇文章。我的意見?

選擇R還是python都沒關系:精通它倆之一,你就可以輕松駕馭另一個。

我使用python和R進行編碼開始于與CodeAcademy,Datacamp,Dataquest,SoloLearn和Udemy等一起寫代碼的網(wǎng)站。這些網(wǎng)站提供按語言或程序包組織的自定進度課程。每種方法都將概念分解為易于消化的部分,并為用戶提供了入門代碼。通常是先引導你完成一個簡單的演示,隨后將有機會通過練習立即練習該概念。一些人隨后提供基于項目的練習。

今天我介紹自己最喜歡的兩個:Datacamp 和 Dataquest。

(1) Datacamp

DataCamp在線提供由專業(yè)人士講授的視頻講座和空白練習,視頻講座大多簡潔有效。

我喜歡DataCamp的一個原因是它的最新的課程,以SQL,R和python的形式組成。這消除了計劃課程的痛苦-現(xiàn)在只需要遵循自己感興趣的選擇即可,內(nèi)容包括:

  • Python / R相關的數(shù)據(jù)科學
  • Python / R / SQL相關的數(shù)據(jù)分析
  • R相關的統(tǒng)計
  • Python / R相關的機器學習
  • Python / R相關的編程

我個人是從R的Data Science開始學習的,該課程對R的tidyverse提供了相當詳細的介紹,R tidyverse是一個非常有用的數(shù)據(jù)包的集合,這些數(shù)據(jù)包用于清洗,操作和可視化數(shù)據(jù),其中最著名的是ggplot2 可視化),dplyr(用于數(shù)據(jù)操作)和stringr(用于字符串操作)。

我最喜歡的R語言包,作者提供

但DataCamp也有缺點——完成DataCamp之后信息保存能力很差。使用空白填充格式,很容易猜測空白處的內(nèi)容,而無需真正理解該概念。在平臺上學習時,我努力在盡可能短的時間內(nèi)完成盡可能多的課程。我瀏覽了一下代碼,并在不了解大局的情況下填補了空白。如果我可以重新開始在DataCamp上學習,那么我將花時間在整體上更好地消化和理解代碼,而不僅是要求我填寫的部分。

(2) Dataquest

Dataquest與DataCamp非常相似,著重于使用代碼練習來闡明編程概念。與Datacamp一樣,它提供了R,Python和SQL方面的各種課程,盡管范圍比DataCamp中的要少。與Datacamp不同,Dataquest不提供視頻講座。

Dataquest提供的一些曲目包括:

  • R / Python中的λ數(shù)據(jù)分析師
  • Python中的數(shù)據(jù)科學
  • 數(shù)據(jù)工程

通常,DataQuest的內(nèi)容要比DataCamp的難得多。“填空”格式練習也更少。盡管花費了更長的時間,但DataQuest的知識保留卻更好。

DataQuest的另一個重要功能是每月與導師通話,導師將瀏覽你的簡歷并提供技術(shù)指導。雖然我個人沒有與導師聯(lián)系,但事后回想,它肯定可以幫助我更快地進步。

3. 數(shù)據(jù)可視化

數(shù)據(jù)可視化是呈現(xiàn)數(shù)據(jù)信息的關鍵, 學完用python和R創(chuàng)建圖表的技能后,我通過Cole Knaflic的《用數(shù)據(jù)講故事》一書中學習了數(shù)據(jù)可視化的原理。

這本書是平臺性的。換句話說,它不關注任何特定的軟件,而是通過啟發(fā)性的示例來闡述數(shù)據(jù)可視化的一般原理??梢詮倪@本書中學到的一些關鍵信息包括:

  • 了解背景
  • 選擇有效的方式
  • 清理雜質(zhì)
  • 注意你所關注的地方
  • 像設計師一樣思考
  • 講一個故事

讀這本書之前,我以為自己是很了解數(shù)據(jù)可視化的。

消化完這本書后,我可以畫一個看起來還不錯的圖表了,來展示警察對黑人的殘酷行為。這本書對我最大的啟發(fā)之一是注意你所關注的地方。通過這條明亮的黃色突出顯示非裔美國人的線條(使人聯(lián)想起B(yǎng)LM顏色),同時在背景中保留圖表的其余部分,并帶有白色和灰色等暗淡的陰影,來突出我所關注的點。

數(shù)據(jù)可視化技術(shù)應用于強調(diào)警察野蠻行為的圖表。圖片由作者提供。

接下來…

在這篇文章中,我介紹了自己從頭開始學習編程的步驟。通過學習這些課程,你應該已經(jīng)具備了處理數(shù)據(jù)的必要技能!但還有很長的路要走。在接下來的帖子中,我將介紹:

  • 第2部分:數(shù)學,概率論和統(tǒng)計
  • 第3部分:計算機科學基礎
  • 第4部分:機器學習

如有更新,文摘菌定會第一時間傳遞給各位讀者~

相關報道:

https://towardsdatascience.com/how-to-teach-yourself-data-science-in-2020-f674ec036965

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2019-12-31 09:39:41

機器學習人工智能計算機

2015-12-29 13:53:14

BeeCloud云計算支付

2020-08-12 11:15:32

機器學習數(shù)據(jù)科學人工智能

2022-10-26 08:16:58

jar包依賴關系Maven

2022-02-24 07:03:13

JavaScrip語言

2022-08-16 09:34:50

程序員技術(shù)

2012-12-29 14:29:12

應屆畢業(yè)生求職

2012-12-27 17:17:50

畢業(yè)生職業(yè)生涯

2015-06-25 13:11:05

數(shù)據(jù)大學畢業(yè)生

2010-10-18 11:26:48

職場

2010-05-25 10:44:42

畢業(yè)生求職陷阱

2009-02-26 10:33:08

面試求職計算機專業(yè)

2018-12-17 05:03:22

數(shù)據(jù)科學機器學習軟件工程

2018-03-09 06:17:00

WiFi網(wǎng)絡無線

2010-05-27 10:10:07

職場經(jīng)驗

2009-09-03 10:48:24

大學畢業(yè)生職場新人

2012-12-27 15:14:18

應屆畢業(yè)生簡歷

2022-04-11 00:06:19

開發(fā)服務架構(gòu)

2009-02-17 11:52:44

點贊
收藏

51CTO技術(shù)棧公眾號