自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

干貨：如何正確地學(xué)習(xí)數(shù)據(jù)科學(xué)中的Python

作者：skura 2019-07-31 15:14:40

大數(shù)據(jù) 后端

大多數(shù)有抱負(fù)的數(shù)據(jù)科學(xué)家是通過學(xué)習(xí)為開發(fā)人員開設(shè)的編程課程開始認(rèn)識 python 的，他們也開始解決類似 leetcode 網(wǎng)站上的 python 編程難題。他們認(rèn)為在開始使用 python 分析數(shù)據(jù)之前，必須熟悉編程概念。

雷鋒網(wǎng) AI 科技評論按，大多數(shù)有抱負(fù)的數(shù)據(jù)科學(xué)家是通過學(xué)習(xí)為開發(fā)人員開設(shè)的編程課程開始認(rèn)識 python 的，他們也開始解決類似 leetcode 網(wǎng)站上的 python 編程難題。他們認(rèn)為在開始使用 python 分析數(shù)據(jù)之前，必須熟悉編程概念。

資深數(shù)據(jù)分析師 Manu Jeevan 認(rèn)為，這是一個巨大的錯誤，因為數(shù)據(jù)科學(xué)家使用 python 來對數(shù)據(jù)進(jìn)行檢索、清洗、可視化和構(gòu)建模型，而不是開發(fā)軟件應(yīng)用程序。實際上，為了完成這些任務(wù)，你必須將大部分時間集中在學(xué)習(xí) python 中的模塊和庫上。他認(rèn)為，學(xué)習(xí)數(shù)據(jù)科學(xué)的正確姿勢應(yīng)該如下文。

請按照下面這個步驟來學(xué)習(xí)數(shù)據(jù)科學(xué)的 Python。

配置編程環(huán)境

Jupyter Notebook 是開發(fā)和展示數(shù)據(jù)科學(xué)項目的強大編程環(huán)境。

在電腦上安裝 Jupyter Notebook 最簡單的方法是通過 Anaconda 進(jìn)行安裝。Anaconda 是數(shù)據(jù)科學(xué)中使用最廣泛的 python 工具，它預(yù)裝了所有最流行的庫。

你可以瀏覽標(biāo)題為「A Beginner’s Guide to Installing Jupyter Notebook Using Anaconda Distribution」的博客文章，了解如何安裝 Anaconda。安裝 Anaconda 時，請選擇最新的 python 3 版本。

安裝完 Anaconda 后，請閱讀 Code Academy 的這篇文章，了解如何使用 Jupyter Notebook。

只學(xué)習(xí) Python 的基礎(chǔ)知識

Code Academy 有一門關(guān)于 python 的優(yōu)秀課程，大約需要 20 個小時才能完成。你不必升級到 pro 版本，因為你的目標(biāo)只是熟悉 python 編程語言的基礎(chǔ)知識。

NumPy 和 Pandas，學(xué)習(xí)的絕佳資源

在處理計算量大的算法和大量數(shù)據(jù)時，Python 速度較慢。你可能會問，既然如此那為什么 Python 是數(shù)據(jù)科學(xué)最流行的編程語言?

答案是，在 Python 中，很容易以 C 或 Fortran 擴展的形式將數(shù)字處理任務(wù)轉(zhuǎn)移到底層。這正是 NumPy 和 Pandas 所做的事情。

首先，你應(yīng)該學(xué)會 NumPy。它是用 Python 進(jìn)行科學(xué)計算的最基本的模塊。NumPy 支持高度優(yōu)化的多維數(shù)組，這是大多數(shù)機器學(xué)習(xí)算法最基本的數(shù)據(jù)結(jié)構(gòu)。

接下來，你應(yīng)該學(xué)習(xí) Pandas。數(shù)據(jù)科學(xué)家花費大部分時間清洗數(shù)據(jù)，這也被稱為數(shù)據(jù)整。

Pandas 是操作數(shù)據(jù)最流行的 python 庫。Pandas 是 NumPy 的延伸。Pandas 的底層代碼廣泛使用 NumPy 庫。Pandas 的主要數(shù)據(jù)結(jié)構(gòu)稱為數(shù)據(jù)幀。

Pandas 的創(chuàng)造者 Wes McKinney 寫了一本很棒的書，叫做《Python for Data Analysis》。在書中的第 4、5、7、8 和 10 章可以學(xué)習(xí) Pandas 和 NumPy。這些章節(jié)涵蓋了最常用的 NumPy 和 Pandas 特性來處理數(shù)據(jù)。

學(xué)習(xí)使用 Matplotlib 可視化數(shù)據(jù)

Matplotlib 是用于創(chuàng)建基本可視化圖形的基本 python 包。你必須學(xué)習(xí)如何使用 Matplotlib 創(chuàng)建一些最常見的圖表，如折線圖、條形圖、散點圖、柱狀圖和方框圖。

另一個建立在 Matplotlib 之上并與 Pandas 緊密結(jié)合的好的繪圖庫是 Seaborn。在這個階段，我建議你快速學(xué)習(xí)如何在 Matplotlib 中創(chuàng)建基本圖表，而不是專注于 Seaborn。

我寫了一個關(guān)于如何使用 Matplotlib 開發(fā)基本圖的教程，該教程由四個部分組成。

第一部分：Matplotlib 繪制基本圖
第二部分：如何控制圖形的樣式和顏色，如標(biāo)記、線條粗細(xì)、線條圖案和使用顏色映射
第三部分：注釋、控制軸范圍、縱橫比和坐標(biāo)系
第四部分：處理復(fù)雜圖形

你可以通過這些教程來掌握 Matplotlib 的基本知識。

簡而言之，你不必花太多時間學(xué)習(xí) Matplotlib，因為現(xiàn)在公司已經(jīng)開始采用 Tableau 和 Qlik 等工具來創(chuàng)建交互式可視化。

如何使用 SQL 和 Python

數(shù)據(jù)有組織地駐留在數(shù)據(jù)庫中。因此，你需要知道如何使用 SQL 檢索數(shù)據(jù)，并使用 python 在 Jupyter Notebook 中執(zhí)行分析。

數(shù)據(jù)科學(xué)家使用 SQL 和 Pandas 來操縱數(shù)據(jù)。有一些數(shù)據(jù)操作任務(wù)使用 SQL 就可以很容易地執(zhí)行，并且有一些任務(wù)可以使用 Pandas 高效地完成。我個人喜歡使用 SQL 來檢索數(shù)據(jù)并在 Pandas 中進(jìn)行操作。

如今，公司使用 Mode Analytics 和 Databricks 等分析平臺來輕松地使用 python 和 SQL。

所以，你應(yīng)該知道如何一起有效地使用 SQL 和 python。要了解這一點，你可以在計算機上安裝 SQLite 數(shù)據(jù)庫，并在其中存儲一個 CSV 文件，然后使用 python 和 SQL 對其進(jìn)行分析。

這里有一篇精彩的博客文章，向你展示了如何做到這一點：Programming with Databases in Python using SQLite。

在瀏覽上述博客文章之前，你應(yīng)該了解 SQL 的基礎(chǔ)知識。Mode Analytics 上有一個很好的關(guān)于 SQL 的教程：Introduction to SQL。通過他們的基本 SQL 部分，了解 SQL 的基本知識，每個數(shù)據(jù)科學(xué)家都應(yīng)該知道如何使用 SQL 有效地檢索數(shù)據(jù)。

學(xué)習(xí)和 Python 相關(guān)的基本統(tǒng)計學(xué)知識

多數(shù)有抱負(fù)的數(shù)據(jù)科學(xué)家在不學(xué)習(xí)統(tǒng)計學(xué)的基礎(chǔ)知識的情況下，就直接跳到機器學(xué)習(xí)知識的學(xué)習(xí)中。

不要犯這個錯誤，因為統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的支柱。而且，很多數(shù)據(jù)科學(xué)家學(xué)習(xí)統(tǒng)計學(xué)只是學(xué)習(xí)理論概念，而不是學(xué)習(xí)實踐概念。

我的意思是，通過實踐概念，你應(yīng)該知道什么樣的問題可以用統(tǒng)計學(xué)來解決，了解使用統(tǒng)計數(shù)據(jù)可以解決哪些挑戰(zhàn)。

以下是你應(yīng)該了解的一些基本統(tǒng)計概念：

抽樣、頻率分布、平均值、中位數(shù)、模式、變異性度量、概率基礎(chǔ)、顯著性檢驗、標(biāo)準(zhǔn)差、z 評分、置信區(qū)間和假設(shè)檢驗(包括 A/B 檢驗)。

要學(xué)習(xí)這些知識，有一本很好的書可以看看：《Practical Statistics for Data Scientists: 50 Essential Concepts》。不幸的是，本書中的代碼示例是用 R 編寫的，但是很多人包括我自己在內(nèi)使用的是 Python。

我建議你閱讀本書的前四章。閱讀本書的前 4 章，了解我前面提到的基本統(tǒng)計概念，你可以忽略代碼示例，只了解這些概念。本書的其余章節(jié)主要集中在機器學(xué)習(xí)上。我將在下一部分討論如何學(xué)習(xí)機器學(xué)習(xí)。

大多數(shù)人建議使用 Think Stats 來學(xué)習(xí) python 的統(tǒng)計知識，但這本書的作者教授了自己的自定義函數(shù)，而不是使用標(biāo)準(zhǔn)的 python 庫來進(jìn)行統(tǒng)計知識講解。因此，我不推薦這本書。

接下來，你的目標(biāo)是實現(xiàn)在 Python 中學(xué)習(xí)的基本概念。StatsModels 是一個流行的 python 庫，用于在 python 中構(gòu)建統(tǒng)計模型。StatsModels 網(wǎng)站提供了關(guān)于如何使用 Python 實現(xiàn)統(tǒng)計概念的優(yōu)秀教程。

或者，你也可以觀看 Gaël Varoquaux 的視頻。他向你展示了如何使用 Pandas 和統(tǒng)計模型進(jìn)行推理和探索性統(tǒng)計。

使用 Scikit-Learn 進(jìn)行機器學(xué)習(xí)

Scikit-Learn 是 Python 中最流行的機器學(xué)習(xí)庫之一。你的目標(biāo)是學(xué)習(xí)如何使用 Scikit Learn 實現(xiàn)一些最常見的機器學(xué)習(xí)算法。

你應(yīng)該像下面這樣做。

首先，觀看 Andrew Ng 在 Coursera 上的機器學(xué)習(xí)課程的第 1、2、 3、6,、7 和第 8 周視頻。我跳過了關(guān)于神經(jīng)網(wǎng)絡(luò)的部分，因為作為初學(xué)者，你必須關(guān)注最通用的機器學(xué)習(xí)技術(shù)。
完成后，閱讀「Hands-On Machine Learning with Scikit-Learn and TensorFlow」一書。你只需瀏覽這本書的第一部分(大約 300 頁)，它是最實用的機器學(xué)習(xí)書籍之一。
通過完成本書中的編碼練習(xí)，你將學(xué)習(xí)如何使用 python 實現(xiàn)你在 Andrew Ng 課程中學(xué)習(xí)到的理論概念。

結(jié)論

最后一步是做一個涵蓋上述所有步驟的數(shù)據(jù)科學(xué)項目。你可以找到你喜歡的數(shù)據(jù)集，然后提出有趣的業(yè)務(wù)問題，再通過分析來回答這些問題。但是，請不要選擇像泰坦尼克號這樣的通用數(shù)據(jù)集。

另一種方法是將數(shù)據(jù)科學(xué)應(yīng)用到你感興趣的領(lǐng)域。例如，如果你想預(yù)測股票市場價格，那么你可以從 Yahoo Finance 中獲取實時數(shù)據(jù)，并將其存儲在 SQL 數(shù)據(jù)庫中，然后使用機器學(xué)習(xí)來預(yù)測股票價格。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

責(zé)任編輯：未麗燕來源：雷鋒網(wǎng)

Python 數(shù)據(jù)科學(xué)可視化

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營