入門數(shù)據分析的一些建議
最近經常被問到怎么入門數(shù)據分析,可能很多同學對怎么開始學習還是比較困惑的。我回想自己學習數(shù)據分析的經歷,總結了一些建議,希望能給到大家?guī)椭?/p>
打好概率與統(tǒng)計的基礎
概率與統(tǒng)計是數(shù)據分析的基石,像一些概率分布、抽樣、線性回歸、時間序列都是數(shù)據分析當中經常會用到的,可以說日常碰到的大部分的分析需求都可以用統(tǒng)計分析來解決。
理工科專業(yè)的同學大多在本科期間就學過概率與統(tǒng)計這門課,這部分的基礎應該還是比較扎實的。對于沒有基礎的同學,有一本叫《深入淺出統(tǒng)計學》的書非常值得一讀,豆瓣上的評分8.5分
這本書非常通俗易懂,講理論知識的時候結合了很多案例,把統(tǒng)計學應用到解決實際問題當中,讓原本枯燥的統(tǒng)計學原理變得有趣起來,適合非專業(yè)人士入門學習。
掌握數(shù)據庫技能
做數(shù)據分析離不開查詢數(shù)據庫,這里主要涉及的是SQL。對于傳統(tǒng)的數(shù)據庫如MySQL,SQL Server,Oracle,或者大數(shù)據平臺Hadoop,都可以通過SQL查詢的方式來獲取數(shù)據。入門SQL的書推薦一本《MySQL必知必會》,豆瓣評分8.4分。
這本書實踐性很強,教你怎么用SQL語句操作MySQL??梢宰约涸陔娔X上裝一個MySQL,跟著書中的案例操作一遍。
掌握Python或者R
Python和R是數(shù)據分析當中最常用的兩門語言。R是為數(shù)據分析而生的一門語言,但Python在數(shù)據分析方面有后來居上的趨勢。公司里的數(shù)據科學團隊在幾年前還是用R做的分析,最近一年已經轉向Python了,身邊的朋友也聽到很多R轉Python的。性能上來說,Python的速度更快,可以處理上G的數(shù)據,而R不行。所以長遠來說,我還是看好Python的。
講Python基礎的有一本《A byte of Python》非常推薦,我當初就是看這本書入門的,讀起來很輕松,兩三天就可以讀完。網上已經有人把這本書翻成中文,地址在這兒:https://bop.mol.uno/
數(shù)據分析相關的,推薦這本《利用Python進行數(shù)據分析》,豆瓣評分8.5分。
作者是廣受好評的pandas庫的開發(fā)者。讀完這本書,可以對用Python做數(shù)據分析涉及到的一些工具、怎樣用pandas、怎樣做數(shù)據可視化有比較詳盡的了解。
機器學習
數(shù)據分析如果繼續(xù)深入的話,可以學習機器學習。機器學習涉及的理論主要是分類、回歸、聚類、決策樹、貝葉斯定理等。機器學習相關的書強烈推薦一本《機器學習實戰(zhàn)》,豆瓣評分8.2分。
這本書介紹了機器學習中最常用的幾種算法,對算法背后的數(shù)學原理也有介紹,對于理解機器學習的算法非常有幫助。書中的代碼和例子都是用Python實現(xiàn),非常適合有python基礎的同學學習。
以上這些是數(shù)據分析最基礎的技能,有編程基礎的同學花兩三個月差不多就能入門了,零基礎可能要多費點時間。當然看書學習只是掌握理論知識,要真正的掌握還是要在項目中去實踐。


2017-04-13 12:59:43
2009-07-30 18:49:31




