文科生如何七周內(nèi)入門數(shù)據(jù)分析?
引言
本文是TalkingData某項目組成員在項目過程中由于項目需求被逼學(xué)習(xí)數(shù)據(jù)分析的資料分享,作者是一個文科生,七周之內(nèi)掌握基本的數(shù)據(jù)分析知識,希望能幫助想要入行的文科同學(xué)。
目標(biāo)人群:適合之前工作不需要自己上手做分析、或者對付大量數(shù)據(jù)的少數(shù)群體。
學(xué)習(xí)預(yù)期:七周下來之后只能是會,但不是掌握,工作當(dāng)中常用的問題可以熟練應(yīng)用。
學(xué)習(xí)時間:每周5-10個小時。
材料來源:這個學(xué)習(xí)計劃以一位小米的游戲分析師版本為基礎(chǔ),根據(jù)零售的特點和需求以及自己使用下來的經(jīng)驗做了調(diào)整。
學(xué)習(xí)原則:分析只是方法,思維、邏輯、業(yè)務(wù)影響更為重要。我們是菜鳥,時間有限,不走fancy路線,工作用什么我們先學(xué)什么。
1.第一周:Excel
Excel函數(shù):
https://zhuanlan.zhihu.com/p/23345231
主要簡單講解常用的函數(shù),以及與之對應(yīng)的SQL/Python函數(shù)。
Excel技巧:
https://zhuanlan.zhihu.com/p/23618955
主要講解有性價比的功能,提高工作效率,養(yǎng)成一個好習(xí)慣,不要合并單元格,不要過于花哨。表格按照原始數(shù)據(jù)、加工數(shù)據(jù),圖表的類型管理。
Excel實戰(zhàn):
https://zhuanlan.zhihu.com/p/24084300
主要將前兩篇的內(nèi)容以實戰(zhàn)方式進行,簡單地進行了一次數(shù)據(jù)分析,每個task一定要練熟。數(shù)據(jù)源采用了真實的爬蟲數(shù)據(jù),是5000行數(shù)據(jù)分析師崗位數(shù)據(jù)。
附加一道練習(xí)題,給1000個身份證號碼,描述里面有多少男女,各省市人口的分布,這些人的年齡和星座。(身份證號碼規(guī)律可以網(wǎng)上搜索)
下面是為了以后更好的基礎(chǔ)而附加的學(xué)習(xí)任務(wù):
- 了解單元格格式,后期的數(shù)據(jù)類型包括各類timestamp、date、string、int、bigint、char、factor、float等
- 了解數(shù)組,以及怎么用(excel的數(shù)組挺難用),Python和R也會涉及到 list
- 了解函數(shù)和參數(shù),當(dāng)進階為編程型的數(shù)據(jù)分析師時,會讓你更快的掌握
- 了解中文編碼,UTF8和ASCII,包括CSV的delimiter等
2.第二周:數(shù)據(jù)可視化
經(jīng)典圖表及展示目的:
https://zhuanlan.zhihu.com/p/24168144
報表制作:
https://zhuanlan.zhihu.com/p/24409555
第一周數(shù)據(jù)BI實戰(zhàn):
https://zhuanlan.zhihu.com/p/24573880
PPT:http://study.163.com/my
附一張圖表建議的思維指南。
3.第三周:分析思維的訓(xùn)練
金字塔原理、麥肯錫思維、SMART、5W2H、SWOT、4P理論、六頂思考帽等框架都是大巧不工的經(jīng)典。網(wǎng)上搜咨詢公司的面試題,搜Case Book。題目用新學(xué)的思維導(dǎo)圖做,先套那些經(jīng)典框架,做一遍,然后去看答案對比。
如果這些思維方式都很熟練了,利用以下兩篇文章做個溫習(xí)。
麥肯錫思維:
https://zhuanlan.zhihu.com/p/24773022
數(shù)據(jù)分析思維框架:
https://zhuanlan.zhihu.com/p/24887013
統(tǒng)計學(xué)和數(shù)學(xué)的基本概念:李航的《統(tǒng)計學(xué)習(xí)方法》。
4.第四周:數(shù)據(jù)庫學(xué)習(xí)
數(shù)據(jù)庫入門:
https://zhuanlan.zhihu.com/p/25120684
W3C教程:
http://www.w3school.com.cn/sql/index.asp
SQL是數(shù)據(jù)分析的核心技能之一,從Excel到SQL是數(shù)據(jù)處理效率的一大進步,W3C是用下來可讀性最高的。學(xué)習(xí)圍繞Select展開。增刪改、約束、索引、數(shù)據(jù)庫范式均可以跳過。主要了解where、group by、order by、having、like、count、sum、min、max、distinct、if、join、left join、limit、and和or的邏輯,時間轉(zhuǎn)換函數(shù)等。
如果想要跟進一步,可以學(xué)習(xí)row_number、substr、convert、contact等。另外不同數(shù)據(jù)平臺的函數(shù)會有差異,例如Presto和phpMyAdmin。
SQL進階:https://zhuanlan.zhihu.com/p/25435517
有時間網(wǎng)上刷題,可以根據(jù)后續(xù)工作提前準備好SQL語句,讓熟手幫忙改,而不是直接讓別人幫忙寫好。
5.第五周:統(tǒng)計知識學(xué)習(xí)
這一周努力掌握描述性統(tǒng)計,包括均值、中位數(shù)、標(biāo)準差、方差、概率、假設(shè)檢驗、顯著性、總體和抽樣等概念。詳細的數(shù)學(xué)推導(dǎo)不用細看,只要看到數(shù)據(jù),知道不能怎么樣,而是應(yīng)該這樣分析即可。
Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學(xué)會各種檢驗。
6.第六周:業(yè)務(wù)學(xué)習(xí)
主要內(nèi)容為財務(wù)、營銷、顧客關(guān)系管理、顧客決策流程、用戶行為、渠道、線上線下運營。
因為是業(yè)務(wù)出身,這周的內(nèi)容我沒有學(xué)。建議非業(yè)務(wù)去看目前服務(wù)于該客戶的供應(yīng)商產(chǎn)品以及市場上的競品,了解他們用什么,能摸出來他們關(guān)注什么。Demo是很好的資源。
7.第七周:Python學(xué)習(xí)
編程學(xué)習(xí)說簡單不簡單,說難也不難,因為我們是菜雞,所以學(xué)的方向比較單一,不會像廖XX的網(wǎng)站上一樣掛出對聯(lián)那么長的名目。需要學(xué)會條件判斷、字典、切片、循環(huán)、迭代、自定義函數(shù)等。知道數(shù)據(jù)領(lǐng)域最經(jīng)典的包Pandas+Numpy。
Python入門:《深入淺出Python》,我用的是Anaconda,代碼一定要自己寫一遍。這部分我的操作和學(xué)SQL不一樣,是讓專家先寫了差不多二十段工作當(dāng)中常用的代碼,然后自己按照之前學(xué)的基本原理愉快地剪切、復(fù)制、粘貼、抄襲。