機(jī)器學(xué)習(xí)從抬腳到趴倒在門(mén)檻
好像一下子,進(jìn)入了AI時(shí)代,后臺(tái)的很多小伙伴其實(shí)都很迷茫,自己現(xiàn)在該如何去做好準(zhǔn)備,去迎接即將到來(lái)的All in AI。
所以就有了今天這篇文章啦。今天呢,跟大家分享分享目前機(jī)器學(xué)習(xí)的歷程吧,我到現(xiàn)在都沒(méi)覺(jué)得我入門(mén)了機(jī)器學(xué)習(xí),所以也沒(méi)有什么所謂的經(jīng)驗(yàn)啊,成功實(shí)踐啊,沒(méi)有。
首先甩三句始終相信的話。
- 不要為了機(jī)器學(xué)習(xí)而機(jī)器學(xué)習(xí)。
- 機(jī)器學(xué)習(xí)只有洞悉來(lái)自業(yè)務(wù)的需要,配合業(yè)務(wù)發(fā)展,才能發(fā)揮作用,單純的機(jī)器學(xué)習(xí)沒(méi)什么用。
- python大法好,用2.7。
業(yè)界的前沿機(jī)器學(xué)習(xí)基本都是只支持python和C++,行業(yè)標(biāo)準(zhǔn),就用python。
大數(shù)據(jù)下還是Spark更實(shí)用。
在大數(shù)據(jù)的環(huán)境下,其實(shí)落地最實(shí)用,場(chǎng)景最多的,還是Spark。
該怎么去下手?
腳抬起了3cm。目標(biāo):開(kāi)眼界。
首先從比較宏觀的角度,全面了解機(jī)器學(xué)習(xí)的全貌??纯礄C(jī)器學(xué)習(xí)能做些什么,能解決什么問(wèn)題,是什么樣的套路。
機(jī)器學(xué)習(xí)就是根據(jù)已有特征,訓(xùn)練模型,然后根據(jù)模型來(lái)預(yù)測(cè)未知的數(shù)據(jù)。
很多小伙伴一開(kāi)始就會(huì)扎進(jìn)去什么支持向量機(jī)、Logistic回歸、LASSO啊、決策樹(shù)啊這類(lèi)算法里面,一下去就去非常深入去理解他們的原理,個(gè)人認(rèn)為這種切入方式是有一點(diǎn)問(wèn)題的,如果僅僅是為了學(xué)習(xí)一下這些算法,那還行。長(zhǎng)遠(yuǎn)來(lái)說(shuō),還是要現(xiàn)有大局觀。
- 《圖解機(jī)器學(xué)習(xí)》
- 《集體智慧編程》
- 《機(jī)器學(xué)習(xí)》周志華
這三本書(shū)我都買(mǎi)了,循序漸進(jìn),***本是通俗易懂的機(jī)器學(xué)習(xí)算法圖解,作為趣味性入門(mén)來(lái)說(shuō)非常好。
第二本是當(dāng)前機(jī)器學(xué)習(xí)能做些什么事情,以及python怎么實(shí)現(xiàn)這些機(jī)器學(xué)習(xí)算法,代碼狂人可以在這里面找到一些成就感,推薦先快速翻一遍,再回頭,重新一章一章看,一行代碼一行代碼打,有時(shí)候不知道它啥意思也不要緊,打出來(lái)跑跑看。
第三本是比較系統(tǒng)地說(shuō)機(jī)器學(xué)習(xí)的過(guò)程,以及每個(gè)算法比較嚴(yán)格的數(shù)學(xué)推導(dǎo)過(guò)程,非常嚴(yán)謹(jǐn),數(shù)學(xué)要求較高,數(shù)學(xué)不太好的可以暫時(shí)不買(mǎi),買(mǎi)了也看不懂。
嘛,也不用三本都買(mǎi),看不完。小伙伴要是急呢,其實(shí)把***本看了也就行了,眼界也算是開(kāi)了,只是手頭一點(diǎn)米可以下鍋都沒(méi)有而已····
腳抬了5cm了。目標(biāo):了解算法。
這個(gè)階段,可以把所有的算法原理都開(kāi)始看了,主要的書(shū)是上面的《機(jī)器學(xué)習(xí)》。如果英語(yǔ)夠好的話呢,在coursera上學(xué)學(xué)Andrew NG的機(jī)器學(xué)習(xí)公開(kāi)課。如果英語(yǔ)不好的話呢,可以試試鄒博老師的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》,中文解釋來(lái)說(shuō)還是非常不錯(cuò)的入門(mén)教程。
當(dāng)然,師傅領(lǐng)進(jìn)門(mén),修行在個(gè)人。
教程和書(shū)再好都沒(méi)有用,還是需要你花時(shí)間,慢慢慢慢地,去一點(diǎn)點(diǎn)理解透每個(gè)算法背后的原理,以及各種各樣的優(yōu)化方法是怎么發(fā)生的。
舉例線性回歸可以這樣進(jìn)階地去學(xué)習(xí):
純線性回歸。什么是最小二乘法,損失函數(shù)怎么求。
核函數(shù)。什么叫多項(xiàng)線性回歸,什么叫高斯核線性回歸。
正則化。什么叫正則化,正則化的目的是什么?LASSO,嶺回歸,ElasticNet都是什么。L0、L1、L2正則各代表什么東西。
廣義線性模型。廣義線性模型把什么東西涵蓋起來(lái)了,是怎么抽象怎么推導(dǎo)的?
大概就這樣,一點(diǎn)一點(diǎn)去深入,不用一次性把所有的模型都學(xué)完。但是個(gè)人建議,線性回歸,Logistic回歸,決策樹(shù)這三個(gè)必須必須完完整整先看完。畢竟很好理解又很好用,太難的臣妾真的做不到啊!!!逃避可恥但有用吖。
腳抬了6cm了。目標(biāo):利用成熟框架。
這個(gè)階段呢,就沒(méi)什么好的書(shū)介紹了,使用scikit-learn去解決前面解決過(guò)的問(wèn)題吧~會(huì)發(fā)現(xiàn)超級(jí)簡(jiǎn)單,還特么比自己實(shí)現(xiàn)的快很多勒。
腳抬了6.5cm了。目標(biāo):開(kāi)始接觸神經(jīng)網(wǎng)絡(luò)。
把Tenfowflow官網(wǎng)的demo看懂,打一遍。一層一層撥開(kāi),看看RNN,CNN,GAN這些現(xiàn)在非常流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的原理是怎么樣的,深度學(xué)習(xí)目前來(lái)說(shuō)離不開(kāi)這三兄弟。如果還是看不懂呢,可以搜索一下莫凡Tenfowflow,蠻入門(mén)的,但也僅僅是入門(mén)而已。大概了解了解也可以了
如果你已經(jīng)完成了上面的步驟,你已經(jīng)可以跟我一樣出來(lái)吹牛逼了,但是其實(shí)并沒(méi)有什么卵用。
腳抬了7cm了。目標(biāo):開(kāi)始實(shí)操。
進(jìn)入Kangle,注冊(cè)賬號(hào),開(kāi)始泰坦尼克號(hào)吧。
腳抬了7.5cm了。目標(biāo):開(kāi)始關(guān)注落地的事情。
上面說(shuō)了那么多其實(shí)都沒(méi)開(kāi)始任何落地的東西,你的模型要怎么訓(xùn)練,怎么開(kāi)始結(jié)合業(yè)務(wù)來(lái)實(shí)際應(yīng)用起來(lái),你對(duì)力量還是一無(wú)所知。后臺(tái)回復(fù)"MVP",先行看看吧,大概就那么幾種方式模型訓(xùn)練提供服務(wù)的,展開(kāi)來(lái)講文章會(huì)太長(zhǎng),會(huì)被打pp的。
腳抬了10cm了。目標(biāo):開(kāi)始發(fā)現(xiàn)自己數(shù)學(xué)不夠用了。
- 《概率論與數(shù)理統(tǒng)計(jì)》陳希孺
- 《線性代數(shù)應(yīng)該這樣學(xué)》
這個(gè)嘛,慢慢補(bǔ)吧,一時(shí)半會(huì)補(bǔ)不上來(lái)的T_T。
腳抬了11cm了。目標(biāo):關(guān)于特征工程。
好的特征是成功的一半。業(yè)界有這么一句半玩笑但是有點(diǎn)道理的話。特征選擇和特征清洗,決定了你模型的上限,你的算法和優(yōu)化只是不斷逼近這個(gè)上線而已。
該系統(tǒng)學(xué)學(xué)特征工程的東西了,直接度娘特征選擇會(huì)有一大堆的資料,我這里就不提供了,我寫(xiě)得也沒(méi)人家寫(xiě)得好。
特!征!工!程!非!常!重!要!
趴倒在門(mén)檻上。目標(biāo):深入理解前沿的底層原理。
跟進(jìn)一些過(guò)去的優(yōu)秀論文,比如MapReduce原理的,比如李沫的Parameter原理的,比如GAN原理的,比如LPA原理的。非常非常多的論文,邊實(shí)踐邊看唄,我也沒(méi)看多少所以也沒(méi)法分享啥。
所以我就趴倒在門(mén)檻上,依然還沒(méi)入門(mén),還在上面某些階段努力ing。
當(dāng)然需要去看得遠(yuǎn)遠(yuǎn)也不止上面這些書(shū),也遠(yuǎn)遠(yuǎn)不止這些論文,希望早日把它們吸收了吧。生活又不止機(jī)器學(xué)習(xí)。生活確實(shí)不止遠(yuǎn)方和詩(shī),悲催的是到了遠(yuǎn)方,卻發(fā)現(xiàn)讀不懂遠(yuǎn)方的詩(shī)。
- 《女士品茶》
- 《華杉講透孫子兵法》
- 《論語(yǔ)(白話全譯)》
- 《深入淺出統(tǒng)計(jì)學(xué)》
- 《深入淺出數(shù)據(jù)分析》
- 《大數(shù)據(jù)智能》
- 《深度學(xué)習(xí)》
- 《優(yōu)雅的理性》
- :heavy_check_mark:《創(chuàng)新著的窘境》
- :heavy_check_mark:《數(shù)學(xué)之美》
誒,書(shū)單越來(lái)越長(zhǎng)了,慢慢來(lái)慢慢來(lái)。好啦,分享就差不多到這里,不黑不吹,上面這些過(guò)程至少至少需要你業(yè)余時(shí)間沒(méi)日沒(méi)夜搞個(gè)半年,大家做好身體鍛煉,一起玩命學(xué)唄。