自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

以什么姿勢進入DataMining會少走彎路?

大數據
前言:大數據時代早已經來臨,很多年輕人急著鬧著想要躋身于大數據行業(yè),不免也有一些不得志的中年人。自然而然的會報各種培訓班,理所當然認為付出總有一天會賺回來的。但卻走了不少彎路,花了不少錢。倘若在我寫的文章中,能有所啟發(fā)和收獲,希望諸位能夠以恰當的姿勢進入DataMining吧!

[[172700]]

前言:大數據時代早已經來臨,很多年輕人急著鬧著想要躋身于大數據行業(yè),不免也有一些不得志的中年人。自然而然的會報各種培訓班,理所當然認為付出總有一天會賺回來的。但卻走了不少彎路,花了不少錢。倘若在我寫的文章中,能有所啟發(fā)和收獲,希望諸位能夠以恰當的姿勢進入DataMining吧!

畫外音:看過身邊花1w+大洋報培訓班,周末夜里堅持學習的同學;面過碩士、博士甚至留學交換生,但結果總不盡如人意;現如今堪比前端一樣渾濁的算法領域,讓人擔憂。

承認一點,每個人都在進步,每個人都走過彎路,曾幾某時,自己也一腔熱血的寫過一篇文章,后來分享了出來 “神愛眾人,于是帶來Python” 。目前來看,那篇文章寫得并不好,感興趣的可以去看看。

前不久,給公司同事做算法培訓時候,說了自己在算法領域的四點信仰,可以和看官一起分享:

  • 信仰1:不以具體業(yè)務場景出發(fā),不考慮大數據并發(fā)實現的數據挖掘,都在耍流氓;
  • 信仰2:知其然,曉其所以然,萬變不離其宗,必定變化莫測,這正是算法魅力;
  • 信仰3:在DataMining領域,不做兩種人。一種是工具人,一種是研究者;
  • 信仰4:擁有健康、豐滿的數據,業(yè)務場景建模已經成功90%以上了;

余下的內容,也將對上面四點分別做闡述,附帶案例說明:

學會考慮業(yè)務場景建模,多思考大數據并發(fā)下的實現

案例1:一些網絡授課,每當提起分類算法,最常用的典型二分類是男性和女性判別?

a.普遍的講解流程,介紹各種分類算法,DT、LR、NB和SVM等等;

b.接下來,考慮用戶一些基礎的網站行為數據,平均訪問時長、nick、瀏覽page、每日pv等等;

c.***,帶入數據,套用模型,個別還會考慮清洗數據,一切就Over;

一堂簡單網絡授課,也許不能面面俱到,

但也絕對不能錯誤的引導DM(數據挖掘)的核心要領。

比如:

讓學習者認為算法是整個數據挖掘的核心?數據挖掘就是隨便找到數據套用模型,甚至工具包就OK了?

很多很多不恰當的思想灌輸,正是讓現如今算法行業(yè)魚龍混雜,我也不是批判者,也不是熬雞湯人。我會這樣簡單去介紹,二分類場景下的男性和女性判別:

Step1:Where 在哪個行業(yè)下的用戶性別判斷的場景需求?(比如:電商行業(yè))

Step2:Why 需要去分析用戶性別?(現如今,在資金有限的情況下[廣告費,站外流量和短信等等],精準化營銷的需求越來越強烈,同時用戶體驗也會是至關重要,如何做到千人千面?如何提高整個平臺,或者商家店鋪的成交轉化率、用戶回購率和用戶粘度?甚至如何給每個用戶展示他所想看到的寶貝詳情頁?這些的這些,都是需要對用戶,乃至店鋪、商品和品牌進行畫像,構建標簽體系,其中就包括用戶性別!)

Step3:What 如何去分析用戶性別?(在數據挖掘中,特征選取不當,模型構建不當,都會容易引起[欠擬合]和[過擬合],因此在電商行業(yè)的用戶性別分析,首先明確一個概念區(qū)別(用戶網站性別和用戶線下性別),顧名思義,一個是用戶真實性別,一個是用戶在網站的行為性別,而真正對我們有意義的,當然是后者。因此,在考慮用戶性別分析特征時,核心要素是考慮用戶在平臺購買過的類目行為(每款商品在設計之初,都會明確目標群體)。

但是,畢竟會存在很多用戶是新用戶,這也正是模型的冷啟動問題。如果你認為算法是最厲害的,到這里,你會無能為力;但如果你夠了解業(yè)務,了解數據,你會觀察到用戶的收貨姓名(但,注意,經驗表明,每一個電商購物用戶,都可能會存在多個收貨姓名 ? 甚至存在非姓名的收貨姓名?剩下深入的細節(jié),需要建模之處進行合理把控的)

Step4:When 什么時候去分析用戶?(通過上面的分析,想必已經夠清楚了,模型構建一定要場景化,也必然場景細分,也有就用戶細分!這里主要分三類,a.新用戶,b.購買行為數在一定范圍內?c.高頻購買行為用戶?

Step5:How 去分析用戶性別?(整個二分類場景,模型被我放在***,希望學習數據挖掘的同學,對于業(yè)務和算法的分量,要在心目中有分寸。這里會考慮冷啟動模型、分類算法(比如樸素貝葉斯)和符號模型的組合。這里灌輸一個思想:模型 != 單算法,而是由多算法+一系列規(guī)則邏輯組合而成)

[總結]:一堂課程,還是花了很多培訓費,即使不能闡述太多,但我想,如果通過上述方式,會不會更恰當呢?

案例2:很多學者不考慮大數據并發(fā)的實現,玩習慣性的單機版時間久了,很難走出這道坎。比如很多人用協(xié)同過濾,考慮過大數據量下大矩陣相乘的實現?

知其然,曉其所以然,萬變不離其宗,必定變化莫測:

案例3:很多使用算法,甚至數據清洗方式的同學,更多是將知道的方法組合在一起,認為這就是數據挖掘?

我想,這也許還是。

網絡課程給學習者帶來的詬病吧!

因為課程上已經千篇一律的講述了數據挖掘的流程體系,所以學習者都會這樣做:

a.業(yè)務場景需求出現:不假思索就采取能想到的特征變量;

b.不考慮數據清洗,不考慮歸一化,無量綱化處理,甚至異常和缺失值,就直接進入模型;

c.不了解具體某一個算法的原理性,一味的用各種工具包,甚至扯上了Spark,R,Mahout 和python等等,輸入數據就OK了;

……很多很多,畢竟我不是批判者,我只是希望大家能夠做一件正確的事,再正確做好這件事!

如果換做我,我會這樣思考!

Step1:業(yè)務需求出現時,多向專業(yè)運營人員了解業(yè)務背景,結合自己理解,確定初步的特征變量,觀察數據分布;

Step2:考慮異常值和缺失值處理(這些都是觀察數據找到的思路),甚至結合數據分布,采取合適的無量綱化處理方式, 甚至一定程度上降維;

Step3:結合業(yè)務場景建模,用戶群體細分,確定模型選擇,以及所選算法,比如NB(樸素貝葉斯)。

Step4:需要深入了解樸素貝葉斯的原理,知道優(yōu)勢和不足,甚至優(yōu)化方向(比如:取Log、加平滑曲線等)

[總結]這里只是一個大概的思路,如果課堂時間允許情況下,用具體二分類(性別判別)的案例分析流程,這樣學生能夠領悟到更透徹。而不是一味的就那幾步數據挖掘步驟!

在DataMining領域,不做兩種人。一種是工具人,一種是研究者:

做數據挖掘,如果真正熱愛這個行業(yè),并希望落實想法,不推薦大家做以上兩類人,工具人和研究者。

[工具人]:面試過很多人,(這里談離線批處理)基本都是Python(很多面試者被豆瓣電影評分的案例害得不淺啊!),很多一味追潮流,也整一個Spark來調包,認為就是懂數據挖掘了,甚至Mahout和R等等;

PS:我曾經反問一位面試者,如果讓你招人,你會愿意選擇,只會用包,缺乏思考怎么去用?為什么這樣用?甚至如何改進和組合的人? 顯而易見,面試者的答案是不會招這樣的人!

我這里不是批判工具如何不好,曾經大學,我也只是會用Matlab、Spss,甚至Lingo。畢業(yè)初期,也只是會用Python和R等。我主要說的是,優(yōu)秀的模型,不單單是某一個算法能夠解決的,其中還包括很多組合算法和邏輯規(guī)則。單獨的使用工具,結合業(yè)務的個性化需求會得不到很好滿足,甚至如果讓你調優(yōu)算法,一方面你缺乏算法原理的理解,另一方面,你修改源碼的也會很費腦、費神啊!

[總結]:技術沒什么吸引人的,它的魅力在于服務業(yè)務,通過業(yè)務發(fā)展來驅動技術提高。這里推薦MapReduce!

[研究者]這類人,不過多討論,畢竟這個社會是需要這樣一類人存在的,我也很佩服他們。 我前面說的前提是,如果真正熱愛大數據下的數據挖掘,并落實想法,還是直接作為一個實踐者吧!

擁有健康、豐滿的數據,業(yè)務場景建模已經成功90%以上了

越到***,闡述的理由會更少。因為,該說的都已經說了!只想勸各位數據挖掘愛好者、實踐者或工作者.好的模型,不是用了如此NB的算法模型,而是優(yōu)秀的泛化能力,而具備泛化能力的模型,缺乏良好的數據源,會是一棵長不大的樹苗的;

Google的阿法狗如此厲害,和它完備、真實和健康的數據源密不可分的!

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2010-03-22 11:57:23

云計算

2009-02-02 13:54:49

忠告成長涉世之初

2009-05-08 09:23:52

網管故障病毒

2011-04-29 10:31:36

數據中心虛擬化

2018-05-29 22:24:22

程序員開發(fā)學習

2025-04-29 01:10:00

Kafka高并發(fā)系統(tǒng)

2015-07-02 10:50:55

SDN

2020-05-08 15:06:58

數據科學模型深度學習

2022-01-04 08:21:50

經驗職場工作

2013-10-23 13:33:29

微軟Surface庫克

2018-07-04 13:53:08

2012-04-16 09:50:08

2015-09-24 17:41:15

Windows 10

2009-06-25 13:37:54

2018-05-08 13:23:29

2010-07-27 09:17:23

服務器整合

2010-06-13 10:50:05

職場辛酸教訓

2020-07-14 11:00:12

Spring BootRedisJava

2022-09-21 10:05:09

架構模式
點贊
收藏

51CTO技術棧公眾號