為什么數(shù)據(jù)挖掘很難成功?
大數(shù)據(jù)時代,數(shù)據(jù)挖掘變得越加重要,曾經(jīng)做了很多,成功有之,失敗的卻更多,舉一些例子,探究其失敗原因,也許于大家都有啟示吧。
數(shù)據(jù)缺失總是存在。
為什么數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備工作要這么長時間,可以理解成取數(shù)時間很長、轉(zhuǎn)換成所需的數(shù)據(jù)形式和格式時間很長,畢竟只有這樣做,才能喂給數(shù)據(jù)挖掘引擎處理。
但數(shù)據(jù)準(zhǔn)備的真正目的,其實(shí)是要從特定業(yè)務(wù)的角度去獲取一個真實(shí)的數(shù)據(jù)世界,數(shù)據(jù)的獲取比處理重要,技巧倒是其次了。
離網(wǎng)預(yù)測一直是很多業(yè)務(wù)領(lǐng)域關(guān)注的焦點(diǎn),特別是電信行業(yè),但這么多年做下來,其構(gòu)建的離網(wǎng)模型卻難言成功,為什么?
因?yàn)閿?shù)據(jù)獲取太難了。
離網(wǎng)預(yù)測希望用客戶歷史的行為數(shù)據(jù)來判定未來一段時間離網(wǎng)的可能性,但國內(nèi)的電信市場并不穩(wěn)定,不僅資費(fèi)套餐復(fù)雜,大量的促銷政策時時轟炸眼球,大家看得是熱鬧,但對于數(shù)據(jù)挖掘人員來講,卻是業(yè)務(wù)理解和數(shù)據(jù)準(zhǔn)備的噩耗了。
因?yàn)闃I(yè)務(wù)的理解很困難,數(shù)據(jù)完全被業(yè)務(wù)扭曲,如果要預(yù)測準(zhǔn)確,不僅自身業(yè)務(wù)促銷的因素要考慮進(jìn)去,還要考慮競爭對手策反政策、地域影響等等,你訓(xùn)練時看到的是一個簡單的離網(wǎng)結(jié)果數(shù)據(jù),但誘導(dǎo)因素異常復(fù)雜,這類因素相關(guān)的數(shù)據(jù)根本取不到或者難以量化。
比如電信離網(wǎng)很大程度是競爭對手策反、客戶遷徙離網(wǎng)等等,你知道競爭對手何時推出的促銷政策嗎?你知道客戶什么時候搬的家嗎?你如何用數(shù)據(jù)來表達(dá)這種影響?你的數(shù)據(jù)能適應(yīng)市場變化的節(jié)奏嗎?
因此,如果某個合作伙伴來跟你說,我可以做電信行業(yè)的離網(wǎng)模型,那是個偽***,離網(wǎng)模型已經(jīng)被電信行業(yè)做爛了,幾乎沒有成功的案例,即使一時成功也持續(xù)不了多久,只要業(yè)務(wù)不統(tǒng)一,就不大可能出現(xiàn)一個基本適用的離網(wǎng)模型,你無法想象全國10萬個電信資費(fèi)政策會對預(yù)測建模造成怎樣的影響。
與互聯(lián)網(wǎng)大一統(tǒng)的數(shù)據(jù)相比,其搞的風(fēng)控模型顯然要簡單的多了,因?yàn)閿?shù)據(jù)的獲取難度和穩(wěn)定度不在一個量級上。
數(shù)據(jù)挖掘,難就難在要為預(yù)測的業(yè)務(wù)提供跟這個業(yè)務(wù)相關(guān)的數(shù)據(jù)環(huán)境,因此,有時離網(wǎng)模型做不好,并不是模型師的錯,也不是算法的問題,而是業(yè)務(wù)惹的禍,是數(shù)據(jù)問題。
你讓開發(fā)出Alphgo的DEEP MIND團(tuán)隊(duì)來做離網(wǎng)模型,也是一個死字,這可能也是傳統(tǒng)行業(yè)數(shù)據(jù)挖掘很難出效果的一個原因。
阿里的螞蟻金服,所以能算法取勝,一個原因是它天生具有線上的資金往來數(shù)據(jù),如果讓它去分析傳統(tǒng)銀行的線下數(shù)據(jù),估計(jì)難度也很大。
數(shù)據(jù)挖掘師特別強(qiáng)調(diào)要理解業(yè)務(wù),就是希望你基于業(yè)務(wù)的理解能找到所需的解釋數(shù)據(jù),外來的和尚所以做不好,也是這個因素,因?yàn)榇蛞粯寭Q一個地方的方式,跟扎根理解業(yè)務(wù)的建模文化背道而馳。
數(shù)據(jù)準(zhǔn)備,不確定性總是存在,因此一定程度上講,這個世界是不可預(yù)測的,預(yù)測的能力,跟我們采集數(shù)據(jù)的能力成一定的正相關(guān)關(guān)系。
大數(shù)據(jù)的意義,就在于可以采集到更多的數(shù)據(jù),這個決定了我們用機(jī)器解釋世界的可能程度。
假數(shù)據(jù)真分析。
還是拿離網(wǎng)的例子,你就知道很多時候,所謂的解釋數(shù)據(jù),都是假數(shù)據(jù),雖然你不是故意的,你還很認(rèn)真,但因?yàn)槭芟抻跇I(yè)務(wù)能力,決定了你只能使用假數(shù)據(jù),結(jié)果可想而知。
以前新手,在做離網(wǎng)預(yù)測的時候,總喜歡拿訂購成功的數(shù)據(jù)作為訓(xùn)練的數(shù)據(jù),但這個顯然是個大謬誤。
要知道,大量的業(yè)務(wù)訂購是套餐附帶訂購的,并不能反映用戶的真實(shí)意愿,拿這個數(shù)據(jù)去訓(xùn)練,能訓(xùn)練出什么東西?這就是業(yè)務(wù)能力不夠造成的現(xiàn)象。
現(xiàn)在互聯(lián)網(wǎng)上估計(jì)這個現(xiàn)象很嚴(yán)重,比如刷單,這些假數(shù)據(jù)嚴(yán)重擾亂了模型,去偽存真是數(shù)據(jù)挖掘師的一個必修課。
但這個,可惜又跟業(yè)務(wù)能力相關(guān),依賴于實(shí)踐和經(jīng)驗(yàn),如果讓市場部經(jīng)理轉(zhuǎn)行去做數(shù)據(jù)挖掘師,估計(jì)也很牛逼。
數(shù)據(jù)挖掘,難就難在這里,其是業(yè)務(wù)、數(shù)據(jù)甚至是技術(shù)的結(jié)合體,在大數(shù)據(jù)時代,這個趨勢會越加明顯。
缺乏對于“常理”的感覺。
以下是一個社交網(wǎng)絡(luò)的案例,場景是需要對于兩個通話(或其它)交往圈進(jìn)行重合度判定,以識別兩個手機(jī)號碼是否屬于同一個人。
規(guī)則似乎很簡單,但挖掘出來的結(jié)果卻不盡如人意,準(zhǔn)確率只有12%,百思不得其解。
后來發(fā)現(xiàn)判定重合度的閾值是30%,這個也不能說明有問題,但問題出在對于基數(shù)的判定上,大量的用戶總的交往圈只有3-4個,也就是說,重合1個就可能達(dá)到這個閾值,很多新手或者過于迷信技巧的人,往往忽視業(yè)務(wù)本質(zhì)的認(rèn)識。
數(shù)據(jù)挖掘不僅僅是一門挖掘語言,還要有足夠的生活認(rèn)知和數(shù)據(jù)感覺,這個很難短期能夠提升,依賴于長期實(shí)踐,甚至認(rèn)為,這個跟情商相關(guān),有些人就是有感覺,一眼能發(fā)現(xiàn)問題。
缺乏迭代的能力。
很多傳統(tǒng)企業(yè),數(shù)據(jù)挖掘效果不好,跟企業(yè)的組織、機(jī)制、流程等相關(guān),舉個例子:
曾經(jīng)給外呼部門做了一個外呼偏好模型,就是對于所有客戶的外呼偏好排個序,在外呼資源有限的條件下,按照這個排序進(jìn)行外呼,可以提升外呼效率,然后發(fā)布到標(biāo)簽庫,然后讓外呼部門去用,等待反饋的時間總是很長,大家都懂的,然后就石沉大海了。
最近想起來,再去要結(jié)果,發(fā)現(xiàn)效果很不錯,能真正提升10個百分點(diǎn)啊,但已經(jīng)2個月過去了。
這還算一個較為成功的挖掘,但又有多少模型由于線下流程的原因而被放棄了,誰都知道,數(shù)據(jù)挖掘靠的是迭代,很難***次就成功,但有多少星星在開始之時,就被掐滅了。
傳統(tǒng)企業(yè)冗長的線下流程,的確成為了模型優(yōu)化的大殺器,互聯(lián)網(wǎng)公司天生的在線性讓其算法發(fā)揮出巨大的價值,而傳統(tǒng)企業(yè)的建模,往往還在為獲得反饋數(shù)據(jù)而努力,組織、系統(tǒng)和運(yùn)營上的差距很大。
推廣是永遠(yuǎn)的痛。
很多傳統(tǒng)企業(yè)不同地域上的業(yè)務(wù)差異,不僅僅造成管理難度加大、體驗(yàn)不一致、系統(tǒng)過于復(fù)雜、運(yùn)營成本高昂,也讓模型的建設(shè)和推廣異常困難。
從模型本身的角度,不同地域的數(shù)據(jù)差異有時很大,在一個地方成功的模型,在另一個地方則完全失敗,過擬合現(xiàn)象比比皆是。
從業(yè)務(wù)理解的角度,建模團(tuán)隊(duì)要面對幾個甚至十多個做類似業(yè)務(wù)的團(tuán)隊(duì),各個團(tuán)隊(duì)的業(yè)務(wù)理解上的差異和對于建模的要求各不相同,造成了建模團(tuán)隊(duì)的無所適從。
模型推廣,成為了建模團(tuán)隊(duì)巨大的負(fù)擔(dān),復(fù)制模型,往往變成了重做模型,搜集結(jié)果數(shù)據(jù)也難上加難,數(shù)據(jù)挖掘,已經(jīng)不是一項(xiàng)純粹的活。
提了以上五點(diǎn),只是為了說明數(shù)據(jù)挖掘所以難,是綜合多種因素的結(jié)果,可能不是靠建立一個平臺,懂得一些算法,掌握一個工具就能簡單解決的,往往具有更深層次的原因。
我們在努力掌握好“器”的同時,也要抬起頭來,更全面的看待數(shù)據(jù)挖掘這個事情,因地制宜的制定適合自己企業(yè)特點(diǎn)的數(shù)據(jù)挖掘機(jī)制和流程。
當(dāng)然,大數(shù)據(jù)時代的到來,讓平臺,工具和算法也變得越加重要,這對數(shù)據(jù)建模師的知識結(jié)構(gòu)也帶來了新的沖擊。
歷史精選文章
- 不忘初心,大數(shù)據(jù)不是IT的狂歡! 閱讀量:2160
- 我如何完成一本企業(yè)數(shù)據(jù)字典的編寫! 閱讀量:2580
- BI自助取數(shù)是怎么煉成的? 閱讀量:1835
- 為什么BI取數(shù)這么難?閱讀量:11500
- 為什么數(shù)據(jù)管理工作很難成功?閱讀量:1900
- 為什么傳統(tǒng)BI沒前途?閱讀量:4093
- 大數(shù)據(jù),為什么不是傳統(tǒng)BI的簡單升級?閱讀量:3400
- 數(shù)據(jù)分析師的自我修養(yǎng) 閱讀量:1483
- 唯有數(shù)據(jù)創(chuàng)新,運(yùn)營商才能實(shí)現(xiàn)大數(shù)據(jù)變現(xiàn)的突破?閱讀量:1236
- 中國移動進(jìn)軍大數(shù)據(jù)征信,一個具有旅程碑意義的事件 閱讀量:2380
- 為什么有些人用3年的時間獲得了你12年的數(shù)據(jù)分析經(jīng)驗(yàn)?閱讀量:1874
- 數(shù)學(xué)中的“羅輯思維” 閱讀量:1090
- 數(shù)據(jù)說謊的藝術(shù) 閱讀量:2234
- 看上去很美,談?wù)劙⒗镌频拇髷?shù)據(jù)平臺【數(shù)加】 閱讀量:1281
- DPI大數(shù)據(jù)之戰(zhàn):運(yùn)營商的艱難抉擇 閱讀量:2342
還有很多...