數(shù)據(jù)模型多了,應該怎么管?
沒有數(shù)據(jù)分析和建模能力,肯定難以提升業(yè)務;然而,如果模型泛濫、沒有得到有效的統(tǒng)籌管理,其提升度恐怕也非常有限,還可能制造各種混亂。為了解決這樣的問題,“模型工廠”的概念已經(jīng)誕生,幫你解決模型冗雜的困境。
隨著近年來大數(shù)據(jù)挖掘概念的興起,數(shù)據(jù)分析建模的思想已經(jīng)深入人心,于是會建模、能建模的人也就越來越多。他們可能是資深大拿,分析建模、結果解讀手到擒來全搞定,但也可能是專業(yè)的“調包俠”,分析工具包拿來就用,有效沒效有個結果再說??傊诟髀穼<夜馀R之后,企業(yè)中的模型越來越多,接下來我們會面臨什么情況呢?
銷售經(jīng)理拿著數(shù)據(jù)專家小王新跑出來的營銷名單開始犯愁,模型新上線時效果確實不錯,營銷成功率大幅提升,但6個月過去了,營銷名單的質量有所下滑,銷售人員也開始質疑,銷售經(jīng)理拿著名單去找小王,小王說這是數(shù)據(jù)挖掘模型出來的結果,不會有錯的……
技術部門的小李最近有點叫苦不迭,小王做精準營銷模型催著要提數(shù),小趙做客戶流失預警模型也催著要提數(shù),連公司前臺小周也在要員工數(shù)據(jù)分析哪個星座的愛加班,總之公司的各路人馬都在找技術部門要數(shù),小李本來數(shù)據(jù)運行壓力就大這下更忙不過來了,他也搞不清楚怎么一下冒出來這么多挖掘請求……
公司領導老吳眼看著公司業(yè)績在數(shù)據(jù)分析的幫助下節(jié)節(jié)上升,心情大好。他想要了解目前公司到底做了多少模型,不調查不知道,一調查就犯了難。各個部門都在分別做模型,營銷部門、風險部門、營運部門都在做,有些模型部署在公司系統(tǒng)上,有些模型部門在部門內部。這些模型中有些是重復的,浪費了公司大量的計算資源;有些模型已經(jīng)跑了兩年多沒人管了,當初負責的人已經(jīng)離職了,目前這個模型誰也說不清楚,當初建模的文檔也早已不知道丟到哪兒了。當然也有很多模型存在個人電腦里……
以上問題總結下來,就是模型管理混亂,缺乏完整的模型管理流程和制度,造成了不能及時滿足業(yè)務部門的需求;數(shù)據(jù)管理混亂,模型數(shù)據(jù)不能共享;模型文檔管理混亂,不能滿足管理或監(jiān)管的要求。
因此,變革的時候又來了!進入大數(shù)據(jù)時代,變革就是來得這么措不及防。模型工廠已經(jīng)誕生,通俗講就是生產(chǎn)模型的工廠,在銀行業(yè)也把它叫為“模型實驗室”,它的建設包括管理規(guī)范、運營團隊、數(shù)據(jù)基礎、分析模型、系統(tǒng)平臺五大部分。它的范圍可大可小,可以是企業(yè)層面,也可以部門層面,總之,它的誕生就是為了保障模型管理的效率與質量。
管理規(guī)范:包括工作流程、數(shù)據(jù)質量管理、權限管理、知識管理等。標準化工作流程與模板,保證模型的全生命周期管理。以下是完整的模型全生命周期管理流程,不只是到模型上線部署就結束了,后續(xù)的模型持續(xù)監(jiān)控、驗證也是必不可少的,一個預測能力下降的模型可能會給決策工作帶來負面影響。
模型監(jiān)控是指對模型自變量的監(jiān)控,需要與建模時的數(shù)據(jù)進行對比分析,去看看變量的結構是否穩(wěn)定,是否與當初建模時已經(jīng)發(fā)生了變化,常用的統(tǒng)計指標有變量穩(wěn)定性指數(shù),轉移矩陣及SVD等。
模型驗證是指對模型預測準確性的判斷,常用的驗證指標模型穩(wěn)定性指數(shù)、KS統(tǒng)計量、CAP曲線和AR值、IV值、二項檢驗與卡方檢驗等。
冠軍模型和挑戰(zhàn)模型是對模型效果的一個輔助監(jiān)控手段。模型版本記錄了模型演變歷史,歷史模型也是重要的模型資產(chǎn)。
知識管理是指對模型建設過程中的經(jīng)驗總結和知識積累,在模型開發(fā)運維過程中需要做好文檔管理工作,常用的分析方法、工具、代碼都可以進入知識庫,有助于技能傳承和人才培養(yǎng)。
運營團隊:模型工廠的角色通常至少需要包括業(yè)務分析、數(shù)據(jù)管理、模型開發(fā)和模型驗證四個角色。四個角色有不同的技能要求,承擔不同的工作職責,需要分別制訂不同的職業(yè)發(fā)展路徑。在銀行業(yè),銀監(jiān)會要求模型開發(fā)和模型驗證必須由不同的團隊來執(zhí)行。
數(shù)據(jù)基礎:模型工廠的數(shù)據(jù)基礎一般是數(shù)據(jù)倉庫或數(shù)據(jù)集市,也可以直接來自于前端業(yè)務系統(tǒng)。歷史數(shù)據(jù)的長短、品質和覆蓋面決定了模型好壞與估算的精確度。數(shù)據(jù)基礎的建設需要分目標、分主題,同時需要盡可能考慮公共數(shù)據(jù)的建設,***化數(shù)據(jù)成果的共享。為不同角色的用戶開放不同的數(shù)據(jù)權限,建立數(shù)據(jù)管控機制,防止數(shù)據(jù)濫用,同時發(fā)揮前臺人員主觀能動性,避免給數(shù)據(jù)部門帶來壓力。
分析模型:綜合考慮企業(yè)的戰(zhàn)略目標、行業(yè)熱點、風險導向、監(jiān)管要求,制定企業(yè)的模型應用體系,然后以見效的速度和需求的緊迫性兩個角度來決定模型開發(fā)的路徑。針對同一個建模需求,可能可以建立不同的模型,冠軍模型和挑戰(zhàn)模型并存。在建模過程中注重建模數(shù)據(jù)的有效性,建模過程的科學性,模型結果的可解釋性。
系統(tǒng)平臺:系統(tǒng)平臺是模型工廠的技術支撐,需要軟硬件的有效結合。系統(tǒng)平臺需要包括以下功能:數(shù)據(jù)管理、分析建模、報表展現(xiàn)、模型管理、權限管理、流程管理、文檔管理,除此之外還需要支持復雜算法開發(fā)、數(shù)據(jù)可視化開發(fā)、移動端處理等個性化要求。建設系統(tǒng)平臺需要長遠規(guī)劃,建設過程中需要綜合考慮易用性、穩(wěn)定性、可擴展性等。
在大數(shù)據(jù)分析如火如荼的今天,做好一個模型并不難,難的是通過模型提高企業(yè)的綜合管理水平。在您的企業(yè)中或許已經(jīng)多少有了模型工廠的影子,但稍微哪點做得不好,就容易遇上本文開篇的那些問題,希望本文能給您帶來啟發(fā)與幫助。