機(jī)器學(xué)習(xí)“調(diào)音師”:如何及何時(shí)重新調(diào)校ML
古希臘哲學(xué)家赫拉克利特說:“唯一不變的就是變化”。時(shí)間擁有著我們無法撼動(dòng)的強(qiáng)大力量,無論是觀念、社會(huì)還是人類本身,都會(huì)隨著時(shí)間的推移而發(fā)生巨大的變化。
往日比較先進(jìn)的事物會(huì)被當(dāng)今所淘汰,如今新穎的想法也可能在接下來幾年被遺忘。了解變化對(duì)企業(yè)來說至關(guān)重要。
15年前,如果一家手機(jī)制造公司沒有搭上研發(fā)智能手機(jī)的列車,還有可能生存下來嗎?它們幾乎都已經(jīng)從市場(chǎng)上消失了。擁有功能簡(jiǎn)單的移動(dòng)手機(jī)是曾經(jīng)的常態(tài),然而人們的需求迅速轉(zhuǎn)向了智能手機(jī),未能適應(yīng)變化的公司付出了代價(jià)。
數(shù)據(jù)分析,逐漸開始獲得了世界的支配權(quán),機(jī)器學(xué)習(xí)模型成為了促成公司決策的主要力量。這些模型和所有商業(yè)策略一樣,需要隨時(shí)間推移而不斷調(diào)校,技術(shù)上來說是由于“模型漂移”。
什么是“模型漂移”
雖然大多數(shù)課程、文章和帖子都定義了機(jī)器學(xué)習(xí)的生命周期——從收集數(shù)據(jù)開始,到在不同環(huán)境中部署機(jī)器學(xué)習(xí)模型結(jié)束,但人們往往會(huì)忘記機(jī)器學(xué)習(xí)生命周期中一個(gè)十分重要的特性,那就是模型漂移。
本質(zhì)上來說,目標(biāo)變量與自變量之間的關(guān)系隨時(shí)間而變化。模型漂移使模型無法保持穩(wěn)定,預(yù)期也會(huì)逐漸出現(xiàn)越來越多的錯(cuò)誤。
我們?cè)囍鴱暮?jiǎn)單的線性回歸這一技術(shù)角度來理解這一情況。線性回歸中,我們簡(jiǎn)單地映射自變量x_i來預(yù)測(cè)目標(biāo)變量y:
y = α + β_1*x_1 + β_2*x_2+ β_3*x_3 + …
其中,α是截距,β_i對(duì)應(yīng)于變量x_i的系數(shù)。
通常會(huì)假設(shè)這一映射是靜態(tài)的,即我們假設(shè)系數(shù)β_i(和截距α)不隨時(shí)間而變化,且控制目標(biāo)變量y預(yù)測(cè)的關(guān)系對(duì)未來的數(shù)據(jù)也合理有效。
然而,這一假設(shè)在所有情況下都不成立。企業(yè)的盈利很大程度上依賴于這樣的模型,一旦假設(shè)不成立,就會(huì)對(duì)企業(yè)構(gòu)成嚴(yán)重的威脅。
這些模型可能代表了未來發(fā)展中的情況,所以之后一定是站不住腳的。由于基本條件的變化,預(yù)測(cè)會(huì)隨著時(shí)間失去準(zhǔn)確性。
漂移的種類
模型漂移可以分為兩大類:
第一類是“概念漂移”,一旦目標(biāo)變量本身的統(tǒng)計(jì)特性發(fā)生變化,就會(huì)發(fā)生這種情況。顯然,如果試圖預(yù)測(cè)變量的重要意義改變了,模型就不能有效適用于這個(gè)定義了。
第二類也是最常見的一類是“數(shù)據(jù)漂移”,預(yù)測(cè)的統(tǒng)計(jì)特性改變時(shí)發(fā)生。同樣,如果基礎(chǔ)變量在改變,模型就會(huì)失效。
一個(gè)經(jīng)典的例子就是季節(jié)性導(dǎo)致的數(shù)據(jù)模式變化。夏季有用的商業(yè)模型到冬季就可能失效了。假期里航班需求大大增加,而淡季里只能勉強(qiáng)維持客座率。再如人們偏好的改變,就像開頭提到的智能手機(jī)。
如何解決?
優(yōu)秀的解決方案就是不斷修改模型。模型里開始出現(xiàn)漂移后,可基于以往經(jīng)驗(yàn)來進(jìn)行預(yù)估。這樣一來,模型能夠得到積極的重建以降低漂移帶來的風(fēng)險(xiǎn)。
如果數(shù)據(jù)隨著時(shí)間不斷變化,權(quán)衡數(shù)據(jù)是一個(gè)不錯(cuò)的選擇?;诮诮灰讈頉Q定特定參數(shù)的金融模型能夠增加一些特性,如賦予近期交易更多權(quán)重而減少對(duì)過往交易的關(guān)注。這不僅保證了模型的穩(wěn)健性,而且也有助于避免出現(xiàn)與漂移相關(guān)的潛在問題。
應(yīng)對(duì)模型漂移更復(fù)雜的一個(gè)方法就是對(duì)變化本身進(jìn)行建模。開發(fā)的第一個(gè)模型必須保持靜態(tài)并作為基線?,F(xiàn)在,由于近期數(shù)據(jù)行為的改變,可以建立新的模型來糾正對(duì)這個(gè)基線模型的預(yù)測(cè)。
應(yīng)多久重新調(diào)校一次模型?
我們已經(jīng)知道了比較常見的解決方法是持續(xù)重新調(diào)校模型,接下來的問題就是,需要多久重新調(diào)校一次呢?這需要具體問題具體分析。
有時(shí),問題會(huì)自己出現(xiàn)。雖然等待問題出現(xiàn)不是最簡(jiǎn)便的方法,但是對(duì)新建的模型來說這是唯一的選擇,因?yàn)闊o法從過往的經(jīng)驗(yàn)知曉問題會(huì)如何出現(xiàn)。當(dāng)問題浮出水面,就可以研究問題并進(jìn)行修改,以應(yīng)對(duì)日后會(huì)出現(xiàn)的相關(guān)問題。
有時(shí),數(shù)據(jù)與模型中處理的實(shí)體相關(guān),遵循季節(jié)性模式。這種情況下,應(yīng)隨季節(jié)變化來重新調(diào)校模型。隨著節(jié)假日支出增加,信貸貸款機(jī)構(gòu)需要特殊的模型來應(yīng)對(duì)模式中突然出現(xiàn)的此類變化。
然而,檢測(cè)漂移的優(yōu)秀方法是持續(xù)的監(jiān)測(cè)。與模型穩(wěn)定性有關(guān)的度量需要在連續(xù)的時(shí)間間隔內(nèi)進(jìn)行監(jiān)測(cè)。間隔時(shí)間可以是一周、一個(gè)月或一個(gè)季度,取決于不同的領(lǐng)域和業(yè)務(wù)。
監(jiān)測(cè)可以是由人工操控或交給自動(dòng)腳本。若突發(fā)異常情況,自動(dòng)腳本要能夠觸發(fā)警報(bào)并發(fā)送通知。
變化是永恒存在的,只有做好準(zhǔn)備接受變化并監(jiān)測(cè)變化的公司才會(huì)取得成功,這一點(diǎn)需謹(jǐn)記。