新冠這只“黑天鵝”,AI該如何“馴服”?
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
2020年注定是不平凡的一年。開(kāi)年伊始的新冠疫情打亂了所有人、行業(yè)、甚至國(guó)家的節(jié)奏。
人們通常把極端異常的事件成為“黑天鵝事件”,新冠這只“黑天鵝”,不僅在爆發(fā)時(shí)讓人措手不及,人們?yōu)榱硕糁埔咔槎扇〉拇胧?,正在世界全方位的系統(tǒng)中產(chǎn)生巨大的連鎖反應(yīng),包括衛(wèi)生健康、商業(yè)、金融、交通和旅行等等。
黑天鵝事件也給機(jī)器學(xué)習(xí)模型帶來(lái)了不小的挑戰(zhàn)。ML模型基于先前觀測(cè)到的數(shù)據(jù),從而可以預(yù)測(cè)到未來(lái)的場(chǎng)景。然而,這些模型如今遇到的事件,和它們接受過(guò)的訓(xùn)練卻大相徑庭。
以信貸和金融領(lǐng)域?yàn)槭椎脑S多企業(yè)組織中,運(yùn)行著百余個(gè)甚至上千個(gè)實(shí)時(shí)生產(chǎn)模型,這些模型對(duì)數(shù)據(jù)做出了錯(cuò)誤的決策,進(jìn)而會(huì)影響接下來(lái)的業(yè)務(wù)成效。未來(lái)幾天、幾個(gè)月可能出現(xiàn)問(wèn)題的模型包括信貸、房屋定價(jià)、資產(chǎn)定價(jià)、需求預(yù)測(cè)、轉(zhuǎn)換/流失模型、零售公司的供求關(guān)系、廣告定價(jià)等等。
標(biāo)準(zhǔn)模型訓(xùn)練過(guò)程會(huì)在模型中給出盡可能多的數(shù)據(jù),幫助其適應(yīng)通用跨事件的數(shù)據(jù)結(jié)構(gòu),預(yù)測(cè)在訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的場(chǎng)景是困難的。而真正的黑天鵝事件正是這樣,沒(méi)法在其他事件中學(xué)習(xí)結(jié)構(gòu),靠人們?nèi)ヌ钛a(bǔ)數(shù)據(jù)和模型的空白。那該怎么辦?
本文將試圖給出答案。事實(shí)上,已經(jīng)有一些出色的實(shí)踐,通過(guò)對(duì)生產(chǎn)模型進(jìn)行強(qiáng)有力的監(jiān)視、分析和故障排除來(lái)掌握離群值事件。
當(dāng)前的環(huán)境有多極端?
極端到了極點(diǎn)了。
從天氣、失業(yè)率、交通模式、用戶支出等輸入特性數(shù)據(jù)進(jìn)入生產(chǎn)模型時(shí),你會(huì)發(fā)現(xiàn)這些數(shù)據(jù)與模型的訓(xùn)練數(shù)據(jù)相差甚遠(yuǎn)。
首先看看剛剛發(fā)布的失業(yè)率數(shù)據(jù)。申請(qǐng)失業(yè)人數(shù)高達(dá)328萬(wàn),比第二峰值高出4-5倍,是西格瑪事件的25倍不止。
美國(guó)就業(yè)與培訓(xùn)管理局1995年至今圖表
任何使用失業(yè)數(shù)據(jù)作為輸入并依此做出決策的模型,都使用了超出預(yù)期值20個(gè)希格瑪?shù)奶卣?。而這是每10萬(wàn)年才會(huì)發(fā)生一次的事件!這只是系列極端事件中的一個(gè),并且被應(yīng)用于日常商業(yè)決策的模型中而已。
模型不可能完美處理所有預(yù)期外的輸入。因此,重要的是考慮整個(gè)系統(tǒng)處理這些輸入的彈性程度,以及出現(xiàn)問(wèn)題時(shí)排除故障的能力。
團(tuán)隊(duì)最重要的事情是擁有可觀測(cè)的模型;不會(huì)觀測(cè),就學(xué)不會(huì)適應(yīng)。這意味著要對(duì)模型決策進(jìn)行檢測(cè)和分析。
模型可觀測(cè)性要求:
- 能檢測(cè)到異常值的事件,并自動(dòng)展示
- 能把離群值事件和用于排除模型故障反應(yīng)的分析相聯(lián)系
很明顯,失業(yè)數(shù)據(jù)將徹底散亂分布。
再來(lái)看看汽車(chē)交通的數(shù)據(jù):
素材來(lái)源:TomTom International
上圖為紐約3月18日至3月24日的交通量,交通量已經(jīng)跌至每日交通量的20%,去往任何地方的交通量都跌為先前的1-10%。
降幅遠(yuǎn)超預(yù)期中的日值,而這只是模型預(yù)期值的一小部分。
素材來(lái)源:TomTom International
邁阿密的交通量并沒(méi)有像紐約下降的那么多??雌饋?lái)邁阿密的居民并沒(méi)有像紐約那樣積極采取隔離措施。在這種情況下,進(jìn)行城市特定預(yù)測(cè)的ML模型,在使用交通量作為輸入時(shí),會(huì)因?yàn)槌鞘械牟煌a(chǎn)生變化。
模型可觀測(cè)性要求:
- 能監(jiān)控到輸入數(shù)據(jù)的分布偏移
- 模型輸入強(qiáng)有力的剪切和過(guò)濾能力
從目前的表現(xiàn)看,面對(duì)冠狀病毒帶來(lái)的影響,AI并沒(méi)有做好準(zhǔn)備。天氣預(yù)報(bào)不準(zhǔn)確,銀行也認(rèn)為人工智能模型可能無(wú)法應(yīng)對(duì)市場(chǎng)低迷。
在極端時(shí)期建立彈性機(jī)制
對(duì)于突逢巨變的企業(yè)來(lái)說(shuō),目前正應(yīng)用于生產(chǎn)的AI/ML模型所依據(jù)的訓(xùn)練數(shù)據(jù),與現(xiàn)如今的情況大不相同。
當(dāng)模型以前沒(méi)有經(jīng)歷過(guò)這些情況時(shí),企業(yè)應(yīng)該怎么做呢?當(dāng)過(guò)去與現(xiàn)在脫節(jié),我們?cè)撊绾晤A(yù)測(cè)未來(lái)?
圖源:unsplash
新冠狀病毒持續(xù)影響許多人類(lèi)系統(tǒng),利用AI/ML的企業(yè)將不得不在其生產(chǎn)環(huán)境中建立彈性機(jī)制。模型性能會(huì)不斷波動(dòng),企業(yè)需要對(duì)生產(chǎn)模型進(jìn)行實(shí)時(shí)監(jiān)控,了解模型輸入是如何變化的,以及模型在哪些方面仍有欠缺。
輸入的東西必須反應(yīng)在輸出
一切要從輸入數(shù)據(jù)用于生成預(yù)測(cè)的模型開(kāi)始。
如果這個(gè)罕見(jiàn)事件和其他極端事件有相似之處,那么就有辦法將預(yù)測(cè)結(jié)果組合,創(chuàng)建基準(zhǔn)周期并進(jìn)行分析。
如果罕見(jiàn)事件在輸入數(shù)據(jù)結(jié)構(gòu)后,與訓(xùn)練集中的任何其他數(shù)據(jù)組都沒(méi)有關(guān)系,那仍然需要監(jiān)測(cè)它是如何影響模型的。
在新冠病毒肺炎的案例中,這些場(chǎng)景并非單次的異常值,而是出現(xiàn)在世界各地不同城市,呈數(shù)以百萬(wàn)計(jì)的快速發(fā)展趨勢(shì),每個(gè)趨勢(shì)都有不同的時(shí)間線和反應(yīng)。展開(kāi)情景的規(guī)模需要大量不同的分析和檢查,跨越許多不同的預(yù)測(cè)子群。
以下是AI/ML模型在生產(chǎn)中應(yīng)該具備的輸入級(jí)觀測(cè):
- 輸入檢查,以確定特性的值和分布是否與正?;鶞?zhǔn)周期大相徑庭
- 檢測(cè)模型最敏感的特性是否已經(jīng)發(fā)生了巨大的變化
- 檢測(cè)用于確定特性與訓(xùn)練集之間的差距的統(tǒng)計(jì)數(shù)據(jù)
- 檢查單個(gè)事件或少量最近發(fā)生的事件,發(fā)現(xiàn)分布問(wèn)題
圖源:unsplash
模型反應(yīng)怎么樣?
了解輸入發(fā)生的變化后,接下來(lái)要監(jiān)視的就是模型如何對(duì)極端輸入做出反應(yīng)。
檢查特定預(yù)測(cè)子類(lèi)的模型性能,諸如能源、航空或旅游業(yè)等某些行業(yè)可能面臨的重大風(fēng)險(xiǎn),需要針對(duì)不同的預(yù)測(cè)組進(jìn)行快速的在線檢查。
利用以前產(chǎn)生最壞情況的情景和基本情況的情景,然后與結(jié)果進(jìn)行比較。實(shí)時(shí)監(jiān)控收到的每個(gè)新的真實(shí)事件,獲得真實(shí)世界預(yù)測(cè)的反饋。如果由于時(shí)間滯后,無(wú)法得到真實(shí)世界的反饋,可以使用代理度量標(biāo)準(zhǔn),這樣可以通過(guò)預(yù)測(cè)和測(cè)量來(lái)決定模型的性能。
極端環(huán)境下ML模型生產(chǎn)的優(yōu)秀實(shí)踐
在Arize人工智能,我們每天都在思考ML的可觀察性和彈性,目的就是在這個(gè)不確定的時(shí)期把我們的一些經(jīng)驗(yàn)傳授給更多的團(tuán)隊(duì)。
ML生產(chǎn)模型的最佳實(shí)踐離生產(chǎn)軟件的最佳實(shí)踐并不遙遠(yuǎn),只需構(gòu)建可觀測(cè)工具,以了解當(dāng)模型或軟件激活時(shí)會(huì)發(fā)生什么,在其影響客戶之前捕捉到會(huì)發(fā)生的問(wèn)題。
從在許多公司部署的AI/ML模型背景來(lái)看,我們正在分享這些極端環(huán)境下生產(chǎn)ML模型的一些優(yōu)秀實(shí)踐。
1. 跟蹤和識(shí)別異常事件
這包括跟蹤輸入數(shù)據(jù)和異常事件的模型性能。在為未來(lái)的極端環(huán)境收集訓(xùn)練數(shù)據(jù)時(shí),給這些事件加注釋,篩選異常事件是大有幫助。考慮是否將異常事件包括在數(shù)據(jù)中,以便將來(lái)進(jìn)行模型訓(xùn)練也很重要。這個(gè)模型將積極應(yīng)對(duì)未來(lái)的極端情況,但它也可能認(rèn)為極端情況是新的常態(tài)。
2. 決定模型后備計(jì)劃
在過(guò)去,當(dāng)模型沒(méi)有什么可以學(xué)習(xí)的時(shí)候,它在做什么?
了解模型在過(guò)去極端環(huán)境中的表現(xiàn),有利于理解模型現(xiàn)在是如何執(zhí)行的。如果模型表現(xiàn)不佳,你能根據(jù)最后的n分鐘或n天設(shè)置一些簡(jiǎn)單的預(yù)測(cè),并將模型表現(xiàn)與這個(gè)簡(jiǎn)單模型進(jìn)行比較嗎?
3. 尋找相似的事件
能夠觀察過(guò)去類(lèi)似的事件為當(dāng)前的情況建立相似的模型嗎?例如,如果模型采用了失業(yè)數(shù)據(jù)作為輸入,或許可以利用類(lèi)似的經(jīng)濟(jì)衰退時(shí)的失業(yè)數(shù)據(jù),比如2008年的經(jīng)濟(jì)衰退。
4. 建立多樣化的模型組合,比較模型的性能
對(duì)外部世界做出反應(yīng)的實(shí)時(shí)模型,如今可能比批量預(yù)測(cè)表現(xiàn)得更好。擁有多樣化的模型組合,使團(tuán)隊(duì)能夠?qū)⒛P托阅芗奥酚闪髁浚c能夠更好應(yīng)對(duì)極端環(huán)境的模型進(jìn)行比較。
5. 模型性能無(wú)法改善時(shí),了解模型預(yù)測(cè)的不確定性。
有時(shí)候可能并沒(méi)有好的模型,這種情況下,如何知道你的模型有多不確定嗎?此時(shí),可以利用貝葉斯方法返回模型的預(yù)測(cè)及其置信水平。
監(jiān)測(cè)是最重要的。馴服“黑天鵝”,或許不是天方夜譚。