自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新冠這只“黑天鵝”,AI該如何“馴服”?

人工智能
人們通常把極端異常的事件成為“黑天鵝事件”,新冠這只“黑天鵝”,不僅在爆發(fā)時(shí)讓人措手不及,人們?yōu)榱硕糁埔咔槎扇〉拇胧?,正在世界全方位的系統(tǒng)中產(chǎn)生巨大的連鎖反應(yīng),包括衛(wèi)生健康、商業(yè)、金融、交通和旅行等等。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

2020年注定是不平凡的一年。開(kāi)年伊始的新冠疫情打亂了所有人、行業(yè)、甚至國(guó)家的節(jié)奏。

人們通常把極端異常的事件成為“黑天鵝事件”,新冠這只“黑天鵝”,不僅在爆發(fā)時(shí)讓人措手不及,人們?yōu)榱硕糁埔咔槎扇〉拇胧?,正在世界全方位的系統(tǒng)中產(chǎn)生巨大的連鎖反應(yīng),包括衛(wèi)生健康、商業(yè)、金融、交通和旅行等等。

[[323419]]

黑天鵝事件也給機(jī)器學(xué)習(xí)模型帶來(lái)了不小的挑戰(zhàn)。ML模型基于先前觀測(cè)到的數(shù)據(jù),從而可以預(yù)測(cè)到未來(lái)的場(chǎng)景。然而,這些模型如今遇到的事件,和它們接受過(guò)的訓(xùn)練卻大相徑庭。

以信貸和金融領(lǐng)域?yàn)槭椎脑S多企業(yè)組織中,運(yùn)行著百余個(gè)甚至上千個(gè)實(shí)時(shí)生產(chǎn)模型,這些模型對(duì)數(shù)據(jù)做出了錯(cuò)誤的決策,進(jìn)而會(huì)影響接下來(lái)的業(yè)務(wù)成效。未來(lái)幾天、幾個(gè)月可能出現(xiàn)問(wèn)題的模型包括信貸、房屋定價(jià)、資產(chǎn)定價(jià)、需求預(yù)測(cè)、轉(zhuǎn)換/流失模型、零售公司的供求關(guān)系、廣告定價(jià)等等。

標(biāo)準(zhǔn)模型訓(xùn)練過(guò)程會(huì)在模型中給出盡可能多的數(shù)據(jù),幫助其適應(yīng)通用跨事件的數(shù)據(jù)結(jié)構(gòu),預(yù)測(cè)在訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的場(chǎng)景是困難的。而真正的黑天鵝事件正是這樣,沒(méi)法在其他事件中學(xué)習(xí)結(jié)構(gòu),靠人們?nèi)ヌ钛a(bǔ)數(shù)據(jù)和模型的空白。那該怎么辦?

本文將試圖給出答案。事實(shí)上,已經(jīng)有一些出色的實(shí)踐,通過(guò)對(duì)生產(chǎn)模型進(jìn)行強(qiáng)有力的監(jiān)視、分析和故障排除來(lái)掌握離群值事件。

當(dāng)前的環(huán)境有多極端?

極端到了極點(diǎn)了。

從天氣、失業(yè)率、交通模式、用戶支出等輸入特性數(shù)據(jù)進(jìn)入生產(chǎn)模型時(shí),你會(huì)發(fā)現(xiàn)這些數(shù)據(jù)與模型的訓(xùn)練數(shù)據(jù)相差甚遠(yuǎn)。

首先看看剛剛發(fā)布的失業(yè)率數(shù)據(jù)。申請(qǐng)失業(yè)人數(shù)高達(dá)328萬(wàn),比第二峰值高出4-5倍,是西格瑪事件的25倍不止。

美國(guó)就業(yè)與培訓(xùn)管理局1995年至今圖表

任何使用失業(yè)數(shù)據(jù)作為輸入并依此做出決策的模型,都使用了超出預(yù)期值20個(gè)希格瑪?shù)奶卣?。而這是每10萬(wàn)年才會(huì)發(fā)生一次的事件!這只是系列極端事件中的一個(gè),并且被應(yīng)用于日常商業(yè)決策的模型中而已。

模型不可能完美處理所有預(yù)期外的輸入。因此,重要的是考慮整個(gè)系統(tǒng)處理這些輸入的彈性程度,以及出現(xiàn)問(wèn)題時(shí)排除故障的能力。

團(tuán)隊(duì)最重要的事情是擁有可觀測(cè)的模型;不會(huì)觀測(cè),就學(xué)不會(huì)適應(yīng)。這意味著要對(duì)模型決策進(jìn)行檢測(cè)和分析。

模型可觀測(cè)性要求:

  • 能檢測(cè)到異常值的事件,并自動(dòng)展示
  • 能把離群值事件和用于排除模型故障反應(yīng)的分析相聯(lián)系

很明顯,失業(yè)數(shù)據(jù)將徹底散亂分布。

再來(lái)看看汽車(chē)交通的數(shù)據(jù):

素材來(lái)源:TomTom International

上圖為紐約3月18日至3月24日的交通量,交通量已經(jīng)跌至每日交通量的20%,去往任何地方的交通量都跌為先前的1-10%。

降幅遠(yuǎn)超預(yù)期中的日值,而這只是模型預(yù)期值的一小部分。

素材來(lái)源:TomTom International

邁阿密的交通量并沒(méi)有像紐約下降的那么多??雌饋?lái)邁阿密的居民并沒(méi)有像紐約那樣積極采取隔離措施。在這種情況下,進(jìn)行城市特定預(yù)測(cè)的ML模型,在使用交通量作為輸入時(shí),會(huì)因?yàn)槌鞘械牟煌a(chǎn)生變化。

模型可觀測(cè)性要求:

  • 能監(jiān)控到輸入數(shù)據(jù)的分布偏移
  • 模型輸入強(qiáng)有力的剪切和過(guò)濾能力

從目前的表現(xiàn)看,面對(duì)冠狀病毒帶來(lái)的影響,AI并沒(méi)有做好準(zhǔn)備。天氣預(yù)報(bào)不準(zhǔn)確,銀行也認(rèn)為人工智能模型可能無(wú)法應(yīng)對(duì)市場(chǎng)低迷。

在極端時(shí)期建立彈性機(jī)制

對(duì)于突逢巨變的企業(yè)來(lái)說(shuō),目前正應(yīng)用于生產(chǎn)的AI/ML模型所依據(jù)的訓(xùn)練數(shù)據(jù),與現(xiàn)如今的情況大不相同。

當(dāng)模型以前沒(méi)有經(jīng)歷過(guò)這些情況時(shí),企業(yè)應(yīng)該怎么做呢?當(dāng)過(guò)去與現(xiàn)在脫節(jié),我們?cè)撊绾晤A(yù)測(cè)未來(lái)?

[[323420]]

圖源:unsplash

新冠狀病毒持續(xù)影響許多人類(lèi)系統(tǒng),利用AI/ML的企業(yè)將不得不在其生產(chǎn)環(huán)境中建立彈性機(jī)制。模型性能會(huì)不斷波動(dòng),企業(yè)需要對(duì)生產(chǎn)模型進(jìn)行實(shí)時(shí)監(jiān)控,了解模型輸入是如何變化的,以及模型在哪些方面仍有欠缺。

輸入的東西必須反應(yīng)在輸出

一切要從輸入數(shù)據(jù)用于生成預(yù)測(cè)的模型開(kāi)始。

如果這個(gè)罕見(jiàn)事件和其他極端事件有相似之處,那么就有辦法將預(yù)測(cè)結(jié)果組合,創(chuàng)建基準(zhǔn)周期并進(jìn)行分析。

如果罕見(jiàn)事件在輸入數(shù)據(jù)結(jié)構(gòu)后,與訓(xùn)練集中的任何其他數(shù)據(jù)組都沒(méi)有關(guān)系,那仍然需要監(jiān)測(cè)它是如何影響模型的。

在新冠病毒肺炎的案例中,這些場(chǎng)景并非單次的異常值,而是出現(xiàn)在世界各地不同城市,呈數(shù)以百萬(wàn)計(jì)的快速發(fā)展趨勢(shì),每個(gè)趨勢(shì)都有不同的時(shí)間線和反應(yīng)。展開(kāi)情景的規(guī)模需要大量不同的分析和檢查,跨越許多不同的預(yù)測(cè)子群。

以下是AI/ML模型在生產(chǎn)中應(yīng)該具備的輸入級(jí)觀測(cè):

  • 輸入檢查,以確定特性的值和分布是否與正?;鶞?zhǔn)周期大相徑庭
  • 檢測(cè)模型最敏感的特性是否已經(jīng)發(fā)生了巨大的變化
  • 檢測(cè)用于確定特性與訓(xùn)練集之間的差距的統(tǒng)計(jì)數(shù)據(jù)
  • 檢查單個(gè)事件或少量最近發(fā)生的事件,發(fā)現(xiàn)分布問(wèn)題

圖源:unsplash

模型反應(yīng)怎么樣?

了解輸入發(fā)生的變化后,接下來(lái)要監(jiān)視的就是模型如何對(duì)極端輸入做出反應(yīng)。

檢查特定預(yù)測(cè)子類(lèi)的模型性能,諸如能源、航空或旅游業(yè)等某些行業(yè)可能面臨的重大風(fēng)險(xiǎn),需要針對(duì)不同的預(yù)測(cè)組進(jìn)行快速的在線檢查。

利用以前產(chǎn)生最壞情況的情景和基本情況的情景,然后與結(jié)果進(jìn)行比較。實(shí)時(shí)監(jiān)控收到的每個(gè)新的真實(shí)事件,獲得真實(shí)世界預(yù)測(cè)的反饋。如果由于時(shí)間滯后,無(wú)法得到真實(shí)世界的反饋,可以使用代理度量標(biāo)準(zhǔn),這樣可以通過(guò)預(yù)測(cè)和測(cè)量來(lái)決定模型的性能。

極端環(huán)境下ML模型生產(chǎn)的優(yōu)秀實(shí)踐

在Arize人工智能,我們每天都在思考ML的可觀察性和彈性,目的就是在這個(gè)不確定的時(shí)期把我們的一些經(jīng)驗(yàn)傳授給更多的團(tuán)隊(duì)。

ML生產(chǎn)模型的最佳實(shí)踐離生產(chǎn)軟件的最佳實(shí)踐并不遙遠(yuǎn),只需構(gòu)建可觀測(cè)工具,以了解當(dāng)模型或軟件激活時(shí)會(huì)發(fā)生什么,在其影響客戶之前捕捉到會(huì)發(fā)生的問(wèn)題。

從在許多公司部署的AI/ML模型背景來(lái)看,我們正在分享這些極端環(huán)境下生產(chǎn)ML模型的一些優(yōu)秀實(shí)踐。

1. 跟蹤和識(shí)別異常事件

這包括跟蹤輸入數(shù)據(jù)和異常事件的模型性能。在為未來(lái)的極端環(huán)境收集訓(xùn)練數(shù)據(jù)時(shí),給這些事件加注釋,篩選異常事件是大有幫助。考慮是否將異常事件包括在數(shù)據(jù)中,以便將來(lái)進(jìn)行模型訓(xùn)練也很重要。這個(gè)模型將積極應(yīng)對(duì)未來(lái)的極端情況,但它也可能認(rèn)為極端情況是新的常態(tài)。

2. 決定模型后備計(jì)劃

在過(guò)去,當(dāng)模型沒(méi)有什么可以學(xué)習(xí)的時(shí)候,它在做什么?

了解模型在過(guò)去極端環(huán)境中的表現(xiàn),有利于理解模型現(xiàn)在是如何執(zhí)行的。如果模型表現(xiàn)不佳,你能根據(jù)最后的n分鐘或n天設(shè)置一些簡(jiǎn)單的預(yù)測(cè),并將模型表現(xiàn)與這個(gè)簡(jiǎn)單模型進(jìn)行比較嗎?

3. 尋找相似的事件

能夠觀察過(guò)去類(lèi)似的事件為當(dāng)前的情況建立相似的模型嗎?例如,如果模型采用了失業(yè)數(shù)據(jù)作為輸入,或許可以利用類(lèi)似的經(jīng)濟(jì)衰退時(shí)的失業(yè)數(shù)據(jù),比如2008年的經(jīng)濟(jì)衰退。

4. 建立多樣化的模型組合,比較模型的性能

對(duì)外部世界做出反應(yīng)的實(shí)時(shí)模型,如今可能比批量預(yù)測(cè)表現(xiàn)得更好。擁有多樣化的模型組合,使團(tuán)隊(duì)能夠?qū)⒛P托阅芗奥酚闪髁浚c能夠更好應(yīng)對(duì)極端環(huán)境的模型進(jìn)行比較。

5. 模型性能無(wú)法改善時(shí),了解模型預(yù)測(cè)的不確定性。

有時(shí)候可能并沒(méi)有好的模型,這種情況下,如何知道你的模型有多不確定嗎?此時(shí),可以利用貝葉斯方法返回模型的預(yù)測(cè)及其置信水平。

監(jiān)測(cè)是最重要的。馴服“黑天鵝”,或許不是天方夜譚。

 

責(zé)任編輯:趙寧寧 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2020-11-26 14:00:15

大數(shù)據(jù)數(shù)據(jù)分析數(shù)字化轉(zhuǎn)型

2020-03-11 16:08:50

戴爾

2020-03-06 10:03:31

AI輿情自然語(yǔ)言處理

2012-09-19 14:44:14

創(chuàng)業(yè)創(chuàng)業(yè)者黑天鵝

2019-03-05 13:34:13

華為云

2022-06-03 07:36:19

黑天鵝事件漏洞網(wǎng)絡(luò)攻擊

2020-11-29 20:12:22

辦公

2020-08-28 14:43:31

網(wǎng)易企業(yè)營(yíng)銷(xiāo)

2018-01-09 20:53:13

2020-11-09 14:34:09

華為云GaussDB行業(yè)

2020-10-29 20:07:08

聯(lián)想智能多元化

2020-11-10 07:58:09

AI

2020-03-18 09:50:42

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2020-11-13 15:34:55

程序員互聯(lián)網(wǎng)IT

2020-03-25 14:56:45

物聯(lián)網(wǎng)新基建肺炎

2012-12-19 09:26:00

2020-11-09 18:06:03

惡意攻擊

2020-12-23 10:44:21

網(wǎng)絡(luò)安全新基建漏洞

2020-03-26 17:11:36

AI疫情新冠病毒
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)