自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

【NCTS峰會回顧】融360艾輝:AI模型測試探秘

開發(fā) 前端 人工智能
2019年10月26日,由Testin主辦的第二屆NCTS中國云測試行業(yè)峰會在京召開,此次峰會以“AI+未來”為主題,匯聚來自國內(nèi)外測試領(lǐng)域的知名專家學(xué)者、領(lǐng)先企業(yè)決策者、高層技術(shù)管理者、媒體從業(yè)者等,共同探討高端云測試技術(shù)。

 2019年10月26日,由Testin主辦的第二屆NCTS中國云測試行業(yè)峰會在京召開,此次峰會以“AI+未來”為主題,匯聚來自國內(nèi)外測試領(lǐng)域的知名專家學(xué)者、領(lǐng)先企業(yè)決策者、高層技術(shù)管理者、媒體從業(yè)者等,共同探討高端云測試技術(shù),幫助測試從業(yè)者了解最前沿行業(yè)趨勢,及最新的行業(yè)實(shí)踐。

[[283753]]

會上,融360高級技術(shù)經(jīng)理艾輝做《AI模型測試探秘》主題演講。艾輝分享了AI在金融科技的應(yīng)用場景并指出,AI在金融行業(yè)的商業(yè)場景變現(xiàn)領(lǐng)域做的相對成熟,這主要得益于數(shù)據(jù)的質(zhì)量,以及數(shù)據(jù)的豐富度,它們對模型的效果起著極其重要的作用。

以下為艾輝演講實(shí)錄:

很高興和大家分享我們在過去一段時(shí)間里基于AI模型評估的測試實(shí)踐。簡短的做一下自我介紹,先后從事云計(jì)算云存儲、跨境電商、O2O外賣、金融風(fēng)控業(yè)務(wù)的質(zhì)量保障與工程效率。

首先給大家介紹當(dāng)下AI的主要應(yīng)用場景。AI在金融領(lǐng)域的落地主要包括:物流、廣告推薦、個(gè)性化推薦、倉儲、無人駕駛等等。目前看來,AI在金融行業(yè)的商業(yè)場景變現(xiàn)領(lǐng)域做的相對成熟,這主要得益于數(shù)據(jù)的質(zhì)量,以及數(shù)據(jù)的豐富度,它們對模型的效果起著極其重要的作用。AI在金融科技領(lǐng)域的主要場景包括:智能營銷、智能欺詐、智能風(fēng)控、理賠、支付場景指紋識別、人臉識別等等。

進(jìn)一步解釋一下AI的基礎(chǔ)概念和交叉關(guān)系。通常來說,我們是模擬智能應(yīng)用,機(jī)器學(xué)習(xí)只是AI的一個(gè)分支,如果是機(jī)器學(xué)習(xí)加圖像識別,就是視覺領(lǐng)域的應(yīng)用;如果是機(jī)器學(xué)習(xí)加語音識別,就是自然語言處理。假如說機(jī)器學(xué)習(xí)和其它稀奇古怪的應(yīng)用結(jié)合,就是數(shù)據(jù)挖掘。

機(jī)器學(xué)習(xí),就是我們在計(jì)算機(jī)協(xié)助下,統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)與分布函數(shù)搜索所謂的神經(jīng)元,拿一個(gè)向量去點(diǎn)乘上一個(gè)向量,再把結(jié)果放進(jìn)一個(gè)事先定好的變換函數(shù)。深度學(xué)習(xí)是做好幾層的神經(jīng)元網(wǎng)絡(luò),再換幾個(gè)學(xué)習(xí)算法。關(guān)于機(jī)器學(xué)習(xí)的分類,金融領(lǐng)域還是偏向于監(jiān)督學(xué)習(xí),我們做一些分類問題,也就是偏預(yù)測。分類和回歸比較直觀的區(qū)分,如果做一個(gè)定性的預(yù)測,比如今天是陰天、晴天還是多云,它就是一個(gè)分類的問題;如果是我們預(yù)測明天是10-15度,還是0-5度,這就是回歸問題。在金融風(fēng)控領(lǐng)域,大部分是基于邏輯回歸的模型方法來做訓(xùn)練的,主要使用信用評分卡。神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等在金融風(fēng)控領(lǐng)域應(yīng)用,目應(yīng)沒有太多。要做好風(fēng)控并不一定需要用最復(fù)雜的模型來做訓(xùn)練和預(yù)測。

前面說了那么多,大家會問機(jī)器學(xué)習(xí)在金融風(fēng)控的應(yīng)用有什么差異?金融風(fēng)控的體系里存在一些特殊的東西,比如,談到金融風(fēng)控中的信貸風(fēng)控,一般會聊到貸前、貸中、貸后。我們用的最多的是評分卡模型,評分卡模型應(yīng)該有200、300年歷史了,在機(jī)器學(xué)習(xí)應(yīng)用沒有如今這么發(fā)達(dá)的時(shí)候就已經(jīng)在用了,尤其是在美國。什么是評分卡?信用評分卡用的就是邏輯回歸的分類,預(yù)測好人壞人的概率,在0和1之間,基于這個(gè)概率映射到一個(gè)分?jǐn)?shù),如:1-100分,即信用評分。我們放貸可不可以放,看風(fēng)險(xiǎn)概率,用歷史的數(shù)據(jù)去為未來一段時(shí)間的違約進(jìn)行預(yù)測。它的評分越高代表越是安全,評分卡的穩(wěn)定性和預(yù)測能力很強(qiáng),我們常用的是邏輯回歸。

我們用信用評分只是風(fēng)控量化的工具,代表著信用風(fēng)險(xiǎn)。

剛開始接觸AI相關(guān)業(yè)務(wù)的時(shí)候,我們遇到了很多挑戰(zhàn)。之前對于整個(gè)數(shù)據(jù)、特征、模型,沒有太深入的專項(xiàng)測試,如數(shù)據(jù)及特征效果有質(zhì)量問題,會導(dǎo)致模型發(fā)生衰減和偏移,最直接的結(jié)果是,本應(yīng)該把一個(gè)壞人給攔住,但是沒有攔住,給他放貸了,就可能導(dǎo)致壞賬,產(chǎn)生不良資產(chǎn)。

具體來看一下在數(shù)據(jù)質(zhì)量方面我們做了哪些工作。主要考慮數(shù)據(jù)的完整性、一致性、及時(shí)性、準(zhǔn)確性等等。想重點(diǎn)強(qiáng)調(diào)的是,在數(shù)據(jù)質(zhì)量分析的維度上做了哪些事情,數(shù)據(jù)質(zhì)量分析考慮的維度更豐富一點(diǎn),比如數(shù)據(jù)的干擾分析,分析單列數(shù)據(jù)對應(yīng)的準(zhǔn)確性,分析單表數(shù)據(jù),跨表數(shù)據(jù),跨列數(shù)據(jù)。我們對數(shù)據(jù)整個(gè)特征分布,還有離散情況做了評估,上面的離群點(diǎn),能夠基于這個(gè)離群點(diǎn)發(fā)現(xiàn)數(shù)據(jù)異常的問題。

數(shù)據(jù)的完整性,從關(guān)系型數(shù)據(jù)庫到數(shù)倉,數(shù)據(jù)有沒有比較大的丟失。一致性,看對應(yīng)的口徑是不是一致的。準(zhǔn)確性、及時(shí)性,很有可能前天晚上跑批失敗了,如果沒有監(jiān)控可能導(dǎo)致對第二天的數(shù)據(jù)造成很大的影響,比較多的是離線任務(wù),包括在線任務(wù)及時(shí)情況的監(jiān)測。

既然數(shù)據(jù)有了這些問題,一定要做數(shù)據(jù)的修正。比如說數(shù)據(jù)確實(shí)缺失太多,沒有做填充處理,到特征來沒法用的,模型更沒有辦法用,還有重復(fù)的記錄要?jiǎng)h除。對于定性的數(shù)據(jù)和定量的數(shù)據(jù),處理是不一樣的,我們會基于特征進(jìn)一步解釋。

數(shù)據(jù)分析方法,看整個(gè)數(shù)據(jù)各表之間有什么關(guān)聯(lián)性,做血緣基數(shù)分析??磾?shù)據(jù)是不是存在大的問題,做數(shù)據(jù)波動(dòng)分析。評估某一個(gè)字段是否有問題,做值域分析、分布分析,也可以發(fā)現(xiàn)一些問題。評估數(shù)據(jù)是否一致,做一致性的對比diff來發(fā)現(xiàn)這些問題。

在項(xiàng)目中通過數(shù)據(jù)分析的血緣基數(shù)分析,直觀發(fā)現(xiàn)的情況:A表的登陸賬戶比B表少了7000萬,A、B存在600萬的數(shù)據(jù)不一致。這種問題如果不做數(shù)量質(zhì)量分析,基于模型問題倒推分析,影響很大。

再看一下值域的分析,分析最大值,最小值,比如說有一個(gè)字段,年齡是150歲,這可能超乎尋常了。包括看數(shù)據(jù)的分布,時(shí)間內(nèi)最大值,最小值,還有異常的占比。中文異常的占比,特別是中文入庫的字符格式。還有分布的分析,金額的占比,區(qū)間的域值,還有各種碼值。

我們再簡單看一下數(shù)據(jù)測試要點(diǎn),我們在日常測試中做數(shù)據(jù)質(zhì)量測試,就是按照這些來做的,金融的數(shù)據(jù)質(zhì)量的要求很苛刻,可以說相對于互聯(lián)網(wǎng)廣告的數(shù)據(jù)更苛刻一點(diǎn)。比如說小明同學(xué)搜索的時(shí)候,給他推薦了一個(gè)女裝,可能不太重要。但是因?yàn)閿?shù)據(jù)質(zhì)量問題導(dǎo)致信貸風(fēng)險(xiǎn),可能會導(dǎo)致直接的金融損失,所以金融數(shù)據(jù)的質(zhì)量要求是很高的。

再簡單說一下數(shù)據(jù)質(zhì)量平臺設(shè)計(jì),我這里放了一個(gè)架構(gòu)圖,整個(gè)數(shù)據(jù)質(zhì)量平臺關(guān)鍵核心的一點(diǎn),對數(shù)據(jù)質(zhì)量的規(guī)則引擎是怎么做的,數(shù)據(jù)質(zhì)量把對應(yīng)各種數(shù)據(jù)的對比,通過配制一些規(guī)則,定制開發(fā),對應(yīng)的報(bào)表或者觸發(fā)告警,是基于自定義去寫。還是基于其他的開源工具,有很多規(guī)則引擎的方案,比如Drools,原理大多相似。

關(guān)于特征模型的測試,我先是講數(shù)據(jù),再講特征,再講模型,為什么?我們在做模型訓(xùn)練的時(shí)候就是這樣的流程和套路。我們聊到模型,做模型訓(xùn)練的時(shí)候有80%的任務(wù)在做特征工程,20%在做模型的訓(xùn)練。我們做一些名詞的科普,過擬合和欠擬合,過擬合就是模型過于復(fù)雜學(xué)習(xí)到額外的數(shù)據(jù)屬性,欠擬合就是沒有捕捉數(shù)據(jù)特征。

到底什么是建模?建模與馴獸的相似點(diǎn),我們做馴獸,比如給猴子輸出口令,讓它調(diào)整動(dòng)作,直到這個(gè)過程預(yù)期和實(shí)際是一致的,從這個(gè)類比來看,我們建模和馴獸就是這樣一個(gè)循環(huán)訓(xùn)練的過程。

我們反復(fù)聊到數(shù)據(jù)特征,到底數(shù)據(jù)和特征有什么區(qū)別?左側(cè)是一個(gè)數(shù)據(jù),右邊是特征,把對應(yīng)做了一些轉(zhuǎn)換,180天內(nèi)成功打車的筆數(shù),180天內(nèi)成功打車最小值,我們將數(shù)據(jù)轉(zhuǎn)化為機(jī)器能夠?qū)W習(xí)的屬性,發(fā)現(xiàn)規(guī)律性的信息。機(jī)器學(xué)習(xí)大部分是解決預(yù)測的問題,用X去預(yù)測Y,這個(gè)X代表的是特征,不是數(shù)據(jù),因?yàn)橹苯咏o模型灌最原始的數(shù)據(jù),不能很好的把數(shù)據(jù)的規(guī)律和信息get到。但是特征是有價(jià)值的屬性,這些特征是能夠做模型的訓(xùn)練和擬合的。行業(yè)里面有行話,數(shù)據(jù)特征決定了機(jī)器學(xué)習(xí)的上限,我們所有模型只是逼近這個(gè)上限而已。如果你的數(shù)據(jù),特征質(zhì)量很差,再好的模型,訓(xùn)練效果也會打折扣。

從特征挖掘到模型建立,這個(gè)過程是我們在日常測試開發(fā)中需要頻繁去關(guān)注的,我來簡單解釋一下。前面的這一塊數(shù)據(jù)采集,數(shù)據(jù)分析,數(shù)據(jù)清洗,大部分是數(shù)倉來做,有的是特征挖掘也會做,前面是做數(shù)據(jù)的分析和入庫。當(dāng)數(shù)據(jù)清洗做完之后開始做特征挖掘,圖中所有的特征,特征挖掘的過程,在數(shù)倉中挑出跟業(yè)務(wù)強(qiáng)相關(guān)比較好的數(shù)據(jù),建立特征工程。發(fā)現(xiàn)了很多問題,比如缺失值特別多,要做一些填充,比如定量數(shù)據(jù),可以基于平均數(shù),中位數(shù)去填充。如果是一些定內(nèi)的數(shù)據(jù),直接轉(zhuǎn)為NaN之類的。做完確認(rèn)值之后,還要做定量特征值二化。還會做一些定型特征的啞編碼,比如我們做疾病的預(yù)測,得某某疾病的概率高、中、低,就可以放到模型里,因?yàn)楹芏嗵卣鞯臉?biāo)準(zhǔn)是不一的,包括特征的選擇和降維,我們要由高維降到低維,更好的吸收數(shù)據(jù)。

具體在信用卡評分模型中用到的關(guān)鍵指標(biāo),我們主要參考的是幾點(diǎn),一個(gè)是KS,風(fēng)險(xiǎn)區(qū)分能力,就是判斷好用戶和壞用戶的差值,差值越大,就說明模型的效果越好,因?yàn)閰^(qū)分度高,可以區(qū)分張三是好人,李四是壞人。然后是卡方,樣本偏離程度。PSI,這是模型穩(wěn)定性很關(guān)鍵的指標(biāo),模型的預(yù)測值與實(shí)際值偏差大小的指標(biāo).PSI越小有說明模型是越穩(wěn)定的,一般認(rèn)為PSI小于0.1時(shí)候模型穩(wěn)定性很高,0.1-0.25一般,大于0.25模型穩(wěn)定性差,建議重做。IV(信息價(jià)值),這是我們模型在挑特征的時(shí)候很關(guān)注的一點(diǎn),特征對于模型預(yù)測能力的貢獻(xiàn)度,我們要挑對模型預(yù)測能力貢獻(xiàn)度度強(qiáng)的特征,比如有100個(gè)特征,有年齡、學(xué)歷、收入,籍貫等,其中年齡、學(xué)歷、收入的特征對于信用貸風(fēng)控模型貢獻(xiàn)度強(qiáng),籍貫特征是一般的。

具體特征測試要點(diǎn)分為幾部分,一般特征有特征計(jì)算邏輯,還有特征調(diào)度,特征上線。對于特征計(jì)算,除了計(jì)算的時(shí)長,還會關(guān)心整個(gè)特征的分區(qū),編碼,以及異常處理。我重點(diǎn)想強(qiáng)調(diào)的是特征的回溯,回溯對于信用評分模型效果很關(guān)鍵。信貸風(fēng)控,是用用戶過去的時(shí)間窗,比如前一個(gè)月的數(shù)據(jù)去預(yù)測他未來的借貸風(fēng)險(xiǎn),如果說用他最近的信貸數(shù)據(jù)去預(yù)測明天,或者說用今天預(yù)測今天,特征效果可能會比較高,但是它是虛高的,所以都有時(shí)間窗的概念,基于歷史來預(yù)測未來。還有Shuffle亂序,有的模型對特征的排序性是有相關(guān)性的,如果有問題,模型效果也會有波動(dòng)。還有特征調(diào)度異常的處理,還有特征上線,各種的一致,在線離線覆蓋率,特征值等等,這個(gè)一致性是很關(guān)鍵的。我們基于特征也做各種專項(xiàng)的分析,大部分都在做一些特征指標(biāo)類,特征分布,特征大小等等。

模型該怎么測?我們對模型測試有這么幾個(gè)點(diǎn)可以關(guān)注,一個(gè)是蛻變,我們直接去構(gòu)造輸入看輸出,可能很難發(fā)現(xiàn)問題,模型測試的是Oracle問題(未知問題),沒有明確的標(biāo)準(zhǔn),如果變換輸入看輸出的變化環(huán)境是否相對應(yīng),是能夠發(fā)現(xiàn)模型的問題,比如把一些標(biāo)簽亂序,屬性亂序,增加無信息的屬性,看看對模型輸出的問題。還有要看特征工程處理的情況。整個(gè)模型工程測試大部分都是偏白盒的,不像服務(wù)端可以暴露接口。還有小樣本實(shí)驗(yàn),這很有效,看看整個(gè)信用評分的分布情況,是否符合正態(tài)分布。

關(guān)于模型效果的評估設(shè)計(jì),我們要控制算法版本為評測流程唯一變量。

模型的監(jiān)控、模型的上線,監(jiān)控的重要性和工程類的服務(wù)一樣重要,模型會隨著時(shí)間衰退,我們需要做各種監(jiān)控,有關(guān)鍵指標(biāo),還有對覆蓋率,準(zhǔn)確率的監(jiān)控。提取還款的樣本,樣本打標(biāo)簽,請求線上模型,計(jì)算KS。做金融風(fēng)控的模型測試,比做互聯(lián)網(wǎng)2 C的廣告推薦模型等要相對困難,對于大部分互金平臺來說信貸還款表現(xiàn)樣本較難獲取。

模型測試的痛點(diǎn)都有哪些?第一是難,門檻很高,我們傳統(tǒng)工程測試的方法不能完全的復(fù)用,而且是很抽象的,模型是黑盒的,想定位一個(gè)問題,模型的效果不好,排查鏈路很長,發(fā)現(xiàn)原來是某某數(shù)據(jù)丟失了。它是強(qiáng)數(shù)據(jù)相關(guān)的,數(shù)據(jù)的特征質(zhì)量決定了模型效果的上限,我們經(jīng)常在聊做模型的評估,這里有一個(gè)很重要的一個(gè)環(huán)節(jié),我們需要先把數(shù)據(jù)和特征質(zhì)量給覆蓋住,這是一個(gè)很重要的源頭,80%的工作在特征工程。然后是慢,有的傳統(tǒng)公司,像金融企業(yè)的,一個(gè)模型迭代可能半個(gè)月,一個(gè)月,甚至是兩個(gè)月,因?yàn)橐磸?fù)實(shí)驗(yàn),還有環(huán)境的變化,客群的變化。它是一個(gè)不確定的問題,因?yàn)闆]法基于一個(gè)分?jǐn)?shù)或者什么指標(biāo)完全評估這個(gè)模型好還是壞,上線才剛剛開始。所以,綜合的用各個(gè)數(shù)據(jù)指標(biāo)來進(jìn)行評估。

AI產(chǎn)品質(zhì)量體系應(yīng)該怎么做?分為線上和線下:線下三個(gè)模塊,模型質(zhì)量、數(shù)據(jù)質(zhì)量、工程質(zhì)量。線上做各種模型效果的監(jiān)控,特征的監(jiān)控,一致性監(jiān)控的,覆蓋率的還有業(yè)務(wù)表現(xiàn)的監(jiān)控等。我們希望把線上線下模型的測試做得更專業(yè)和高效,還是需要做自動(dòng)化,工具平臺化,比如說把模型的評估做到可視化,充分參考已有開源的平臺做的模型評估模塊的功能,把數(shù)據(jù)分析,質(zhì)量分析,基于統(tǒng)計(jì)的維度做可視化的展示和度量,讓整個(gè)模型部署過程自動(dòng)發(fā)布。。

最后,在AI時(shí)代,測試開發(fā)怎么做技術(shù)的儲備和轉(zhuǎn)型呢?如果要做AI的學(xué)習(xí),從高數(shù)基礎(chǔ)到機(jī)器學(xué)習(xí)是需要一個(gè)過程的,我們內(nèi)部也在開展機(jī)器學(xué)習(xí)小組,課程安排一共18節(jié)課。再有是數(shù)據(jù)分析和挖掘,剛才說的特征挖掘,大部分是用數(shù)據(jù)挖掘的技術(shù),做數(shù)據(jù)質(zhì)量分析本質(zhì)上就是做數(shù)據(jù)分析,大量相關(guān)的理論和工具都需要熟練的用到。如果做機(jī)器學(xué)習(xí),通過看一些視頻教材,大概就知道是怎么回事了。在我左邊的深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),復(fù)雜度就更高了,右邊的一、二、三,對于我們做模型的質(zhì)量保證這塊入門就夠了。如果大家覺得看書比較煩瑣,可以去B站看一下,B站有很多比較好的視頻資源。PPT里也給出了詳細(xì)的AI學(xué)習(xí)路線圖,感興趣的同學(xué)可以參考學(xué)習(xí)。

以上就是我今天和大家分享的關(guān)于模型評測的全部內(nèi)容,希望能給大家一些收獲及啟發(fā)。對于AI模型評估測試,目前各個(gè)公司團(tuán)隊(duì)都在摸索中前進(jìn),希望在前行的路上和各位同行朋友更多交流學(xué)習(xí)。

 

責(zé)任編輯:張燕妮 來源: 51CTO
相關(guān)推薦

2019-11-26 17:56:21

開發(fā)AI360搜索

2019-11-26 17:38:15

人工智能AI開發(fā)者

2019-11-26 18:00:59

系統(tǒng)運(yùn)維架構(gòu)

2019-12-05 16:17:59

云計(jì)算行業(yè)科技

2019-12-05 16:23:15

開發(fā)技能代碼

2019-12-05 16:15:32

云計(jì)算行業(yè)科技

2019-12-05 16:25:26

開發(fā)技能代碼

2019-12-13 11:58:21

AI 數(shù)據(jù)人工智能

2019-12-05 16:01:24

云計(jì)算行業(yè)科技

2019-11-26 17:44:16

AI 數(shù)據(jù)人工智能

2019-11-26 17:58:47

系統(tǒng)運(yùn)維架構(gòu)

2019-10-26 22:43:42

AI移動(dòng)開發(fā)測試

2019-11-26 17:41:59

AI 數(shù)據(jù)人工智能

2019-12-13 11:54:06

AI 數(shù)據(jù)人工智能

2019-11-26 17:54:14

開發(fā)技能移動(dòng)應(yīng)用

2019-12-13 11:51:34

技術(shù)AI云計(jì)算

2016-09-21 15:35:45

Javascript單元測試

2019-11-26 17:46:26

AI 數(shù)據(jù)人工智能

2019-12-05 16:20:59

云計(jì)算行業(yè)科技

2012-12-17 11:20:46

投影機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號