自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

【NCTS峰會回顧】融360艾輝：AI模型測試探秘

作者：佚名 2019-11-26 17:52:18

開發(fā) 前端人工智能

2019年10月26日，由Testin主辦的第二屆NCTS中國云測試行業(yè)峰會在京召開，此次峰會以“AI+未來”為主題，匯聚來自國內(nèi)外測試領(lǐng)域的知名專家學(xué)者、領(lǐng)先企業(yè)決策者、高層技術(shù)管理者、媒體從業(yè)者等，共同探討高端云測試技術(shù)。

2019年10月26日，由Testin主辦的第二屆NCTS中國云測試行業(yè)峰會在京召開，此次峰會以“AI+未來”為主題，匯聚來自國內(nèi)外測試領(lǐng)域的知名專家學(xué)者、領(lǐng)先企業(yè)決策者、高層技術(shù)管理者、媒體從業(yè)者等，共同探討高端云測試技術(shù)，幫助測試從業(yè)者了解最前沿行業(yè)趨勢，及最新的行業(yè)實(shí)踐。

[[283753]]

會上，融360高級技術(shù)經(jīng)理艾輝做《AI模型測試探秘》主題演講。艾輝分享了AI在金融科技的應(yīng)用場景并指出，AI在金融行業(yè)的商業(yè)場景變現(xiàn)領(lǐng)域做的相對成熟，這主要得益于數(shù)據(jù)的質(zhì)量，以及數(shù)據(jù)的豐富度，它們對模型的效果起著極其重要的作用。

以下為艾輝演講實(shí)錄：

很高興和大家分享我們在過去一段時(shí)間里基于AI模型評估的測試實(shí)踐。簡短的做一下自我介紹，先后從事云計(jì)算云存儲、跨境電商、O2O外賣、金融風(fēng)控業(yè)務(wù)的質(zhì)量保障與工程效率。

首先給大家介紹當(dāng)下AI的主要應(yīng)用場景。AI在金融領(lǐng)域的落地主要包括：物流、廣告推薦、個(gè)性化推薦、倉儲、無人駕駛等等。目前看來，AI在金融行業(yè)的商業(yè)場景變現(xiàn)領(lǐng)域做的相對成熟，這主要得益于數(shù)據(jù)的質(zhì)量，以及數(shù)據(jù)的豐富度，它們對模型的效果起著極其重要的作用。AI在金融科技領(lǐng)域的主要場景包括：智能營銷、智能欺詐、智能風(fēng)控、理賠、支付場景指紋識別、人臉識別等等。

進(jìn)一步解釋一下AI的基礎(chǔ)概念和交叉關(guān)系。通常來說，我們是模擬智能應(yīng)用，機(jī)器學(xué)習(xí)只是AI的一個(gè)分支，如果是機(jī)器學(xué)習(xí)加圖像識別，就是視覺領(lǐng)域的應(yīng)用；如果是機(jī)器學(xué)習(xí)加語音識別，就是自然語言處理。假如說機(jī)器學(xué)習(xí)和其它稀奇古怪的應(yīng)用結(jié)合，就是數(shù)據(jù)挖掘。

機(jī)器學(xué)習(xí)，就是我們在計(jì)算機(jī)協(xié)助下，統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)與分布函數(shù)搜索所謂的神經(jīng)元，拿一個(gè)向量去點(diǎn)乘上一個(gè)向量，再把結(jié)果放進(jìn)一個(gè)事先定好的變換函數(shù)。深度學(xué)習(xí)是做好幾層的神經(jīng)元網(wǎng)絡(luò)，再換幾個(gè)學(xué)習(xí)算法。關(guān)于機(jī)器學(xué)習(xí)的分類，金融領(lǐng)域還是偏向于監(jiān)督學(xué)習(xí)，我們做一些分類問題，也就是偏預(yù)測。分類和回歸比較直觀的區(qū)分，如果做一個(gè)定性的預(yù)測，比如今天是陰天、晴天還是多云，它就是一個(gè)分類的問題；如果是我們預(yù)測明天是10-15度，還是0-5度，這就是回歸問題。在金融風(fēng)控領(lǐng)域，大部分是基于邏輯回歸的模型方法來做訓(xùn)練的，主要使用信用評分卡。神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等在金融風(fēng)控領(lǐng)域應(yīng)用，目應(yīng)沒有太多。要做好風(fēng)控并不一定需要用最復(fù)雜的模型來做訓(xùn)練和預(yù)測。

前面說了那么多，大家會問機(jī)器學(xué)習(xí)在金融風(fēng)控的應(yīng)用有什么差異？金融風(fēng)控的體系里存在一些特殊的東西，比如，談到金融風(fēng)控中的信貸風(fēng)控，一般會聊到貸前、貸中、貸后。我們用的最多的是評分卡模型，評分卡模型應(yīng)該有200、300年歷史了，在機(jī)器學(xué)習(xí)應(yīng)用沒有如今這么發(fā)達(dá)的時(shí)候就已經(jīng)在用了，尤其是在美國。什么是評分卡？信用評分卡用的就是邏輯回歸的分類，預(yù)測好人壞人的概率，在0和1之間，基于這個(gè)概率映射到一個(gè)分?jǐn)?shù)，如：1-100分，即信用評分。我們放貸可不可以放，看風(fēng)險(xiǎn)概率，用歷史的數(shù)據(jù)去為未來一段時(shí)間的違約進(jìn)行預(yù)測。它的評分越高代表越是安全，評分卡的穩(wěn)定性和預(yù)測能力很強(qiáng)，我們常用的是邏輯回歸。

我們用信用評分只是風(fēng)控量化的工具，代表著信用風(fēng)險(xiǎn)。

剛開始接觸AI相關(guān)業(yè)務(wù)的時(shí)候，我們遇到了很多挑戰(zhàn)。之前對于整個(gè)數(shù)據(jù)、特征、模型，沒有太深入的專項(xiàng)測試，如數(shù)據(jù)及特征效果有質(zhì)量問題，會導(dǎo)致模型發(fā)生衰減和偏移，最直接的結(jié)果是，本應(yīng)該把一個(gè)壞人給攔住，但是沒有攔住，給他放貸了，就可能導(dǎo)致壞賬，產(chǎn)生不良資產(chǎn)。

具體來看一下在數(shù)據(jù)質(zhì)量方面我們做了哪些工作。主要考慮數(shù)據(jù)的完整性、一致性、及時(shí)性、準(zhǔn)確性等等。想重點(diǎn)強(qiáng)調(diào)的是，在數(shù)據(jù)質(zhì)量分析的維度上做了哪些事情，數(shù)據(jù)質(zhì)量分析考慮的維度更豐富一點(diǎn)，比如數(shù)據(jù)的干擾分析，分析單列數(shù)據(jù)對應(yīng)的準(zhǔn)確性，分析單表數(shù)據(jù)，跨表數(shù)據(jù)，跨列數(shù)據(jù)。我們對數(shù)據(jù)整個(gè)特征分布，還有離散情況做了評估，上面的離群點(diǎn)，能夠基于這個(gè)離群點(diǎn)發(fā)現(xiàn)數(shù)據(jù)異常的問題。

數(shù)據(jù)的完整性，從關(guān)系型數(shù)據(jù)庫到數(shù)倉，數(shù)據(jù)有沒有比較大的丟失。一致性，看對應(yīng)的口徑是不是一致的。準(zhǔn)確性、及時(shí)性，很有可能前天晚上跑批失敗了，如果沒有監(jiān)控可能導(dǎo)致對第二天的數(shù)據(jù)造成很大的影響，比較多的是離線任務(wù)，包括在線任務(wù)及時(shí)情況的監(jiān)測。

既然數(shù)據(jù)有了這些問題，一定要做數(shù)據(jù)的修正。比如說數(shù)據(jù)確實(shí)缺失太多，沒有做填充處理，到特征來沒法用的，模型更沒有辦法用，還有重復(fù)的記錄要?jiǎng)h除。對于定性的數(shù)據(jù)和定量的數(shù)據(jù)，處理是不一樣的，我們會基于特征進(jìn)一步解釋。

數(shù)據(jù)分析方法，看整個(gè)數(shù)據(jù)各表之間有什么關(guān)聯(lián)性，做血緣基數(shù)分析?？磾?shù)據(jù)是不是存在大的問題，做數(shù)據(jù)波動(dòng)分析。評估某一個(gè)字段是否有問題，做值域分析、分布分析，也可以發(fā)現(xiàn)一些問題。評估數(shù)據(jù)是否一致，做一致性的對比diff來發(fā)現(xiàn)這些問題。

在項(xiàng)目中通過數(shù)據(jù)分析的血緣基數(shù)分析，直觀發(fā)現(xiàn)的情況：A表的登陸賬戶比B表少了7000萬，A、B存在600萬的數(shù)據(jù)不一致。這種問題如果不做數(shù)量質(zhì)量分析，基于模型問題倒推分析，影響很大。

再看一下值域的分析，分析最大值，最小值，比如說有一個(gè)字段，年齡是150歲，這可能超乎尋常了。包括看數(shù)據(jù)的分布，時(shí)間內(nèi)最大值，最小值，還有異常的占比。中文異常的占比，特別是中文入庫的字符格式。還有分布的分析，金額的占比，區(qū)間的域值，還有各種碼值。

我們再簡單看一下數(shù)據(jù)測試要點(diǎn)，我們在日常測試中做數(shù)據(jù)質(zhì)量測試，就是按照這些來做的，金融的數(shù)據(jù)質(zhì)量的要求很苛刻，可以說相對于互聯(lián)網(wǎng)廣告的數(shù)據(jù)更苛刻一點(diǎn)。比如說小明同學(xué)搜索的時(shí)候，給他推薦了一個(gè)女裝，可能不太重要。但是因?yàn)閿?shù)據(jù)質(zhì)量問題導(dǎo)致信貸風(fēng)險(xiǎn)，可能會導(dǎo)致直接的金融損失，所以金融數(shù)據(jù)的質(zhì)量要求是很高的。

再簡單說一下數(shù)據(jù)質(zhì)量平臺設(shè)計(jì)，我這里放了一個(gè)架構(gòu)圖，整個(gè)數(shù)據(jù)質(zhì)量平臺關(guān)鍵核心的一點(diǎn)，對數(shù)據(jù)質(zhì)量的規(guī)則引擎是怎么做的，數(shù)據(jù)質(zhì)量把對應(yīng)各種數(shù)據(jù)的對比，通過配制一些規(guī)則，定制開發(fā)，對應(yīng)的報(bào)表或者觸發(fā)告警，是基于自定義去寫。還是基于其他的開源工具，有很多規(guī)則引擎的方案，比如Drools，原理大多相似。

關(guān)于特征模型的測試，我先是講數(shù)據(jù)，再講特征，再講模型，為什么？我們在做模型訓(xùn)練的時(shí)候就是這樣的流程和套路。我們聊到模型，做模型訓(xùn)練的時(shí)候有80%的任務(wù)在做特征工程，20%在做模型的訓(xùn)練。我們做一些名詞的科普，過擬合和欠擬合，過擬合就是模型過于復(fù)雜學(xué)習(xí)到額外的數(shù)據(jù)屬性，欠擬合就是沒有捕捉數(shù)據(jù)特征。

到底什么是建模？建模與馴獸的相似點(diǎn)，我們做馴獸，比如給猴子輸出口令，讓它調(diào)整動(dòng)作，直到這個(gè)過程預(yù)期和實(shí)際是一致的，從這個(gè)類比來看，我們建模和馴獸就是這樣一個(gè)循環(huán)訓(xùn)練的過程。

我們反復(fù)聊到數(shù)據(jù)特征，到底數(shù)據(jù)和特征有什么區(qū)別？左側(cè)是一個(gè)數(shù)據(jù)，右邊是特征，把對應(yīng)做了一些轉(zhuǎn)換，180天內(nèi)成功打車的筆數(shù)，180天內(nèi)成功打車最小值，我們將數(shù)據(jù)轉(zhuǎn)化為機(jī)器能夠?qū)W習(xí)的屬性，發(fā)現(xiàn)規(guī)律性的信息。機(jī)器學(xué)習(xí)大部分是解決預(yù)測的問題，用X去預(yù)測Y，這個(gè)X代表的是特征，不是數(shù)據(jù)，因?yàn)橹苯咏o模型灌最原始的數(shù)據(jù)，不能很好的把數(shù)據(jù)的規(guī)律和信息get到。但是特征是有價(jià)值的屬性，這些特征是能夠做模型的訓(xùn)練和擬合的。行業(yè)里面有行話，數(shù)據(jù)特征決定了機(jī)器學(xué)習(xí)的上限，我們所有模型只是逼近這個(gè)上限而已。如果你的數(shù)據(jù)，特征質(zhì)量很差，再好的模型，訓(xùn)練效果也會打折扣。

從特征挖掘到模型建立，這個(gè)過程是我們在日常測試開發(fā)中需要頻繁去關(guān)注的，我來簡單解釋一下。前面的這一塊數(shù)據(jù)采集，數(shù)據(jù)分析，數(shù)據(jù)清洗，大部分是數(shù)倉來做，有的是特征挖掘也會做，前面是做數(shù)據(jù)的分析和入庫。當(dāng)數(shù)據(jù)清洗做完之后開始做特征挖掘，圖中所有的特征，特征挖掘的過程，在數(shù)倉中挑出跟業(yè)務(wù)強(qiáng)相關(guān)比較好的數(shù)據(jù)，建立特征工程。發(fā)現(xiàn)了很多問題，比如缺失值特別多，要做一些填充，比如定量數(shù)據(jù)，可以基于平均數(shù)，中位數(shù)去填充。如果是一些定內(nèi)的數(shù)據(jù)，直接轉(zhuǎn)為NaN之類的。做完確認(rèn)值之后，還要做定量特征值二化。還會做一些定型特征的啞編碼，比如我們做疾病的預(yù)測，得某某疾病的概率高、中、低，就可以放到模型里，因?yàn)楹芏嗵卣鞯臉?biāo)準(zhǔn)是不一的，包括特征的選擇和降維，我們要由高維降到低維，更好的吸收數(shù)據(jù)。

具體在信用卡評分模型中用到的關(guān)鍵指標(biāo)，我們主要參考的是幾點(diǎn)，一個(gè)是KS，風(fēng)險(xiǎn)區(qū)分能力，就是判斷好用戶和壞用戶的差值，差值越大，就說明模型的效果越好，因?yàn)閰^(qū)分度高，可以區(qū)分張三是好人，李四是壞人。然后是卡方，樣本偏離程度。PSI，這是模型穩(wěn)定性很關(guān)鍵的指標(biāo)，模型的預(yù)測值與實(shí)際值偏差大小的指標(biāo).PSI越小有說明模型是越穩(wěn)定的，一般認(rèn)為PSI小于0.1時(shí)候模型穩(wěn)定性很高，0.1-0.25一般，大于0.25模型穩(wěn)定性差，建議重做。IV(信息價(jià)值)，這是我們模型在挑特征的時(shí)候很關(guān)注的一點(diǎn)，特征對于模型預(yù)測能力的貢獻(xiàn)度，我們要挑對模型預(yù)測能力貢獻(xiàn)度度強(qiáng)的特征，比如有100個(gè)特征，有年齡、學(xué)歷、收入，籍貫等，其中年齡、學(xué)歷、收入的特征對于信用貸風(fēng)控模型貢獻(xiàn)度強(qiáng)，籍貫特征是一般的。

具體特征測試要點(diǎn)分為幾部分，一般特征有特征計(jì)算邏輯，還有特征調(diào)度，特征上線。對于特征計(jì)算，除了計(jì)算的時(shí)長，還會關(guān)心整個(gè)特征的分區(qū)，編碼，以及異常處理。我重點(diǎn)想強(qiáng)調(diào)的是特征的回溯，回溯對于信用評分模型效果很關(guān)鍵。信貸風(fēng)控，是用用戶過去的時(shí)間窗，比如前一個(gè)月的數(shù)據(jù)去預(yù)測他未來的借貸風(fēng)險(xiǎn)，如果說用他最近的信貸數(shù)據(jù)去預(yù)測明天，或者說用今天預(yù)測今天，特征效果可能會比較高，但是它是虛高的，所以都有時(shí)間窗的概念，基于歷史來預(yù)測未來。還有Shuffle亂序，有的模型對特征的排序性是有相關(guān)性的，如果有問題，模型效果也會有波動(dòng)。還有特征調(diào)度異常的處理，還有特征上線，各種的一致，在線離線覆蓋率，特征值等等，這個(gè)一致性是很關(guān)鍵的。我們基于特征也做各種專項(xiàng)的分析，大部分都在做一些特征指標(biāo)類，特征分布，特征大小等等。

模型該怎么測？我們對模型測試有這么幾個(gè)點(diǎn)可以關(guān)注，一個(gè)是蛻變，我們直接去構(gòu)造輸入看輸出，可能很難發(fā)現(xiàn)問題，模型測試的是Oracle問題（未知問題），沒有明確的標(biāo)準(zhǔn)，如果變換輸入看輸出的變化環(huán)境是否相對應(yīng)，是能夠發(fā)現(xiàn)模型的問題，比如把一些標(biāo)簽亂序，屬性亂序，增加無信息的屬性，看看對模型輸出的問題。還有要看特征工程處理的情況。整個(gè)模型工程測試大部分都是偏白盒的，不像服務(wù)端可以暴露接口。還有小樣本實(shí)驗(yàn)，這很有效，看看整個(gè)信用評分的分布情況，是否符合正態(tài)分布。

關(guān)于模型效果的評估設(shè)計(jì)，我們要控制算法版本為評測流程唯一變量。

模型的監(jiān)控、模型的上線，監(jiān)控的重要性和工程類的服務(wù)一樣重要，模型會隨著時(shí)間衰退，我們需要做各種監(jiān)控，有關(guān)鍵指標(biāo)，還有對覆蓋率，準(zhǔn)確率的監(jiān)控。提取還款的樣本，樣本打標(biāo)簽，請求線上模型，計(jì)算KS。做金融風(fēng)控的模型測試，比做互聯(lián)網(wǎng)2 C的廣告推薦模型等要相對困難，對于大部分互金平臺來說信貸還款表現(xiàn)樣本較難獲取。

模型測試的痛點(diǎn)都有哪些？第一是難，門檻很高，我們傳統(tǒng)工程測試的方法不能完全的復(fù)用，而且是很抽象的，模型是黑盒的，想定位一個(gè)問題，模型的效果不好，排查鏈路很長，發(fā)現(xiàn)原來是某某數(shù)據(jù)丟失了。它是強(qiáng)數(shù)據(jù)相關(guān)的，數(shù)據(jù)的特征質(zhì)量決定了模型效果的上限，我們經(jīng)常在聊做模型的評估，這里有一個(gè)很重要的一個(gè)環(huán)節(jié)，我們需要先把數(shù)據(jù)和特征質(zhì)量給覆蓋住，這是一個(gè)很重要的源頭，80%的工作在特征工程。然后是慢，有的傳統(tǒng)公司，像金融企業(yè)的，一個(gè)模型迭代可能半個(gè)月，一個(gè)月，甚至是兩個(gè)月，因?yàn)橐磸?fù)實(shí)驗(yàn)，還有環(huán)境的變化，客群的變化。它是一個(gè)不確定的問題，因?yàn)闆]法基于一個(gè)分?jǐn)?shù)或者什么指標(biāo)完全評估這個(gè)模型好還是壞，上線才剛剛開始。所以，綜合的用各個(gè)數(shù)據(jù)指標(biāo)來進(jìn)行評估。

AI產(chǎn)品質(zhì)量體系應(yīng)該怎么做？分為線上和線下：線下三個(gè)模塊，模型質(zhì)量、數(shù)據(jù)質(zhì)量、工程質(zhì)量。線上做各種模型效果的監(jiān)控，特征的監(jiān)控，一致性監(jiān)控的，覆蓋率的還有業(yè)務(wù)表現(xiàn)的監(jiān)控等。我們希望把線上線下模型的測試做得更專業(yè)和高效，還是需要做自動(dòng)化，工具平臺化，比如說把模型的評估做到可視化，充分參考已有開源的平臺做的模型評估模塊的功能，把數(shù)據(jù)分析，質(zhì)量分析，基于統(tǒng)計(jì)的維度做可視化的展示和度量，讓整個(gè)模型部署過程自動(dòng)發(fā)布。。

最后，在AI時(shí)代，測試開發(fā)怎么做技術(shù)的儲備和轉(zhuǎn)型呢？如果要做AI的學(xué)習(xí)，從高數(shù)基礎(chǔ)到機(jī)器學(xué)習(xí)是需要一個(gè)過程的，我們內(nèi)部也在開展機(jī)器學(xué)習(xí)小組，課程安排一共18節(jié)課。再有是數(shù)據(jù)分析和挖掘，剛才說的特征挖掘，大部分是用數(shù)據(jù)挖掘的技術(shù)，做數(shù)據(jù)質(zhì)量分析本質(zhì)上就是做數(shù)據(jù)分析，大量相關(guān)的理論和工具都需要熟練的用到。如果做機(jī)器學(xué)習(xí)，通過看一些視頻教材，大概就知道是怎么回事了。在我左邊的深度學(xué)習(xí)，強(qiáng)化學(xué)習(xí)，復(fù)雜度就更高了，右邊的一、二、三，對于我們做模型的質(zhì)量保證這塊入門就夠了。如果大家覺得看書比較煩瑣，可以去B站看一下，B站有很多比較好的視頻資源。PPT里也給出了詳細(xì)的AI學(xué)習(xí)路線圖，感興趣的同學(xué)可以參考學(xué)習(xí)。

以上就是我今天和大家分享的關(guān)于模型評測的全部內(nèi)容，希望能給大家一些收獲及啟發(fā)。對于AI模型評估測試，目前各個(gè)公司團(tuán)隊(duì)都在摸索中前進(jìn)，希望在前行的路上和各位同行朋友更多交流學(xué)習(xí)。

責(zé)任編輯：張燕妮來源： 51CTO

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營