如何做機(jī)器學(xué)習(xí)模型質(zhì)量保障及模型效果評(píng)測(cè)
近年來(lái),機(jī)器學(xué)習(xí)模型算法在越來(lái)越多的工業(yè)實(shí)踐中落地。在滴滴,大量線上策略由常規(guī)算法遷移到機(jī)器學(xué)習(xí)模型算法。如何搭建機(jī)器學(xué)習(xí)模型算法的質(zhì)量保障體系成為質(zhì)量團(tuán)隊(duì)急需解決的問(wèn)題之一。本文整體介紹了機(jī)器學(xué)習(xí)模型算法的質(zhì)量保障方案,并進(jìn)一步給出了滴滴質(zhì)量團(tuán)隊(duì)在機(jī)器學(xué)習(xí)模型效果評(píng)測(cè)方面的部分探索實(shí)踐。
1. 背景
近年來(lái),隨著技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)模型算法在越來(lái)越多的工業(yè)實(shí)踐中落地,在以深度學(xué)習(xí)為基礎(chǔ)的語(yǔ)音智能、圖像智能方面表現(xiàn)尤為突出。 在我司,大量線上策略由規(guī)則算法遷移到機(jī)器學(xué)習(xí)模型算法且在多個(gè)方向的實(shí)踐中取得了不錯(cuò)的成績(jī),如: 拼車排隊(duì)預(yù)估模型、司機(jī)調(diào)度控badcase模型、取消率模型等。 機(jī)器學(xué)習(xí)與傳統(tǒng)軟件不同,后者的行為基于不同的輸入預(yù)先確定,運(yùn)算邏輯是可解釋的。 在給定輸入下,預(yù)期輸出結(jié)果是可以前置確定的。 而在機(jī)器學(xué)習(xí)模型尤其是分類模型中,模型基于大量數(shù)據(jù)訓(xùn)練,輸入的是數(shù)據(jù)及相應(yīng)的label,訓(xùn)練過(guò)程對(duì)人黑盒,人無(wú)法預(yù)先前置的確定其結(jié)果。 總體來(lái)說(shuō)模型測(cè)試的難點(diǎn)體現(xiàn)在如下幾個(gè)方面:
(1)樣本獲取,部分模型樣本相對(duì)稀疏如安全分單模型
(2)數(shù)據(jù)質(zhì)量,主要體現(xiàn)在模型訓(xùn)練及使用階段,其所涉及的數(shù)據(jù)體量一般都很大,對(duì)數(shù)據(jù)質(zhì)量的把控?zé)o法做到較細(xì)粒度
(3)特征質(zhì)量, 特征有效性&特征關(guān)聯(lián)性度量
(4)模型效果驗(yàn)證, 業(yè)界公司質(zhì)量團(tuán)隊(duì)主要通過(guò)一些大的業(yè)務(wù)指標(biāo)來(lái)評(píng)測(cè),在搜索推薦領(lǐng)域、金融風(fēng)控等領(lǐng)域有較好的落地。但業(yè)務(wù)指標(biāo)通常是對(duì)模型效果“面”的度量。在助力模型找出迭代方向上相對(duì)乏力。
2. 模型質(zhì)量保障方案
一定程度上,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限的手段。在對(duì)模型測(cè)試之前,我們可能會(huì)有如下一些疑問(wèn)
(1)模型能力達(dá)到什么樣的標(biāo)準(zhǔn)可以準(zhǔn)出?
(2)怎樣的測(cè)試數(shù)據(jù)能很好的度量出模型的能力?
(3)如何評(píng)估特征的質(zhì)量?
(4)如何更好的從用戶視角去對(duì)線上模型效果進(jìn)行評(píng)測(cè)?
模型從訓(xùn)練到線上應(yīng)用的基本流程如下:
從上圖可以看出,機(jī)器學(xué)習(xí)模型的質(zhì)量保障主要落在如下幾個(gè)方面:數(shù)據(jù)質(zhì)量、特征質(zhì)量、模型算法質(zhì)量及模型效果評(píng)測(cè)。落到模型接口層還需要考慮接口的性能、穩(wěn)定性。此外也需要考慮線上模型的安全性,尤其是無(wú)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)之類的模型。如:攻擊者通過(guò)精心設(shè)計(jì)的樣本來(lái)破壞模型的訓(xùn)練數(shù)據(jù)或通過(guò)引入噪聲、干擾來(lái)“愚弄”模型,從而最終使模型做出錯(cuò)誤的判斷。
進(jìn)一步細(xì)化,得到如下模型質(zhì)量保障總方案
3. 我司模型質(zhì)量保障現(xiàn)狀
我司在機(jī)器學(xué)習(xí)模型質(zhì)量保障方向上的落地主要體現(xiàn)在如下幾個(gè)方向:數(shù)據(jù)質(zhì)量、接口質(zhì)量、模型監(jiān)控、模型效果評(píng)測(cè)等4個(gè)方向。其中模型監(jiān)控的建設(shè)在各質(zhì)量團(tuán)隊(duì)內(nèi)廣泛應(yīng)用,是當(dāng)前主要的兜底措施。模型算法質(zhì)量當(dāng)前主要由策略同學(xué)自行測(cè)算,而用戶視角的特征有效性、特征關(guān)聯(lián)性等特征質(zhì)量度量尚有較大提升空間。
當(dāng)前突出的問(wèn)題是:模型從訓(xùn)練到上線所依賴的基礎(chǔ)服務(wù)分散對(duì)口在各質(zhì)量團(tuán)隊(duì),相互之間斷層沒(méi)有形成一個(gè)體系化的模型質(zhì)量保障平臺(tái)。目前的一個(gè)利好消息是:原來(lái)分散在各團(tuán)隊(duì)的機(jī)器學(xué)習(xí)模型訓(xùn)練部署平臺(tái)目前正在逐漸收斂到統(tǒng)一的策略中臺(tái),1.0版本已經(jīng)上線。因此,接下來(lái)機(jī)器學(xué)習(xí)模型質(zhì)量保障的重心將會(huì)集中在搭建體系化的模型質(zhì)量保障平臺(tái)上,并在特征質(zhì)量、模型效果評(píng)測(cè)上進(jìn)一步深耕,抽象出通用評(píng)測(cè)能力落地平臺(tái)化。貼一張圖,來(lái)對(duì)當(dāng)前我司在機(jī)器學(xué)習(xí)模型質(zhì)量保障方面的現(xiàn)狀做個(gè)總結(jié):
4. 模型效果評(píng)測(cè)實(shí)踐
▍ 4.1 背景
我們此前一直深耕在線上策略評(píng)測(cè)及badcase挖掘上,故對(duì)于策略線上效果的評(píng)測(cè)積累了較為豐富的經(jīng)驗(yàn)。 一次較為 偶然的機(jī)會(huì)開始對(duì)拼車ETD模型做效果評(píng)測(cè)。 實(shí)際演進(jìn)的路線為: 線上 → 離線,線上主要從城市+業(yè)務(wù)線+場(chǎng)景多維度做模型效果應(yīng)用指標(biāo) 層評(píng)估,從而幫助策略同學(xué)更直觀的找出其主要偏 差場(chǎng)景, 其次我們對(duì)模型的業(yè)務(wù)鏈路進(jìn)行了建模,將真實(shí)樣本數(shù)據(jù)映射到相應(yīng)的節(jié)點(diǎn)上,從而度量出關(guān)鍵偏差路徑。 最后我們復(fù)用了此前積累的badcase下鉆能力,對(duì)模型業(yè)務(wù)鏈路上關(guān)鍵偏差節(jié)點(diǎn)進(jìn)行了根因下鉆,從而找出了部分對(duì)模型效果有影響的一些新特征。
▍ 4.2 方案 及落地
具體方案貼圖如下:
其中模型偏差關(guān)鍵路徑核心算法如下:
▍ 4.3 模型效果評(píng)測(cè)的價(jià)值點(diǎn)
總體來(lái)說(shuō),在機(jī)器學(xué)習(xí)模型效果評(píng)測(cè)方面,我們的價(jià)值點(diǎn)主要體現(xiàn)在如下幾個(gè)方面:
(1)場(chǎng)景化模型效果度量
(2)偏差關(guān)鍵路徑尋找
(3)模型潛在新特征的挖掘
(4)依賴對(duì)模型效果的負(fù)向影響度量
5. 總結(jié)
模型質(zhì)量保障在國(guó)內(nèi)外各大公司中,整體處于摸索建設(shè)階段。 主要原因?yàn)椋?nbsp;相對(duì)于傳統(tǒng)質(zhì)量保障其難度大、技術(shù)要求高,模型應(yīng)用背景差異大。 我司在整體模型質(zhì)量保障方面,缺少體系化的建設(shè),模型特征度量這一環(huán)無(wú)啥實(shí)際落地。 得益于長(zhǎng)期以來(lái),我們?cè)诰€上策略評(píng)測(cè)和badcase挖掘方面的積累,在模型效果層面我們相對(duì)業(yè)界扎的更深,走在了業(yè)界前列,所做的工作對(duì)實(shí)際模型效果的提升起到了很好的輔助作用,但仍然需要進(jìn)一步思考把對(duì)模型評(píng)測(cè)的通用能力抽象出來(lái),落地平臺(tái)化,從而能更輕量的輔助策略團(tuán)隊(duì)找到模型效果提升的切入點(diǎn)。