自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于沉淀數(shù)據(jù)的尾部流量建模方法

大數(shù)據(jù)
在當(dāng)前的市場(chǎng)情況下,市場(chǎng)上的機(jī)構(gòu)都面臨著信貸市場(chǎng)的規(guī)模增長(zhǎng)開始進(jìn)入存量階段,流量的價(jià)格日益昂貴的問題。

導(dǎo)讀:本文將介紹 360 數(shù)科在基于沉淀數(shù)據(jù)的尾部流量建模方法的實(shí)踐。分享分為四部分,第一部分介紹尾部流量和沉淀數(shù)據(jù)的特點(diǎn),第二部分介紹尾部流量在低通過率的情況下如何進(jìn)行樣本擴(kuò)容,第三部分討論如何根據(jù)沉淀數(shù)據(jù)時(shí)效性進(jìn)行分群,第四部分介紹頭部?jī)?yōu)質(zhì)客戶的排序優(yōu)化。

具體如下:

  • 尾部流量及沉淀數(shù)據(jù)的特點(diǎn)
  • 低通過率下的樣本擴(kuò)容
  • 沉淀數(shù)據(jù)時(shí)效性分群
  • 頭部?jī)?yōu)質(zhì)客戶排序優(yōu)化

在分享以上四部分內(nèi)容之前,結(jié)合過往經(jīng)驗(yàn),首先簡(jiǎn)單介紹風(fēng)控建模的四板斧:特征挖掘、樣本分群、標(biāo)簽優(yōu)化及算法提升。如果前四種方法都不能有效地提升模型效果,第五板斧是大數(shù)據(jù)建模。當(dāng)數(shù)據(jù)維度從 100 萬、200 萬提升到 500 萬級(jí)別的時(shí)候(甚至更大級(jí)別),大數(shù)據(jù)建??梢杂行У靥嵘麄€(gè)模型的效果以及穩(wěn)定性,這是在業(yè)務(wù)非常成熟、流量非常大的情況下才能實(shí)現(xiàn),對(duì)于尾部流量以及非常小規(guī)模的起始階段,這種方法并不適用。

?尾部流量及沉淀數(shù)據(jù)的特點(diǎn)

在當(dāng)前的市場(chǎng)情況下,市場(chǎng)上的機(jī)構(gòu)都面臨著信貸市場(chǎng)的規(guī)模增長(zhǎng)開始進(jìn)入存量階段,流量的價(jià)格日益昂貴的問題。在 2015-2016 年,市場(chǎng)上各家機(jī)構(gòu)主要專注于頭部客戶以及中部客戶的經(jīng)營(yíng),但是目前機(jī)構(gòu)正在嘗試將之前舍棄的尾部流量進(jìn)行相應(yīng)的經(jīng)營(yíng)和撈回。所以我們目前的工作是針對(duì)這一部分尾部的客戶搭建相應(yīng)的風(fēng)控模型,盡可能地?fù)苹赜行У目蛻簟_@一部分尾部客戶的經(jīng)營(yíng)存在一些難點(diǎn):
  • 第一是風(fēng)險(xiǎn)過高;
  • 第二是如果我們用市場(chǎng)上的一些多頭類的數(shù)據(jù)做策略,很容易命中這類客戶并拒絕掉。
  • 第三是即使客戶的授信通過了,實(shí)際能給到的件均也是偏低的。并且,尾部客戶的人行征信數(shù)據(jù)和其他的數(shù)據(jù)缺失嚴(yán)重。

但是我們?nèi)匀灰诰蛭膊靠蛻舻脑蛑饕牵?/p>

  • 一是流量的獲取成本非常高。
  • 二是我們的風(fēng)控能力在不斷的提升,根據(jù)之前的一些風(fēng)險(xiǎn)下探的測(cè)試跟探索,我們有信心以及有能力可以運(yùn)營(yíng)一部分的尾量客戶。
  • 三是經(jīng)營(yíng)一部分資質(zhì)較少的新客戶,以低額和較低的成本在平臺(tái)上為他們?cè)鲂拧?/span>
  • 四是對(duì)一些沉睡的老客戶進(jìn)行促活。

平臺(tái)的尾部客戶的主要來源包括:在其他產(chǎn)品上面的管制禁申戶、低額的新戶、授信的拒量、睡眠戶、資金方的交易拒絕戶,策略評(píng)判高風(fēng)險(xiǎn)的客群。

圖片


沉淀數(shù)據(jù)是產(chǎn)品中積累的歷史存量數(shù)據(jù),我們需要測(cè)算客戶經(jīng)營(yíng)的成本和盈虧平衡點(diǎn),數(shù)據(jù)成本是成本中較為重要的組成部分,因?yàn)橘Y金成本和盈利目標(biāo)是既定的,目前可以壓縮的只有數(shù)據(jù)成本。在低通過率的情況下,如果調(diào)用相同的三方資信,尾量客戶的數(shù)據(jù)成本會(huì)比頭部客戶的成本更高一些,因?yàn)檎{(diào)取查詢十個(gè)尾部客戶的資信數(shù)據(jù)可能只有一個(gè)客戶能通過,十個(gè)客戶的成本全都需要分?jǐn)傇谶@一個(gè)客戶上。

所以在這種情況下,我們平臺(tái)剛開始的時(shí)候并沒有大量的接入三方數(shù)據(jù),主要是依靠這些客戶在其他子產(chǎn)品上的歷史數(shù)據(jù)來進(jìn)行相關(guān)的策略分析以及建模工作。沒有大量接入三方數(shù)據(jù)的另一個(gè)原因是平臺(tái)剛啟動(dòng)的時(shí)候,三方資信的接入需要花費(fèi)大量的時(shí)間,但是相信在未來斷直連的情況下,接入速度會(huì)有較大的提升。

關(guān)于我們所用的沉淀數(shù)據(jù),也就是歷史數(shù)據(jù),主要包括四個(gè)方向,授信階段的數(shù)據(jù),交易申請(qǐng)階段的數(shù)據(jù),貸中調(diào)額階段的數(shù)據(jù),貸后的數(shù)據(jù)。這四部分?jǐn)?shù)據(jù)相關(guān)的衍生變量以及邏輯,市場(chǎng)上各大機(jī)構(gòu)都有一套自己的方法論,關(guān)于變量的衍生以及特征挖掘,本次分享不會(huì)具體展開。

圖片

?低通過率情況下的樣本擴(kuò)容

在尾量數(shù)據(jù)撈回較低的通過率情況下,我們有表現(xiàn)的樣本非常少。如何通過樣本的擴(kuò)容來實(shí)現(xiàn)數(shù)量級(jí)上面的擴(kuò)張,使模型的表現(xiàn)以及穩(wěn)定性有所提升,主要有三種方法。

圖片


  • 第一個(gè)方法是共生融合標(biāo)簽的使用

我們的平臺(tái)相當(dāng)于是一個(gè)子產(chǎn)品平臺(tái),在集團(tuán)下面有其他產(chǎn)品,我們可以在獲取同一個(gè)用戶在其他產(chǎn)品上的風(fēng)險(xiǎn)表現(xiàn),將同期的風(fēng)險(xiǎn)表現(xiàn)進(jìn)行融合。以上圖為例,一個(gè)用戶進(jìn)入到子產(chǎn)品的授信節(jié)點(diǎn),發(fā)起授信申請(qǐng)以后,我們會(huì)看到用戶在授信之后的一個(gè)月內(nèi)是否發(fā)起動(dòng)支申請(qǐng)。假設(shè)用戶動(dòng)支成功,會(huì)產(chǎn)生一張借據(jù),我們觀察用戶在 3 個(gè)月加 1 個(gè)月,即四個(gè)月的表現(xiàn),是否有 30 天的逾期,作為這個(gè)子產(chǎn)品的風(fēng)險(xiǎn)Y標(biāo)簽。這樣的情況下,我們能夠獲取的樣本非常的少,因?yàn)槭紫仁谛攀欠裢ㄟ^,會(huì)產(chǎn)生一部分損失;授信通過以后,在一個(gè)月內(nèi)用戶是否會(huì)發(fā)起交易,又產(chǎn)生一部分損失;在發(fā)起交易以后,它的交易能否被通過又是第三部分的損失。所以這一套流程下來,我們能夠獲取的 Y 樣本非常的少。

通過融合的方法,可以將數(shù)據(jù)量擴(kuò)展 3 到 4 倍。融合的具體做法是,獲取用戶在其他產(chǎn)品上面的同期的風(fēng)險(xiǎn)表現(xiàn)。比如在授信節(jié)點(diǎn)之后,以 M0 為例,再到相同的M4,我們獲取他在其他產(chǎn)品上所有的借據(jù)每一期的 Due Time ,只要這些 Due Time 落在這個(gè)區(qū)間之內(nèi),我們都開始獲取他的相關(guān)風(fēng)險(xiǎn)表現(xiàn),每一期是否有逾期 30 天,只要在這個(gè)區(qū)間內(nèi)有逾期 30 天,我們都認(rèn)為用戶在其他產(chǎn)品上的風(fēng)險(xiǎn)表現(xiàn)為命中,然后將這兩個(gè)標(biāo)簽融合在一起,就獲得了最終的用戶的風(fēng)險(xiǎn)標(biāo)簽。

上圖中的融合標(biāo)簽交叉情況矩陣會(huì)更清楚地顯示所有可能的情況。在子產(chǎn)品 1 上面,用戶可能會(huì)有三種狀態(tài),一個(gè)是“好人”,一個(gè)是“壞人”,一個(gè)是沒有表現(xiàn)。在子產(chǎn)品 2 上面,也會(huì)有三種情況,也是“好人”、“壞人”、沒有表現(xiàn)。上圖只列舉了兩種產(chǎn)品的情況,也可以是三到四個(gè)產(chǎn)品不斷地累加,形成一個(gè)大的矩陣。僅看這兩個(gè)產(chǎn)品的情況下,用戶會(huì)有九種情況。圖中的數(shù)字 1 代表“壞人”,0 代表“好人”,三個(gè)標(biāo)記為 0 的方格代表“好人”,五個(gè)標(biāo)記為1的方格代表“壞人”,還有一個(gè)情況是用戶都沒有表現(xiàn)。所以實(shí)際情況下,我們可以獲取這八個(gè)格子的風(fēng)險(xiǎn)表現(xiàn),作為這個(gè)用戶的風(fēng)險(xiǎn)表現(xiàn),而舍棄最終在兩邊都沒有風(fēng)險(xiǎn)表現(xiàn)的人。這種方法在擴(kuò)展樣本的同時(shí)也加入了拒絕推斷。因?yàn)閷?duì)于在子產(chǎn)品 1 上面沒有風(fēng)險(xiǎn)表現(xiàn)的情況下,可以通過子產(chǎn)品 2 作為用戶的風(fēng)險(xiǎn)表現(xiàn)的補(bǔ)充,作為有效的拒絕推斷。在選擇子產(chǎn)品的時(shí)候,如果有很多選項(xiàng)的情況下,還需要分析用戶在其他子產(chǎn)品的風(fēng)險(xiǎn)表現(xiàn)的 Y 與用戶在需要分析的這個(gè)產(chǎn)品的風(fēng)險(xiǎn)表現(xiàn)的 Y ,兩者的相關(guān)性有多高。以我們的實(shí)踐經(jīng)驗(yàn)來看,大概會(huì)有 75% 的可能性是相類似的風(fēng)險(xiǎn)表現(xiàn)。

  • 第二個(gè)方法是放松壞人定義的方法

在 0 和 1 的二分類模型中其實(shí)很難界定 29 天逾期和 30 天逾期,到底哪個(gè)定義為“好人”哪個(gè)定義為“壞人”。所以當(dāng)遇到樣本量非常不足的情況時(shí),其實(shí)可以適當(dāng)?shù)胤潘蓸?biāo)準(zhǔn),把 29 天或 28 天逾期的樣本也容納進(jìn)整個(gè)樣本區(qū)間內(nèi)。具體的分界線在哪里也需要做相應(yīng)的分析。一般我們可能比較常見滾動(dòng)率在 m0、m1、m2、m3 的矩陣,其實(shí)可以也把它遷移到這個(gè)分析里面來看用戶從第一天逾期到逾期 30 天以及更多更長(zhǎng)時(shí)間的情況的滾動(dòng)率。如果滾動(dòng)率保持在 90 % 以上,那可以放寬相應(yīng)的時(shí)間界限的標(biāo)準(zhǔn),以獲得更大的樣本的容量。

  • 第三個(gè)方法是長(zhǎng)短期指標(biāo)的選擇

建模時(shí)常用的Y 標(biāo)簽是一期的、三期的、六期的風(fēng)險(xiǎn)標(biāo)簽。我們嘗試過同時(shí)使用同樣的月份樣本,用一期、 三期、 六期的數(shù)據(jù)做相應(yīng)的模型,輸入項(xiàng)也相同的情況下,六期的模型在三期的風(fēng)險(xiǎn)標(biāo)簽上的識(shí)別度會(huì)優(yōu)于以三期為 Y 建模的效果。如果我們選用 6 個(gè)月作為訓(xùn)練樣本,以六期為風(fēng)險(xiǎn)標(biāo)簽的話,在 Ever 的口徑下,六期的壞的樣本會(huì)比三期的更多一些。

?沉淀數(shù)據(jù)時(shí)效性分群

可以從客戶經(jīng)營(yíng)的角度和數(shù)據(jù)的角度來理解數(shù)據(jù)沉淀數(shù)據(jù)時(shí)效性分群。

從客戶經(jīng)營(yíng)的角度來說,是對(duì)活躍戶和非活躍戶的分群建模。從數(shù)據(jù)的角度來說,是對(duì)數(shù)據(jù)的時(shí)效性進(jìn)行分群。我們的客群是在其他產(chǎn)品有過授信或者交易申請(qǐng)記錄的客群,所以我們會(huì)以 T0,相當(dāng)于是在我們客群進(jìn)行授信申請(qǐng)的時(shí)間節(jié)點(diǎn),再往前倒推 30 天,看用戶在其他產(chǎn)品上面是否有相關(guān)的授信或者是交易申請(qǐng)的操作。如果有的話我們認(rèn)為他是比較活躍的用戶,用戶的數(shù)據(jù)在 T0 節(jié)點(diǎn)和往前推 30 天的節(jié)點(diǎn)獲取的數(shù)據(jù)是比較新的,我們把它命名為 Trade 1。在 30 天到 90 天內(nèi)的用戶,命名為 Trade 2 ,到 90 天以上的是 Trade3。Trade1、Trade 2 和 Trade3 一般是在貸中環(huán)節(jié)進(jìn)行區(qū)分,就是距離首筆交易的時(shí)間間隔的概念,我們相當(dāng)于是借用了這個(gè)概念。

圖片


我們?yōu)槭裁匆@么做呢?上圖是我們?cè)谡w樣本上面建的 Benchmark Model,Trade 1、Trade 2、 Trade 3 樣本上這些模型和整體樣本之間其實(shí)并沒有非常明顯的區(qū)分,較難分辨模型在哪一些子客群上的表現(xiàn)效果更好。而且如果仔細(xì)觀察,會(huì)發(fā)現(xiàn) Trade 2 的效果反而會(huì)比 Trade3 更好,并且好于 Trade 1,明明 Trade 1 是最新的數(shù)據(jù),反而它的效果是更差的。所以這就是我們?yōu)槭裁聪Mㄟ^時(shí)效性維度來進(jìn)行劃分客群。

當(dāng)我們以時(shí)效性分群以后,我們?cè)賮碓u(píng)估模型的表現(xiàn)。以 Trade 1 模型為例,就是在 30 天內(nèi)在其他產(chǎn)品上有操作過的客群數(shù)據(jù)來搭建的模型。下圖中的左圖是僅僅在 Trade 1 客群上面進(jìn)行建模的效果比較,紅色線是我們新建的此客群的模型,藍(lán)色的三條線是在全部樣本上面建的幾個(gè) Benchmark Model,效果上會(huì)有比較明顯的提升。但是這個(gè)提升其實(shí)并不能說明問題,因?yàn)檫@可能是因?yàn)檫@個(gè)模型是采用活躍樣本搭建的,樣本數(shù)據(jù)的時(shí)效性更近,所以模型的效果會(huì)更好。

這個(gè)提升到底有多少是來自于模型自身的提升,有多少是來自于樣本的分群,不能很明確的分析出來。當(dāng)我們用同樣的模型在排除了 Trade 1 樣本的數(shù)據(jù)上驗(yàn)證發(fā)現(xiàn),即將 Trade 2 和 Trade 3 樣本合在一起打分以后再進(jìn)行比較,會(huì)發(fā)現(xiàn)模型即使用的輸入項(xiàng)是比較舊的數(shù)據(jù),但是它的效果依然可以超過其他的三個(gè) Benchmark Models,這說明這樣的分群建模是非常有效的,而且可以間接地理解為這個(gè) 效果提升 是來自于模型的提升(見下圖中的右圖)。

圖片

低通過率頭部?jī)?yōu)質(zhì)客戶排序優(yōu)化

頭部?jī)?yōu)質(zhì)客戶的排序優(yōu)化對(duì)我們來說是最具有挑戰(zhàn)性的問題。因?yàn)榻颖九c最終策略使用的通過樣本相比可能有一個(gè)非常大的差距,特別是在一個(gè)實(shí)際通過率可能只有 10% 到 20% 的低通過率的產(chǎn)品上。

對(duì)前 10% 的客群,排序性的優(yōu)化是非常重要的。因?yàn)榻?jīng)常會(huì)出現(xiàn)一個(gè)問題,模型在建模的樣本上面效果非常的好,一旦在策略上使用之后,實(shí)際上線的效果會(huì)有非常大幅度的下降。這是因?yàn)樵冉颖究赡苁前俜职偻ㄟ^,但是模型在實(shí)際上線之后,整個(gè)通過率大概只有 10% 到 20% 的區(qū)間。傳統(tǒng)的KS 評(píng)估或者AUC評(píng)估其實(shí)相當(dāng)于是僅對(duì)10檔中的前 2 檔進(jìn)行了評(píng)估,在這種情況下,模型的表現(xiàn)下降也是可以理解的,因?yàn)槲覀儾]有針對(duì)前幾檔進(jìn)行相關(guān)的優(yōu)化,所以后續(xù)我們開始研究如何對(duì) Top Capture Rate 進(jìn)行優(yōu)化,除了傳統(tǒng)指標(biāo) KS、AUC 外,還會(huì)看前兩檔最好的客群的 Bad Rate 以及一些相關(guān)的指標(biāo)來優(yōu)化它相關(guān)的排序性。

下面介紹幾種比較常用的方法。

  • 第一種方法是頭部樣本的疊加模型

首先對(duì)全樣本進(jìn)行建模,獲得 Model1,作為基礎(chǔ)模型。基礎(chǔ)模型產(chǎn)生樣本排序,顏色從深到淺(見下圖),我們以這個(gè)模型的排序進(jìn)行取樣,取我們業(yè)務(wù)關(guān)注的那一部分的樣本,比如說前 20% 或者前 30%。取樣之后,再在子樣本上面搭建 Model 2, 再把 Model 1 和 Model 2 進(jìn)行融合,獲得最終的模型。這種方法比較簡(jiǎn)單直觀。模型 1 的全局最優(yōu),并不一定是 Top 20 或者 Top 30 的樣本的局部最優(yōu),所以我們?cè)诰植繕颖旧显僬乙粋€(gè)最優(yōu),兩個(gè)進(jìn)行合并,獲得結(jié)果。但是這個(gè)方法在不同場(chǎng)景下,模型的效果不同(不一定能帶來正向增益),仍然需要在具體的問題上面去具體分析,做相關(guān)的試驗(yàn)。

圖片


  • 第二種方法是權(quán)重法

這種方法不僅僅用于頭部客群的一個(gè)排序優(yōu)化,其實(shí)在很多場(chǎng)景里面都可以使用。第一步同樣是對(duì)全量樣本建模,Model1,獲得排序。排序之后,對(duì)關(guān)注的特定的排序區(qū)間的客群進(jìn)行增加權(quán)重,增加權(quán)重的方法很多。首先是直接在樣本里面復(fù)制這一部分客群,將復(fù)制的客群加入樣本,至于增加幾倍,需要通過測(cè)試獲取最好的效果,然后在調(diào)整后的樣本上面再進(jìn)行訓(xùn)練,獲取 Model2。

這個(gè)方法還有一種適用場(chǎng)景,在授信客群上面建模,客群會(huì)有一定的漂移情況。比如用六個(gè)月的數(shù)據(jù),前四個(gè)月與最近兩個(gè)月的數(shù)據(jù)相比,可能發(fā)現(xiàn)最近兩個(gè)月的樣本會(huì)有比較明顯的偏移。如果整體進(jìn)行建模的話,我們會(huì)發(fā)現(xiàn)模型可能在前四個(gè)月的效果上面效果很好。但是在最近兩個(gè)月的樣本上面,它的效果并不是特別好。在這種情況下,我們可以適當(dāng)?shù)膶?duì)最近兩個(gè)月的客群樣本進(jìn)行加權(quán),使得模型偏向于著重學(xué)習(xí)最近兩個(gè)月的樣本,同時(shí)又能保證足夠的樣本,使得模型在長(zhǎng)期來看比較穩(wěn)定。因?yàn)樵趯?shí)際的操作中會(huì)發(fā)現(xiàn)有的時(shí)候客群的偏移只是暫時(shí)的,可能兩三個(gè)月之后客群又回來了,整個(gè)模型的效果 KS、AUC 又上升了。

圖片


  • 最后一種方法是修改算法的目標(biāo)函數(shù)和評(píng)價(jià)函數(shù),對(duì)模型打分頭部錯(cuò)判壞樣本加大懲罰。這里共有三個(gè)公式。?

?公式一是 a-balanced 交叉熵,在普通的交叉熵的基礎(chǔ)上加入 Alpha 增加相應(yīng)的權(quán)重,來調(diào)整好壞樣本的不平衡。其實(shí)可以完全僅使用這一條公式來對(duì)目標(biāo)函數(shù)和評(píng)價(jià)函數(shù)進(jìn)行修改。我們?cè)囼?yàn)發(fā)現(xiàn)這個(gè)公式可以對(duì)頭部 5% 的客群有很明顯的風(fēng)險(xiǎn)的壓降。

公式二是 Focal Loss,不僅能夠?qū)脡臉颖具M(jìn)行平衡,還能對(duì)容易學(xué)習(xí)和不容易學(xué)習(xí)的樣本進(jìn)行權(quán)重的修改。如果模型預(yù)測(cè)的概率偏向于 0.5 時(shí),說明是比較難學(xué)習(xí)的樣本,通過調(diào)整 Gamma 系數(shù),公式會(huì)對(duì)此樣本加重學(xué)習(xí)的權(quán)重。如果模型預(yù)測(cè)的概率是 0.95,說明它是傾向于 1 的命中的樣本,那么公式會(huì)降低對(duì)它的學(xué)習(xí)力度。

公式三是將公式一和公式二融合起來,形成更為復(fù)雜的 Focal Loss 函數(shù)。?

我們需要對(duì) Alpha 系數(shù)和 Gamma 系數(shù)進(jìn)行整體的分析,而不能單純地說 Alpha 系數(shù)是用來平衡好壞樣本,Gamma 系數(shù)是平衡容易學(xué)習(xí)和不容易學(xué)習(xí)的樣本的參數(shù),應(yīng)該把它們作為一個(gè)整體進(jìn)行超參的分析和調(diào)參的工作,這種方法可以對(duì)模型的排序性有較大的調(diào)整和提升。

圖片

問答環(huán)節(jié)

Q1:請(qǐng)問除了直接復(fù)制樣本量,還有沒有其他的方法增加樣品權(quán)重?

A1:增加樣本權(quán)重的方法還挺多的。一是 XGB 模型里面有 scale_pos_weight系數(shù)可以進(jìn)行調(diào)整。二是在整理樣本的時(shí)候,可以在樣本的 Matrix 中增加一列,對(duì)每一個(gè)樣本賦予相應(yīng)的權(quán)重。三是修改損失函數(shù),比如說對(duì)頭部 20% 的樣本增加權(quán)重。

Q2:關(guān)于共生融合風(fēng)險(xiǎn)標(biāo)簽,用戶樣本擴(kuò)容相當(dāng)于是對(duì)比如說某子產(chǎn)品在授信 30 天內(nèi),發(fā)生支用的新客在 mob 4 上三十天逾期擴(kuò)充成了某子產(chǎn)品授信后,該用戶在所有產(chǎn)品上均視為逾期 30 天,這樣理解對(duì)嗎?

A2:可以這么理解,但是在的時(shí)候可能需要做一些前期的分析工作,并不是盲目的把不同的產(chǎn)品合并在一起。首先需要分析產(chǎn)品的結(jié)構(gòu)是否是類似的,還需要分析在這個(gè)子產(chǎn)品上歷史的數(shù)據(jù)。比如用戶在子產(chǎn)品 1 上的表現(xiàn)變壞了,那么在其它子產(chǎn)品上同期變壞的重合度有多高,我們之前的分析是大概 75% 左右的重合度,如果用戶在這個(gè)子產(chǎn)品上的表現(xiàn)變壞,在另外一個(gè)產(chǎn)品上的同期表現(xiàn)也很有可能變壞,我們就覺得這個(gè)產(chǎn)品可以進(jìn)行融合。

Q3:請(qǐng)問在分群建模后還有必要融合嗎?

A3:如果按時(shí)效性分群的話,還是可以進(jìn)行 Y 標(biāo)簽的融合,因?yàn)檫@是兩個(gè)維度。如果是普通分群的情況的話,需要進(jìn)行斟酌,因?yàn)榉秩罕緛砭褪菫榱俗寴颖靖拥募儩崳氲脑肼暩佟?/span>

Q4:對(duì)于客群偏移還有沒有什么方法來進(jìn)行處理。

A4:我們首先會(huì)做客群偏移的分析。從模型的角度來說,第一最直觀的就是模型分的偏移,還有特征輸入項(xiàng)的偏移,我們會(huì)做相應(yīng)的監(jiān)控。然后通過客群偏移的監(jiān)控如果確實(shí)論證發(fā)現(xiàn)客群產(chǎn)生偏移,我們會(huì)加重偏移后的客群在整個(gè)建模樣本里面的權(quán)重,以增加算法對(duì)他的學(xué)習(xí)能力。

第二,因?yàn)榭腿旱钠剖菚r(shí)間的維度,它是不可復(fù)制也不可預(yù)測(cè)的。所以在這種情況下,有一種方法是比如產(chǎn)品時(shí)間比較長(zhǎng),那我們可以把偏移后的客群跟歷史的客群進(jìn)行分析,找到歷史上類似的時(shí)間段進(jìn)行擴(kuò)容。

Q5:尾部客群在實(shí)際的業(yè)務(wù)當(dāng)中的貢獻(xiàn)能夠占到多少?在未來的預(yù)期當(dāng)中,這部分客群貢獻(xiàn)的占比會(huì)持續(xù)擴(kuò)大嗎?

A5:所謂的尾部客群并不一定說風(fēng)險(xiǎn)非常高。對(duì)公司來說,經(jīng)營(yíng)頭部的產(chǎn)品通過調(diào)額就可以提升整體的 GMV,所以它并沒有花很大的時(shí)間來精耕尾部客群,但是我們其實(shí)是可以將尾部客群的風(fēng)險(xiǎn)控制在相對(duì)較低的水平,甚至跟整體大盤持平的情況。而且在當(dāng)前流量昂貴的情況下,我們需要挖掘歷史沉淀數(shù)據(jù),盡少的增加成本的支出來獲得 GMV,增加公司的整體收入。且與其說是尾部客群經(jīng)營(yíng),實(shí)際上更可以說是我們?cè)趯?duì)自己風(fēng)控整體能力的一個(gè)壓力測(cè)試(經(jīng)濟(jì)下行)。并且未來可以反哺給主流量運(yùn)營(yíng)。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2020-10-10 06:53:18

數(shù)據(jù)建模數(shù)據(jù)庫(kù)

2022-08-01 11:30:27

數(shù)據(jù)建模

2024-09-24 19:11:38

2016-01-11 16:59:48

暢享網(wǎng)

2025-04-10 11:47:41

2017-02-05 14:59:18

MongoDB數(shù)據(jù)建模數(shù)據(jù)庫(kù)

2011-11-25 10:19:37

云計(jì)算SQL Azure數(shù)據(jù)建模

2009-02-05 10:13:00

局域網(wǎng)流量控制數(shù)據(jù)流量

2010-06-29 17:27:49

UML建模方法

2022-05-27 11:27:31

技術(shù)架構(gòu)ROI

2023-11-08 00:23:08

網(wǎng)關(guān)API

2010-05-26 16:44:27

Linux流量監(jiān)控

2024-06-12 13:46:41

2022-10-27 09:50:41

數(shù)據(jù)倉(cāng)開發(fā)

2010-06-04 10:49:58

Linux流量控制

2014-01-06 10:44:17

Angular數(shù)據(jù)

2022-08-05 19:55:20

學(xué)術(shù)科研鴻蒙

2011-03-25 16:15:42

SQL Server

2023-11-23 16:59:37

數(shù)據(jù)倉(cāng)庫(kù)建模

2010-06-29 17:42:54

UML建模
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)