打造用戶增長場景下的AB實驗體系,我們需要做什么?
一、新用戶場景下實驗面臨的問題
1、UG全景圖
這是 UG 的全景圖。
UG 通過渠道,比如 Paid Ads、 ASO、SEO 等渠道,獲客引流到 APP。接下來,會做一些新手的運(yùn)營和引導(dǎo),來促活用戶,使其進(jìn)入成熟期。后續(xù)用戶可能會慢慢地失活,進(jìn)入衰退期,甚至進(jìn)入流失期。在這期間會做一些流失的預(yù)警,促活的召回,后面還有一些對流失用戶的召回。
可以概括為上圖中的公式, 即 DAU 等于 DNU 乘上 LT。UG 場景下的所有工作都可以基于這一公式來拆解。
2、AB實驗原理
AB 實驗是要對流量進(jìn)行完全的隨機(jī),對于實驗組和不同和對照組,給予不同的策略。最后結(jié)合統(tǒng)計的方法和實驗的假設(shè)做出科學(xué)的決策,這就是整個實驗的架構(gòu)?,F(xiàn)有市面上的實驗分流的類型,大概分為兩種:實驗平臺分流和客戶端本地分流。
實驗平臺分流是有前提的,需要設(shè)備完成初始化以后能獲取到穩(wěn)定的 ID,基于這個 ID 向?qū)嶒炂脚_請求實驗平臺完成分流相關(guān)的邏輯,把分流 ID 返回給端上,然后端上基于收到的 ID 做相應(yīng)的策略。它的優(yōu)點是有一個實驗平臺,能夠保證分流的均勻性和穩(wěn)定性。它的缺點是設(shè)備必須完成初始化以后才能進(jìn)行實驗分流。
另外一種分流是客戶端本地分流,這種場景相對來說會比較小眾一點,主要是在一些 UG 的場景,廣告開屏的場景,以及一些性能的初始化場景。這里所有的分流邏輯都是在端初始化時完成的,其優(yōu)點很明顯,就是無時延,開機(jī)即可分流。從邏輯上來講,其分流均勻性也是能夠得到保證的。但是在實際的業(yè)務(wù)場景上,它的分流均勻性常常存在問題。后面會介紹其原因。
3、新用戶場景AB實驗面臨的問題
UG 場景實際面臨的第一個問題是盡可能早的分流。
這里舉個例子,比如這里的流量承接頁面,產(chǎn)品經(jīng)理覺得 UI 可以再優(yōu)化一下,進(jìn)而提升核心指標(biāo)。在這樣的場景下,我們希望實驗盡早地進(jìn)行分流。
在頁面 1 的分流,是在分流時設(shè)備完成初始化并獲取 ID,有 18.62% 的用戶是沒有產(chǎn)生 ID 的。如果用傳統(tǒng)的實驗平臺的分流方式,會有 18. 62% 的用戶是不能被分組的,先天性會出現(xiàn)選擇偏差的問題。
另外,新用戶的流量是非常寶貴的,有 18. 62% 的新用戶不能被用于實驗,對于實驗的時長和流量利用效率也是有很大損失的。
未來解決實驗盡可能早的分流的問題,我們就會用客戶端本地分流實驗。其優(yōu)點是在設(shè)備初始化的時候,就完成了分流。其原理為,首先是在端上面初始化的時候,它本身就可以生成隨機(jī)數(shù),對隨機(jī)數(shù)進(jìn)行哈希以后進(jìn)行同樣的分組,進(jìn)而產(chǎn)生了實驗組和對照組。從原理上看,應(yīng)該能夠保證分流是均勻的,但通過上圖中的一組數(shù)據(jù)會發(fā)現(xiàn),有超過 21% 的用戶是重復(fù)進(jìn)到不同的組的。
有一種場景是,一些很受歡迎的產(chǎn)品,比如王者榮耀或者抖音,用戶很容易上癮。新用戶在實驗周期里面會有多次的卸載重裝。按照剛剛講的本地分流的邏輯,隨機(jī)數(shù)的產(chǎn)生和分流以后會讓用戶進(jìn)入不同的組,這樣就會出現(xiàn)分流的 ID 和統(tǒng)計 ID 不能一對一匹配。造成了分流不均勻的問題。
在新用戶場景下,我們還面臨著實驗評估標(biāo)準(zhǔn)的問題。
我們梳理了新用戶流量承接這一場景的時間圖。APP launch 的時候,選擇了分流。假設(shè)分流時機(jī)能夠做到這個,而且是均勻的,同時就有相應(yīng)的策略產(chǎn)生作用。接下來指標(biāo)統(tǒng)計 ID 的生成是晚于策略作用的時機(jī)的,在這時才能觀測到數(shù)據(jù)。數(shù)據(jù)觀測的時機(jī)遠(yuǎn)遠(yuǎn)落后于策略作用的時機(jī),就會造成幸存者偏差。
二、新實驗體系及其科學(xué)性驗證
為了解決上述問題,我們提出了新的實驗體系,并對其科學(xué)性進(jìn)行了驗證。
1、新用戶場景實驗分流ID選擇
前面已經(jīng)講到了新用戶實驗對于新用戶的分流選擇要求會比較高,如何選擇新用戶實驗分流 ID 呢?有以下幾個原則:
- 合規(guī)性,不管是海外業(yè)務(wù)還是國內(nèi)業(yè)務(wù),安全合規(guī)首先是生命線,一定要滿足安全合規(guī),否則一旦被下架影響會特別大。
- 及時性,對于新用戶場景,一定是要及時,開機(jī)即可獲取分流。
- 唯一性,在單次安裝周期內(nèi),分流的 ID 是穩(wěn)定的,同時跟指標(biāo)口徑 ID 能形成一一對應(yīng)的關(guān)系。通過下圖中的數(shù)據(jù)可以看到,分流 ID 和指標(biāo)計算口徑 ID 一對一的匹配比例達(dá)到了 99.79%,指標(biāo)計算 ID 和分流 ID 的一對一比例也達(dá)到了 99. 59%?;旧峡梢则炞C,按照標(biāo)準(zhǔn)選擇的分流 ID 和指標(biāo) ID 是能夠做到一對應(yīng)匹配的。
2、分流能力科學(xué)性驗證
選擇好分流 ID 以后,分流能力往往是通過兩種方式,第一種是通過實驗平臺,第二種是通過端上完成。
有了分流的 ID 以后,把分流 ID 提供給實驗平臺,在實驗平臺里完成分流的能力。作為分流平臺,最基本的是需要驗證它的隨機(jī)性。首先就是均勻性。在同一層實驗里面,把流量均勻地分到了很多個分桶,每個分桶進(jìn)組的數(shù)量應(yīng)該是均勻的。在這里可以簡化一下,假如一層只有一個實驗,分成 a、 b 兩組,進(jìn)組的對照組和實驗組的用戶數(shù)應(yīng)該是近似相等的,進(jìn)而驗證分流能力的均勻性。其次,對于多層實驗,多層實驗之間應(yīng)該是相互正交,不受影響的,同理這里也需要去驗證不同層實驗之間的正交性??梢酝ㄟ^統(tǒng)計學(xué)上的 category test 去驗證均勻性和正交性。
介紹完分流選擇的 ID 和分流的能力,最后要從指標(biāo)結(jié)果層面去驗證新提出來的分流結(jié)果,是否符合 AB 實驗的要求。
3、分流結(jié)果科學(xué)性驗證
結(jié)合內(nèi)部的平臺,做了很多次 AA 的simulation。
比較對照組和實驗組在對應(yīng)的指標(biāo)上面是否滿足實驗的要求。接下來看一下這一組數(shù)據(jù)。
抽樣了一部分 t 檢驗的一些指標(biāo)組,可以理解為對于做的這么多次試驗,放 type one error rate 應(yīng)該是在很小的概率,假設(shè) type one error rate 預(yù)定是在 0. 055% 左右,它的置信區(qū)間其實應(yīng)該在 1000 次左右,應(yīng)該是在 0. 0365- 0. 0635 之間??梢钥吹降谝涣谐闃映鰜淼囊恍┲笜?biāo),都在這個執(zhí)行區(qū)間之內(nèi),所以從 type one error rate 視角來看現(xiàn)有的這個實驗體系是 OK 的。
同時考慮到檢驗是對于 t 統(tǒng)計量的檢驗,相應(yīng)的 t 統(tǒng)計量在大流量的分布下面,應(yīng)該是近似地服從正態(tài)分布的。也可以對 t 檢驗的統(tǒng)計量做正態(tài)分布的檢驗。這里用了正態(tài)分布的檢驗,可以看到檢驗出來的結(jié)果也是遠(yuǎn)遠(yuǎn)大于 0.05 的,即原假設(shè)成立,也就是 t 統(tǒng)計量是近似服從正態(tài)分布的。
對于每次檢驗 t 統(tǒng)計量檢驗出來的結(jié)果的 pvalue,在這么多次實驗里面來看,也是近似地服從均勻分布的,同時也可以對pvalue 做均勻分布的檢驗,pvalue_uniform_test,也可以看到類似的結(jié)果,它也是遠(yuǎn)遠(yuǎn)大于 0.05 的。所以原假設(shè) pvalue 近似服從均勻分布也是 OK 的。
以上從分流 ID 和指標(biāo)計算口徑的一一對應(yīng)關(guān)系,從分流的能力和分流的結(jié)果指標(biāo)結(jié)果上面都去驗證了新提出來的這種實驗分流體系的科學(xué)性。
三、應(yīng)用案例分析
接下來結(jié)合 UG 場景下的實際應(yīng)用案例,講解如何做實驗評估,解決前面提到的問題三。
1、新用戶場景實驗評估
這里是典型的 UG 流量承接場景,在 NUJ 新用戶引導(dǎo)或者新用戶任務(wù)的時候會做很多的優(yōu)化,從而提升流量利用率。這個時候的評估標(biāo)準(zhǔn)往往都會是 retention rate,這是業(yè)界現(xiàn)有的常規(guī)理解。
假設(shè)從新用戶下載到安裝再到首啟的這個流程, PM 覺得這樣的流程對于用戶使用,特別是從未體驗過產(chǎn)品使用的這一部分用戶來說門檻太高了,是不是應(yīng)該先讓用戶熟悉產(chǎn)品,體驗到產(chǎn)品的嘻哈 moment 以后,再引導(dǎo)登錄。
進(jìn)而 PM 提出了另外的假設(shè),對于從來沒有體驗過產(chǎn)品的用戶,在新用戶登錄或者新用戶 NUJ 的場景里面,降低阻力。對于體驗過產(chǎn)品的用戶,換機(jī)用戶,還是走線上的流程。
基于指標(biāo) ID 進(jìn)行分流,首先獲取的指標(biāo)的 ID,然后進(jìn)行分流,這樣的分流往往是均勻的,從實驗的結(jié)果也可以看到,同時從 retention rate 上面也可以看到?jīng)]有太大的區(qū)別。從這樣的結(jié)果上,很難去做出推全的決策。這樣的實驗其實浪費(fèi)了一部分流量,同時存在選擇偏差的問題,所以進(jìn)而會做本地分流的實驗,下圖可以看到本地分流的實驗結(jié)果。
進(jìn)組的新設(shè)備數(shù)上面會有顯著性的差異,而且是置信的。同時在 retention rate 上面有提升,但在其它核心指標(biāo)上其實是有負(fù)向的,而且這個負(fù)向很難被理解,因為它跟留存其實是強(qiáng)相關(guān)的。所以基于這樣的數(shù)據(jù),也很難去解釋或者去歸因,也很難去做出推全的決策。
可以去看一下重復(fù)進(jìn)組的用戶的情況,就會發(fā)現(xiàn)超過 20% 的用戶是被重復(fù)進(jìn)到不同的組的。AB 實驗的分流的隨機(jī)性就已經(jīng)被破壞了,這樣的結(jié)果就很難支持我們做出比較科學(xué)的決策。
最后,看一下用提出的新的分流的實驗的結(jié)果。
開機(jī)即可分流,分流能力是由內(nèi)部平臺來保證的,它能夠極大程度地保證分流的均勻性和穩(wěn)定性。從實驗的數(shù)據(jù)來看,幾乎是接近的,在做開方檢驗的時候也能夠看到它是完全滿足需求的。同時看到有效的新設(shè)備數(shù)是有極大的增加的,增加了1%,同時在 retention rate 上面也有所提升。同時從對照組或者單看實驗組,能夠看到基于分流 ID 到最終產(chǎn)生的新設(shè)備的流量轉(zhuǎn)化率,實驗組比對照組提升了 1% 。之所以出現(xiàn)這樣的結(jié)果,實驗組其實是放大了用戶在 NUJ 和 NUT 的這個入水口,有更多的用戶更容易進(jìn)來體驗到產(chǎn)品,進(jìn)而留下來。
把實驗數(shù)據(jù)拆成 login 和 not login 兩部分,可以看到對于實驗組的用戶,有更多的用戶選擇了非登錄的模式,去體驗產(chǎn)品,同時留存也得到了提升,這樣的結(jié)果也是符合預(yù)期的。
可以看到 by daily 的指標(biāo),進(jìn)組的用戶數(shù),其實是有長期寫,by daily 來看是穩(wěn)定增加的,同時留存指標(biāo)也有提升。實驗組相比對照組在有效設(shè)備數(shù)和留存上都是有提升的。
對于新用戶流量承接的場景,更多的評估指標(biāo)是從留存或者短期的 LT 的維度來做的評估,這里的優(yōu)化其實只是在 LT 層級的一維空間上面的優(yōu)化。
而在新的實驗體系里面,把一維優(yōu)化變成了二維優(yōu)化, DNU 神尚 LT 整體得到了提升,這樣策略空間從以前的一維變成了二維,同時在有些場景下是能接受一部分 LT 的損失的。
四、總結(jié)
最后,對新用戶場景下實驗?zāi)芰ㄔO(shè)和實驗評估標(biāo)準(zhǔn)進(jìn)行一下總結(jié)。
- UG 新用戶場景下現(xiàn)有的實驗體系無法完全解決新用戶流量承接策略評估所面臨的問題,需要新的實驗體系。
- 分流 ID 的選擇有幾個標(biāo)準(zhǔn),首先是安全合規(guī),然后是首次啟動即可獲取,再者是在單次安裝周期內(nèi)是穩(wěn)定的,并且跟指標(biāo) ID 是單射的關(guān)系。
- 針對新用戶場景的實驗評估是一個多維優(yōu)化,收益來源于有效的新設(shè)備數(shù)和設(shè)備的留存,而不像以前只評估設(shè)備的留存。
- 針對“新”用戶的承接,往往會有著巨大的業(yè)務(wù)收益。這里的“新”,不光指新的用戶,還包括卸載重裝的用戶。