自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AB 實(shí)驗(yàn)為何值得信賴?

開(kāi)發(fā)
在線 AB 實(shí)驗(yàn)成為當(dāng)今互聯(lián)網(wǎng)公司中必不可少的數(shù)據(jù)驅(qū)動(dòng)的工具,很多公司把自己的產(chǎn)品來(lái)做一次 AB 實(shí)驗(yàn)作為數(shù)據(jù)驅(qū)動(dòng)的試金石。

1. 前言

在線 AB 實(shí)驗(yàn)成為當(dāng)今互聯(lián)網(wǎng)公司中必不可少的數(shù)據(jù)驅(qū)動(dòng)的工具,很多公司把自己的產(chǎn)品來(lái)做一次 AB 實(shí)驗(yàn)作為數(shù)據(jù)驅(qū)動(dòng)的試金石。

數(shù)據(jù) => 洞察 => 優(yōu)化,循環(huán)往復(fù)尋找最優(yōu)解,尋找增長(zhǎng)的方法。

AB 中有句經(jīng)典的名言:大膽假設(shè),小心求證。

本分享從以下幾個(gè)方面來(lái)介紹:

  1. 數(shù)據(jù)驅(qū)動(dòng)
  2. 基本架構(gòu)
  3. 指標(biāo)選取
  4. 數(shù)據(jù)分析

2. 數(shù)據(jù)驅(qū)動(dòng)

AB 實(shí)驗(yàn)并不是萬(wàn)能的,沒(méi)有 AB 實(shí)驗(yàn)也不是萬(wàn)萬(wàn)不能,但是有了 AB 實(shí)驗(yàn)可以少走很多彎路。

2.1 AB 實(shí)驗(yàn)與數(shù)據(jù)驅(qū)動(dòng)

AB 實(shí)驗(yàn)階段對(duì)應(yīng)數(shù)據(jù)驅(qū)動(dòng)的不同階段,從最基本的設(shè)計(jì)執(zhí)行分析階段到絕大多數(shù)改動(dòng)需要 AB 驗(yàn)證,從簡(jiǎn)單到復(fù)雜,從少量實(shí)驗(yàn)到大規(guī)模實(shí)驗(yàn),正好對(duì)應(yīng)的數(shù)據(jù)驅(qū)動(dòng)從「爬,走,跑,飛」的四個(gè)階段,關(guān)系是層層遞進(jìn)的。

圖片

2.1.1 設(shè)計(jì)執(zhí)行分析階段

設(shè)計(jì)執(zhí)行分析階段主要是:數(shù)據(jù)檢測(cè)設(shè)置和數(shù)據(jù)科學(xué)能力搭建。在 AB 實(shí)驗(yàn)上進(jìn)行多次的實(shí)驗(yàn),從實(shí)驗(yàn)的設(shè)計(jì),指標(biāo)的定義,實(shí)驗(yàn)的開(kāi)啟,實(shí)驗(yàn)結(jié)果的分析,并且找到成功的一些實(shí)驗(yàn)案例有助于我們進(jìn)入到下一階段。?

2.1.2 標(biāo)準(zhǔn)化指標(biāo)階段

標(biāo)準(zhǔn)化指標(biāo)階段主要是:運(yùn)行少量實(shí)驗(yàn)到定義標(biāo)準(zhǔn)指標(biāo)再到開(kāi)啟更多實(shí)驗(yàn)。AB 實(shí)驗(yàn)開(kāi)始運(yùn)行更加復(fù)雜的 case 來(lái)持續(xù)驗(yàn)證數(shù)據(jù)的可行性,并且通過(guò)運(yùn)行 AA 實(shí)驗(yàn)來(lái)驗(yàn)證平臺(tái)潛在的問(wèn)題,同時(shí)能夠進(jìn)行樣本比率偏差檢測(cè)。

2.1.3 大面積實(shí)驗(yàn)AB實(shí)驗(yàn)階段

從上一個(gè)階段的標(biāo)準(zhǔn)化指標(biāo),已經(jīng)可以運(yùn)行大量實(shí)驗(yàn),并且各種指標(biāo)也逐漸相對(duì)成熟,每次實(shí)驗(yàn)進(jìn)行多個(gè)指標(biāo)的權(quán)衡,然后在一個(gè)應(yīng)用上利用 AB 實(shí)驗(yàn)對(duì)絕大多數(shù)的新功能和改動(dòng)做實(shí)驗(yàn)。

2.1.4 絕大多數(shù)改動(dòng)需要AB驗(yàn)證階段

幾乎所有的改動(dòng)都需要經(jīng)過(guò) AB 實(shí)驗(yàn)的驗(yàn)證,可以在沒(méi)有數(shù)據(jù)科學(xué)家的輔助下,可以對(duì)大多數(shù)的實(shí)驗(yàn)進(jìn)行獨(dú)立的分析和運(yùn)作。同時(shí)通過(guò)對(duì)過(guò)去實(shí)驗(yàn)的分析,AB 實(shí)驗(yàn)的有效性和最佳實(shí)踐也能得到不斷的更新。

2.2 數(shù)據(jù)驅(qū)動(dòng)的條件

2.2.1 實(shí)驗(yàn)標(biāo)準(zhǔn)化

數(shù)據(jù)決策肯定是一套標(biāo)準(zhǔn)化的東西來(lái)規(guī)范,實(shí)驗(yàn)標(biāo)準(zhǔn)化也是 AB 數(shù)據(jù)驅(qū)動(dòng)的必備條件。

那什么是 AB 實(shí)驗(yàn)的標(biāo)準(zhǔn)化呢?

圖片

AB 實(shí)驗(yàn)需要注意??辛普森悖論、幸存者偏差、選擇偏差等,注意事項(xiàng)都是來(lái)源于對(duì)撞因子,簡(jiǎn)單來(lái)說(shuō)就是「是指同時(shí)被兩個(gè)以上的變數(shù)影響的變數(shù)」,具體的可以在 google 深入了解一下。

2.2.2 實(shí)驗(yàn)結(jié)果可信性

有數(shù)字容易,讓人信賴的數(shù)字需要下功夫。開(kāi)啟實(shí)驗(yàn)容易,實(shí)驗(yàn)報(bào)告有數(shù)字很容易,這些數(shù)字的可信度,這些數(shù)字讓人信賴更重要,需要花費(fèi)更長(zhǎng)的時(shí)間。

大量實(shí)驗(yàn)中可能只有很小一部分實(shí)驗(yàn),例如微軟大約 30% 的結(jié)果是正向積極的,最終可以發(fā)布到整個(gè)應(yīng)用上。

舉個(gè)例子??:

如果我拋起三枚硬幣,落地分別是正正反,那么我可以說(shuō)拋硬幣正面朝上的概率是三分之二嗎?

概率和頻率并不是一個(gè)東西,同理,少數(shù)幾次 AB 實(shí)驗(yàn)的結(jié)果也不能證明版本 A 和版本 B 的優(yōu)劣。

我們需要統(tǒng)計(jì)學(xué)上的嚴(yán)格論證和計(jì)算,來(lái)判斷一個(gè)實(shí)驗(yàn)結(jié)果是否顯著,是否可信。

2.2.3 如何衡量好的想法

對(duì)于任何一個(gè)想法我們很難去衡量它的好壞,大膽假設(shè)小心求證。短期目標(biāo)可能會(huì)與更關(guān)鍵的長(zhǎng)期目標(biāo)發(fā)生沖突。

舉個(gè)例子??:

一家超市突然提高價(jià)格,可能會(huì)在短期帶來(lái)更高利潤(rùn)。但長(zhǎng)遠(yuǎn)看,如果更多的顧客改從競(jìng)爭(zhēng)對(duì)手那里購(gòu)買(mǎi)商品,那么這家店的收入就會(huì)減少。

新奇效應(yīng)如何避免?

對(duì)于用戶有感知的 A/B Test,如 UI 改版、新的運(yùn)營(yíng)方案、新功能上線等,實(shí)驗(yàn)組做的任何改變都可能引起用戶的注意,好奇心驅(qū)使他們先體驗(yàn)一番,從而導(dǎo)致 A/B Test 中實(shí)驗(yàn)組效果一開(kāi)始優(yōu)于對(duì)照組,p-value 極小,實(shí)驗(yàn)效果非常顯著。但是一段時(shí)間過(guò)去后,用戶對(duì)于新的改版不再敏感,實(shí)驗(yàn)組效果回落,顯著性可能會(huì)下降,最后趨于穩(wěn)定。足夠的樣本量能保證一個(gè)合理的實(shí)驗(yàn)周期,可以使用我們的流量計(jì)算器中計(jì)算流量和實(shí)驗(yàn)周期,從而避免這種新奇效應(yīng)的影響。

3. 基本架構(gòu)

AB 實(shí)驗(yàn)的思想非常簡(jiǎn)單直觀,但是并不是代表做 AB 實(shí)驗(yàn)是一種很簡(jiǎn)單容易的事情。

舉個(gè)例子??,在網(wǎng)站實(shí)現(xiàn)一個(gè) AB 實(shí)驗(yàn),主要涉及到 2 分部分:

第 1 個(gè)是:隨機(jī)算法,作用是將 users 映射到不同實(shí)驗(yàn)組中。

第 2 個(gè)是:分配方法,隨機(jī)算法的結(jié)果來(lái)決定每一個(gè)用戶是否看到該網(wǎng)站的實(shí)驗(yàn)。

3.1 流量分割

流量分割的方式:分流和分層。

每個(gè)獨(dú)立實(shí)驗(yàn)為一層,層與層之間流量是正交的(簡(jiǎn)單來(lái)講,就是一份流量穿越每層實(shí)驗(yàn)時(shí),都會(huì)再次隨機(jī)打散,且隨機(jī)效果離散)。實(shí)驗(yàn)在同一層拆分流量,不論如何拆分,不同組的流量是不重疊的。

圖片

3.1.1 分流

分流是指我們直接將整體用戶切割為幾塊,用戶只能在一個(gè)實(shí)驗(yàn)中。但是這種情況很不現(xiàn)實(shí),因?yàn)槿绻乙瑫r(shí)上線多個(gè)實(shí)驗(yàn),流量不夠切怎么辦?那為了達(dá)到最小樣本量,我們就得延長(zhǎng)實(shí)驗(yàn)周期,要是做一個(gè)實(shí)驗(yàn),要幾個(gè)月。

簡(jiǎn)單來(lái)說(shuō):分流是指對(duì)流量進(jìn)行整體切割,實(shí)驗(yàn)之間互斥。

目的:為了獲取純凈的分區(qū),不會(huì)互相影響。

缺點(diǎn):浪費(fèi)流量,導(dǎo)致流量不夠。

3.1.2 分層

就是將同一批用戶,不停的隨機(jī)后,處于不同的桶。也就是說(shuō),一個(gè)用戶會(huì)處于多個(gè)實(shí)驗(yàn)中,只要實(shí)驗(yàn)之間不相互影響,我們就能夠無(wú)限次的切割用戶。這樣在保證了每個(gè)實(shí)驗(yàn)都能用全流量切割的同時(shí),也保證了實(shí)驗(yàn)數(shù)據(jù)是置信的。

簡(jiǎn)單來(lái)說(shuō):對(duì)整體流量分流分層。

目的:同一個(gè)用戶在不同的實(shí)驗(yàn)組,相互不會(huì)影響。

缺點(diǎn):不同層之間的 hash 值盡量不要重合。

3.2 如何看待隨機(jī)單元?

什么是隨機(jī)單元呢?簡(jiǎn)單來(lái)說(shuō),隨機(jī)單元就是 AB 實(shí)驗(yàn)需要達(dá)到隨機(jī)的最小單元。一個(gè) web 網(wǎng)站中,最小單元可能是頁(yè)面級(jí)別,可能是會(huì)話級(jí)別,或者是用戶級(jí)別。

舉個(gè)例子??:

我們選擇頁(yè)面級(jí)別的隨機(jī)單元,AB 實(shí)驗(yàn)針對(duì)某一個(gè)頁(yè)面,用戶每一次打開(kāi)頁(yè)面的時(shí)候決定把該用戶導(dǎo)向某一個(gè)實(shí)驗(yàn)組。

最簡(jiǎn)單的情況就是:隨機(jī)單元和分析單元是一致的。我們大多數(shù)情況也是將隨機(jī)單元和分析單元采用用戶級(jí)別。兩種單元不一致可能使得實(shí)驗(yàn)分析變得更加復(fù)雜。

3.3 隨機(jī)算法

首先什么是隨機(jī)數(shù)?不確定的數(shù)。

大多數(shù)隨機(jī)算法使用的是偽數(shù)字生成器。

那什么是偽數(shù)字生成器?一個(gè)生產(chǎn)數(shù)字序列的算法,特征近似隨機(jī)數(shù)序列的特性。偽隨機(jī)數(shù)生成器通常接受一個(gè)隨機(jī)種子(seed) 用來(lái)初始化生成器的初始狀態(tài)。

按照密碼學(xué)來(lái)將「隨機(jī)」分為三種級(jí)別:

1. 偽隨機(jī) (PRNG) 2. 密碼學(xué)安全的偽隨機(jī) (CSPRNG) 3. 真隨機(jī) (TRNG)

圖片

偽隨機(jī) PRNG 生成的序列并不是真隨機(jī)。它完全是由一個(gè)初始值決定,初始值稱為隨機(jī)種子(seed)。接近于真隨機(jī)序列可以通過(guò)硬件隨機(jī)數(shù)生成器生成。但是偽隨機(jī)數(shù)生成器因?yàn)槠渖伤俣群涂稍佻F(xiàn)的優(yōu)勢(shì),實(shí)踐中也很重要。

尋找一個(gè)合適的隨機(jī)算法是非常重要的。

一個(gè)實(shí)驗(yàn)的每一個(gè) variant (實(shí)驗(yàn)組或?qū)φ战M)都具有關(guān)于 users 的一個(gè)隨機(jī)抽樣。隨機(jī)算法必須有一些特征。特征如下:

  • 特征(1):用戶必須等可能看到一個(gè)實(shí)驗(yàn)的每個(gè) variant,對(duì)于任意的 variant 必須是無(wú)偏的。
  • 特征(2):同一個(gè)實(shí)驗(yàn)中,對(duì)于單個(gè) user 重復(fù)分配必須是一致的,對(duì)于該用戶每次后續(xù)訪問(wèn)中,該 user 必須被分配到相同的 variant 上。
  • 特征(3):當(dāng)多個(gè)實(shí)驗(yàn)同時(shí)并行運(yùn)行的時(shí)候,實(shí)驗(yàn)之間必須沒(méi)有關(guān)聯(lián)關(guān)系。也就是在一個(gè)實(shí)驗(yàn)中,一個(gè) user 被分配到一個(gè) variant,對(duì)于被分配給其他任意實(shí)驗(yàn)的一個(gè) variant,在概率上沒(méi)有影響。
  • 特征(4):算法必須支持單調(diào)遞增的,也就是說(shuō),如果沒(méi)有對(duì)那些已經(jīng)被分配給實(shí)驗(yàn)組的用戶分配進(jìn)行變更,用戶看到一個(gè)實(shí)驗(yàn)組的百分比可能會(huì)緩慢增加的。

3.3.1 使用 caching 的偽隨機(jī)

偽隨機(jī)數(shù)的隨機(jī)性可以用它的統(tǒng)計(jì)特性來(lái)衡量,主要特征是每個(gè)數(shù)出現(xiàn)的可能性和它出現(xiàn)時(shí)與數(shù)序中其他數(shù)的關(guān)系。

偽隨機(jī)數(shù)的優(yōu)點(diǎn)是它的計(jì)算比較簡(jiǎn)單,而且只使用少數(shù)的數(shù)值很難推斷出它的計(jì)算算法。

使用 caching 緩存,可以使用標(biāo)準(zhǔn)偽數(shù)字生成器作為隨機(jī)算法,一個(gè)好的偽數(shù)字生成器會(huì)滿足特征(1)和特征(3)。

對(duì)于特征(2),需要引入狀態(tài),用戶的分配必須被緩存,或者緩存完成可以是數(shù)據(jù)庫(kù)存儲(chǔ),便于下次再次訪問(wèn)應(yīng)用。

3.3.2 Hash 和分區(qū)

不同于偽隨機(jī)方法,hash 和分區(qū)是無(wú)狀態(tài)的,每一個(gè) user 都會(huì)被分配一個(gè)唯一的 user_unique_id,使用 ssid 和 webid (或者其他)來(lái)維持。user_unique_id 會(huì)和實(shí)驗(yàn)的 id 進(jìn)行映射綁定,接著 user_unique_id 和實(shí)驗(yàn) id 使用 hash 函數(shù)來(lái)獲得一個(gè)整數(shù),整數(shù)的范圍是均勻分布的。

hash 函數(shù)的選取需要注意??,如果 hash 函數(shù)有漏斗(那些相鄰 key 的實(shí)例會(huì)映射到相同的 hash code),會(huì)造成均勻分布的沖突,如果 hash 函數(shù)有特性(某一個(gè) key 變動(dòng)會(huì)產(chǎn)生一個(gè) hash code 上可預(yù)測(cè)的變動(dòng)),會(huì)造成實(shí)驗(yàn)之間會(huì)發(fā)生相關(guān)。

「加密 hash 函數(shù) MD5 」生成的數(shù)據(jù)在實(shí)驗(yàn)間沒(méi)有相關(guān)性。其實(shí)還可以關(guān)注「大質(zhì)數(shù)素?cái)?shù) hash 算法」等更加精密優(yōu)良的算法。

3.4 實(shí)驗(yàn)灰度發(fā)布

實(shí)驗(yàn)發(fā)布是一個(gè)容易忽略但又非常重要的步驟,從比較小的流量慢慢發(fā)布到相對(duì)比較大的流量,直到最后全站發(fā)布。這個(gè)過(guò)程是需要自動(dòng)化和風(fēng)險(xiǎn)控制相結(jié)合。

我們經(jīng)常的做法就是:

  • 實(shí)驗(yàn)發(fā)布之后,還可以預(yù)留一些流量來(lái)衡量實(shí)驗(yàn)的長(zhǎng)期效果。
  • 還可以重復(fù)發(fā)布某一個(gè)實(shí)驗(yàn),看實(shí)驗(yàn)的結(jié)果是否可以保持。

4. 指標(biāo)選取

選取什么指標(biāo)來(lái)進(jìn)行檢測(cè),從而更好的幫助我們進(jìn)行數(shù)據(jù)驅(qū)動(dòng)決策。

對(duì)于一個(gè)應(yīng)用或者產(chǎn)品來(lái)說(shuō),可能會(huì)有很多指標(biāo)的選擇,哪些指標(biāo)需要被重點(diǎn)關(guān)注,哪些僅僅是關(guān)注,哪些是可以不關(guān)注。為什么要定義這個(gè)指標(biāo),這個(gè)指標(biāo)的定義是為了說(shuō)明什么情況,如果這個(gè)指標(biāo)發(fā)生變化,將需要怎么去解釋它。

4.1 指標(biāo)特性

選取什么指標(biāo)來(lái)進(jìn)行檢測(cè),從而更好的幫助我們進(jìn)行數(shù)據(jù)驅(qū)動(dòng)決策。

圖片

對(duì)于一個(gè)應(yīng)用或者產(chǎn)品來(lái)說(shuō),可能會(huì)有很多指標(biāo)的選擇,哪些指標(biāo)需要被重點(diǎn)關(guān)注,哪些僅僅是關(guān)注,哪些是可以不關(guān)注。為什么要定義這個(gè)指標(biāo),這個(gè)指標(biāo)的定義是為了說(shuō)明什么情況,如果這個(gè)指標(biāo)發(fā)生變化,將需要怎么去解釋它。

4.1.1  按照實(shí)驗(yàn)的角度來(lái)劃分

核心指標(biāo):需要優(yōu)化的目標(biāo)指標(biāo),決定這個(gè)實(shí)驗(yàn)的最終發(fā)展方向。這種指標(biāo)在一個(gè)實(shí)驗(yàn)是非常少的,在運(yùn)行之后是不做改變的。

非核心指標(biāo)指標(biāo):與核心指標(biāo)有因果關(guān)系的+基礎(chǔ)數(shù)據(jù)的指標(biāo),基礎(chǔ)數(shù)據(jù)的指標(biāo)是應(yīng)用運(yùn)行的底線。

4.1.2 指標(biāo)敏感性和魯棒性

指標(biāo)敏感性:指標(biāo)對(duì)所關(guān)心的事物是否足夠敏感。

指標(biāo)魯棒性:指標(biāo)對(duì)不關(guān)心的事物是否足夠不敏感。

可以通過(guò)預(yù)先小規(guī)模試驗(yàn)來(lái)驗(yàn)證,或者 AA 試驗(yàn)來(lái)排除偽關(guān)系。

4.1.3 指標(biāo)分類(lèi)

  • 計(jì)數(shù)或者求和(比如:訪問(wèn)頁(yè)面的用戶數(shù))。
  • 指標(biāo)分布的平均數(shù),中位數(shù),百分位。
  • 概率與比率。
  • 比例。

4.2 自頂向下設(shè)計(jì)指標(biāo)

  • 高層次的指標(biāo)(比如:活躍用戶數(shù),點(diǎn)擊轉(zhuǎn)化率 CTR 等等)。
  • 指標(biāo)細(xì)節(jié)(比如:如何定義用戶活躍)。
  • 使用一組指標(biāo),并將它們整合成一個(gè)單一指標(biāo)(比如:總體評(píng)價(jià)指標(biāo) OEC )。

總體評(píng)價(jià)指標(biāo) OEC :如果是使用一套指標(biāo),可以把他們聚合成一個(gè)指標(biāo),比如構(gòu)造一個(gè)目標(biāo)函數(shù),或者是簡(jiǎn)單的加權(quán)指標(biāo)。比如 OEC = A * 0.6 + B * 04 + C * 2 。

現(xiàn)在我們的策略是指標(biāo),還是獨(dú)立去觀測(cè)。那為啥不使用 OEC 來(lái)看指標(biāo)呢?通過(guò) OEC 看的指標(biāo)不能單獨(dú)觀測(cè)多個(gè)指標(biāo),對(duì)于新手小白比較友好,只需要關(guān)注 OEC,不需要關(guān)注多個(gè)指標(biāo)的數(shù)據(jù),但是并不能真的反應(yīng)多個(gè)指標(biāo)的真實(shí)情況。

舉個(gè)例子??:

點(diǎn)擊率的定義:

  • 定義一:登陸后總點(diǎn)擊次數(shù) / 登陸后的去重后的訪問(wèn)總數(shù)
  • 定義二:被點(diǎn)擊的頁(yè)面數(shù) / 總頁(yè)面數(shù)
  • 定義三:總的頁(yè)面點(diǎn)擊次數(shù) / 總頁(yè)面數(shù)

5. 數(shù)據(jù)分析

圖片

有了 AB 實(shí)驗(yàn),并且有實(shí)驗(yàn)指標(biāo)選取之后,實(shí)驗(yàn)結(jié)果的分析就成為一件非常重要而且有挑戰(zhàn)的事情。

產(chǎn)生一組數(shù)據(jù)很容易,但是從數(shù)據(jù)中分析得到實(shí)驗(yàn)的洞察(Insight)并不簡(jiǎn)單。

5.1 實(shí)驗(yàn)結(jié)果顯著

上面有說(shuō)到實(shí)驗(yàn)結(jié)果的可信度,接下來(lái)詳細(xì)來(lái)介紹。

說(shuō)到實(shí)驗(yàn)結(jié)果是否顯著,我們需要知道統(tǒng)計(jì)學(xué)中 2 類(lèi)統(tǒng)計(jì)錯(cuò)誤,我們簡(jiǎn)單說(shuō)明一下,這里我們不展開(kāi)說(shuō)。

5.1.1 兩類(lèi)統(tǒng)計(jì)學(xué)錯(cuò)誤

在統(tǒng)計(jì)學(xué)的世界里,我們往往只說(shuō)概率,不說(shuō)確定,在現(xiàn)實(shí)世界中往往只能基于樣本進(jìn)行推斷。在 AB 實(shí)驗(yàn)中,我們 不知道真實(shí)情況是什么,因此做假設(shè)檢驗(yàn)的時(shí)候就會(huì)犯錯(cuò)誤,這種錯(cuò)誤可以劃分為兩類(lèi):

  • 這是第一類(lèi)錯(cuò)誤:實(shí)際沒(méi)有區(qū)別,但實(shí)驗(yàn)結(jié)果表示有區(qū)別,我們得到顯著結(jié)果因此否定原假設(shè),認(rèn)為實(shí)驗(yàn)組更優(yōu),發(fā)生的概率用 ?? 表示。
  • 這是第二類(lèi)錯(cuò)誤:實(shí)際有區(qū)別,但是實(shí)際結(jié)果表示沒(méi)有區(qū)別,我們得到不顯著的結(jié)果因此無(wú)法拒絕原假設(shè),認(rèn)為實(shí)驗(yàn)組和對(duì)照組沒(méi)有區(qū)別,發(fā)生的概率用?? 表示。

理想狀態(tài)下當(dāng)然是希望可以同時(shí)控制這兩類(lèi)錯(cuò)誤,但是這是不可能的,兩個(gè)概率值之間是負(fù)向關(guān)系,其中一個(gè)值的減少必然伴隨著另一個(gè)值的增大,為什么呢?后續(xù)有機(jī)會(huì)再分享。

5.1.2 顯著和可信的判斷

是否顯著,是否可信,我們可以通過(guò)以下幾種因素來(lái)判斷:?

(1)p 值。展示該指標(biāo)在實(shí)驗(yàn)中犯第一類(lèi)錯(cuò)誤的概率,該概率小于顯著性水平 α ,統(tǒng)計(jì)學(xué)中稱為顯著, 1-α 為置信度或置信水平。

  • 簡(jiǎn)單來(lái)說(shuō):p 值判斷不同版本的實(shí)驗(yàn)結(jié)果之間不存在顯著差異的概率。
  • p-value 越小越可信,有顯著差異的指標(biāo),P-value=0.01 的比 P-value=0.05 的可信度更高。
  • p 值基本上還有另一個(gè)相對(duì)應(yīng)的叫作 t 值,這個(gè) p 值其實(shí)就是在 t 分布下 ≥t 值的概率密度值 (P(x≥t))。

圖片

通常情況下:

p 值 > α(顯著水平α,α 值一般 5%) ,說(shuō)明 A 版本和 B 版本沒(méi)有太大差別,不存在顯著性差異。

p 值 < α(顯著水平,α 值一般 5%),說(shuō)明 A 版本和 B 版本有很大的差別,存在顯著性差異。

我們根據(jù)判斷 p 值和第一類(lèi)錯(cuò)誤概率 α 比較,已經(jīng)做了決策。是不是覺(jué)得大功告成,不,我們可以繼續(xù)考慮 power 統(tǒng)計(jì)功效來(lái)衡量實(shí)驗(yàn)的可信。也就是我們要同時(shí)考慮第二類(lèi)錯(cuò)誤概率,這時(shí)候引入 power 統(tǒng)計(jì)功效。

(2)power 統(tǒng)計(jì)功效(1 - ??)。實(shí)驗(yàn)?zāi)苷_做出存在差異判斷的概率。

  • 可以理解為有多少的把握認(rèn)為版本之間有差別。
  • 該值越大則表示概率越大、功效越充分。
  • 一般來(lái)說(shuō),我們一般并設(shè)置的最低的統(tǒng)計(jì)功效值為 80% 以上。認(rèn)為這樣的可信度是可以接受的。

舉個(gè)例子??:

實(shí)驗(yàn) A 顯示,power(統(tǒng)計(jì)功效)為 92%,那么就可以理解為有 92% 的把握認(rèn)為版本 A 和版本 B 之間是有差別的。

但是 power 根本算不出來(lái),power 作為需要滿足的前提條件,作為先驗(yàn)的輸入值。

  • 實(shí)驗(yàn)開(kāi)啟前,通過(guò)流量計(jì)算器中計(jì)算流量和實(shí)驗(yàn)運(yùn)行時(shí)長(zhǎng)。
  • 實(shí)驗(yàn)開(kāi)啟后,通過(guò) power=80%,然后計(jì)算 MDE。

(3)MDE 檢驗(yàn)靈敏度,能有效檢驗(yàn)出指標(biāo)置信度的 diff 幅度。

通過(guò)比較指標(biāo) MDE 與指標(biāo)的目標(biāo)提升率來(lái) 判斷不顯著的結(jié)論是否 solid,可以避免實(shí)驗(yàn)在靈敏度不足的情況下被過(guò)早作出非顯著結(jié)論而結(jié)束,錯(cuò)失有潛力的 feature。

MDE 越小,說(shuō)明當(dāng)前的實(shí)驗(yàn)靈敏度越高, 并且可以認(rèn)為:實(shí)驗(yàn)組相比于對(duì)照組,只有高于 MDE 的提升才能大概率檢測(cè)出效果顯著。小于 MDE 的提升,大概率不會(huì)被檢測(cè)出顯著。

  • 當(dāng)前條件:指當(dāng)前樣本量,指標(biāo)值和指標(biāo)分布情況,并假設(shè)樣本方差與總體指標(biāo)方差足夠接近。
  • 有效檢測(cè):指檢出概率大于等于 80%(也就是犯第二類(lèi)錯(cuò)誤概率 ?? <=20%)
  • 主要影響因素:樣本量大小

舉個(gè)例子??

假設(shè)你對(duì)該指標(biāo)的預(yù)期目標(biāo)提升率為 1%。

  • 如果此時(shí) MDE = 0.5%,MDE < 預(yù)期提升值,說(shuō)明指標(biāo)變化真的不顯著,請(qǐng)結(jié)合業(yè)務(wù) ROI 和其他維度里例如用戶體驗(yàn)、長(zhǎng)期戰(zhàn)略價(jià)值等來(lái)綜合判斷是否值得上線。
  • 如果那此時(shí) MDE = 2%,MDE > 預(yù)期提升值,說(shuō)明當(dāng)前能檢驗(yàn)出顯著性的最小差異值是 2%,由于靈敏度不足未能檢測(cè)出。這種情況下建議增大樣本量, 例如擴(kuò)大流量、再觀察一段時(shí)間積累更多進(jìn)組用戶,指標(biāo)還有置信的可能。

(4)置信區(qū)間。置信區(qū)間就是用來(lái)對(duì)一個(gè)概率樣本的總體參數(shù)的進(jìn)行區(qū)間估計(jì)的樣本均值范圍。一般來(lái)說(shuō),我們使用 95% 的置信水平來(lái)進(jìn)行區(qū)間估計(jì)。

置信區(qū)間可以輔助確定版本間是否有存在顯著差異的可能性:

  • 如果置信區(qū)間上下限的值同為正或負(fù),認(rèn)為存在有顯著差異的可能性。
  • 如果同時(shí)正負(fù)值,那么則認(rèn)為不存在有顯著差異的可能性。

在火山引擎 AB 測(cè)試的實(shí)驗(yàn)報(bào)告中,指標(biāo)分析的詳細(xì)視圖中有個(gè)值叫相對(duì)差,該值就是指標(biāo)變化的點(diǎn)估計(jì)值,而置信區(qū)間給出的是指標(biāo)預(yù)期變化的區(qū)間估計(jì)值,區(qū)間估計(jì)值有更大的可能性覆蓋到指標(biāo)相對(duì)變化的真實(shí)值。(假設(shè)做 100 次實(shí)驗(yàn),有 95 次算出的置信區(qū)間包含了真實(shí)值)。

可以這樣簡(jiǎn)單但不嚴(yán)謹(jǐn)?shù)亟庾x置信區(qū)間 :假設(shè)策略全量上線,你有 95% 的把握會(huì)看到真實(shí)的指標(biāo)收益在 置信區(qū)間 這個(gè)范圍內(nèi)。?

5.1.3 決策流程

圖片

5.2 多次測(cè)試

簡(jiǎn)單的說(shuō):傳統(tǒng)的假設(shè)檢驗(yàn)的設(shè)置是對(duì)需要檢測(cè)的「假設(shè)」進(jìn)行唯一測(cè)試,然后計(jì)算 p 值。我們有 5% 的概率觀測(cè)到某一個(gè)并沒(méi)有實(shí)際變化的“指標(biāo)”顯得有統(tǒng)計(jì)意義上的顯著變化。

現(xiàn)實(shí)中,對(duì)于同一個(gè)實(shí)驗(yàn),我們通過(guò) AB 實(shí)驗(yàn)反復(fù)觀察結(jié)果,或者反復(fù)針對(duì)同一個(gè)想法進(jìn)行迭代。

出現(xiàn)更嚴(yán)重的問(wèn)題就是:我們針對(duì)同一個(gè)實(shí)驗(yàn),常常同時(shí)觀測(cè)幾十個(gè)或者上百個(gè)指標(biāo),導(dǎo)致出現(xiàn)多次實(shí)驗(yàn)的問(wèn)題,大大增加了觀測(cè)并不該有顯著變化的指標(biāo)有了統(tǒng)計(jì)意義變化的概率。

5.3 方差的計(jì)算

t檢測(cè)中我們需要對(duì)數(shù)據(jù)的方法進(jìn)行計(jì)算。有時(shí)候我們的“方差”計(jì)算是有問(wèn)題的,之前有說(shuō)到的「隨機(jī)單元」和「分析單元」不一致的情況下,計(jì)算比率型的指標(biāo),比如點(diǎn)擊率。

我們來(lái)看一個(gè)場(chǎng)景:經(jīng)常我們的「隨機(jī)單元」是用戶級(jí)別的,然而我們希望計(jì)算的是一些頁(yè)面級(jí)別的點(diǎn)擊率,然后看對(duì)照組和實(shí)驗(yàn)組之間的差別的,這個(gè)時(shí)候就存在「隨機(jī)單元」和「分析單元」不一致的問(wèn)題,傳統(tǒng)的計(jì)算點(diǎn)擊率的「方差」公式可能存在問(wèn)題。

5.4 樣本比率偏差

在理想的狀態(tài)下,對(duì)照組和實(shí)驗(yàn)組的流量是一半一半的,也就是 50% 的進(jìn)入到對(duì)照組,50% 的進(jìn)入到實(shí)驗(yàn)組。但是現(xiàn)實(shí)是殘酷的,比如會(huì)出現(xiàn) 50.27% 的用戶進(jìn)入到對(duì)照組,另外 49.73% 的用戶進(jìn)入到實(shí)驗(yàn)組。

這種情況正常嗎?我們還信任這樣的實(shí)驗(yàn)結(jié)果嗎?

這樣情況的排查和分析。簡(jiǎn)單的說(shuō),我們需要把這樣的分流結(jié)果當(dāng)作假設(shè)檢驗(yàn),看這樣的結(jié)果是否異常。

5.5 AA 實(shí)驗(yàn)

AA 實(shí)驗(yàn)往往作為檢測(cè)平臺(tái)穩(wěn)定性和實(shí)驗(yàn)設(shè)置是否正確的重要手段。

總是有人想著做「AA」實(shí)驗(yàn),為什么會(huì)這樣呢?說(shuō)到底還是對(duì)于 AB 實(shí)驗(yàn)存在疑慮和不信賴。大多數(shù)想做 AA 實(shí)驗(yàn)的目的主要是:驗(yàn)證用戶分流是否“均勻”;比較“ AA 組內(nèi)差異”和“ AB 組間差異”。

其實(shí) AA 實(shí)驗(yàn)中的指標(biāo)差異顯著/置信并不代表分流不科學(xué),AA 實(shí)驗(yàn)的指標(biāo)必然存在差異,并且指標(biāo)差異可能還不小,AA 差異可能“顯著”。

也就是說(shuō),對(duì) AB 系統(tǒng)本身進(jìn)行測(cè)試,以確保系統(tǒng)在 95% 的時(shí)間內(nèi)正確識(shí)別出沒(méi)有統(tǒng)計(jì)學(xué)意義上的顯著差異。

5.6 對(duì)照組和實(shí)驗(yàn)組之間干涉

傳統(tǒng)的實(shí)驗(yàn)我們假設(shè)對(duì)照組和實(shí)驗(yàn)組是完全隔絕的,然后實(shí)際中,完全的隔離是不可能的。

舉個(gè)例子??:

社招網(wǎng)絡(luò)中,朋友與朋友的關(guān)系,我們按照傳統(tǒng)的隨機(jī)劃分流量的方法,可能一個(gè)用戶在對(duì)照組,他的朋友在實(shí)驗(yàn)組,這樣這個(gè)用戶可能接觸到對(duì)照組的一些信息,從而違背了假設(shè)檢驗(yàn)的一系列基本假設(shè)。

5.7 指標(biāo)的長(zhǎng)期效果

有一些“指標(biāo)”的效果在 A/B 實(shí)驗(yàn)之后,可能會(huì)出現(xiàn)一些“惡化”,也就是說(shuō),效果可能沒(méi)有之前那么明顯了,甚至?xí)霈F(xiàn)效果完全消失。

如果遇到短期效果與長(zhǎng)期效果可能出現(xiàn)不一致的情況,建議延長(zhǎng)測(cè)試時(shí)間,觀察長(zhǎng)期效果。

但是長(zhǎng)期存在一些問(wèn)題:

(1)用戶唯一標(biāo)識(shí)(比如:ssid)跳變的情況,進(jìn)行實(shí)驗(yàn)時(shí)候,通過(guò)隨機(jī)分配的 ssid,進(jìn)行確定用戶身份,但是用戶可以在瀏覽器中修改 localstorage 中的 ssid,保持一個(gè)穩(wěn)定的樣本幾乎不可能,實(shí)驗(yàn)進(jìn)行的越久,問(wèn)題越嚴(yán)重。

(2)幸存者偏差的情況,過(guò)度關(guān)注幸存者,忽略沒(méi)有幸存的而造成錯(cuò)誤結(jié)論。

(3)選擇偏差的情況,由于 ssid 跳變,只有登陸的用戶組成,不具備代表性。

6. 總結(jié)

圖片

7. 參考

  1. https://www.cambridge.org/core/books/trustworthy-online-controlled-experiments/D97B26382EB0EB2DC2019A7A7B518F59
  2. https://stats.stackexchange.com/a/354377/320904
責(zé)任編輯:未麗燕 來(lái)源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2018-08-16 12:25:00

實(shí)驗(yàn)室

2009-06-10 18:15:36

電腦下鄉(xiāng)家電下鄉(xiāng)

2024-02-02 08:12:40

AB實(shí)驗(yàn)雙盲測(cè)試搜索實(shí)驗(yàn)

2012-05-10 16:32:01

Hadoop

2011-07-20 09:32:05

紅帽Enterprise

2023-11-06 10:59:20

云計(jì)算IT行業(yè)

2018-12-24 09:54:38

2022-07-31 20:29:28

日志系統(tǒng)測(cè)

2023-09-06 18:37:21

可視化數(shù)倉(cāng)平臺(tái)

2011-08-18 12:47:27

cso綠盟

2017-01-13 09:55:00

2018-07-27 12:27:00

佳能

2011-08-16 13:27:15

2017-01-06 10:39:28

星域CDNCDN

2022-01-17 13:43:36

物聯(lián)網(wǎng)

2021-12-02 19:39:04

微軟EdgeChrome

2020-09-16 10:37:10

人工智能AI技術(shù)

2022-04-07 10:40:38

宏杉科技

2010-11-17 16:28:45

IT服務(wù)運(yùn)維管理銳捷網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)