關(guān)于A/B測(cè)試所要了解的五個(gè)要點(diǎn)
譯文【51CTO.com快譯】本文介紹了關(guān)于A/B測(cè)試所要了解的五個(gè)方面,從適當(dāng)?shù)臉颖敬笮?、統(tǒng)計(jì)置信度到A/B測(cè)試的有用性等。
A/B測(cè)試是一種隨機(jī)試驗(yàn),其中“A”和“B”指2個(gè)變體,用于確定哪個(gè)變體更“有效”。作為網(wǎng)絡(luò)分析中的一種常用工具,A/B測(cè)試并不被每個(gè)人所熟知,包括經(jīng)常使用它的那些人。合理的A /B測(cè)試應(yīng)牢牢扎根于統(tǒng)計(jì)假設(shè)測(cè)試,但情況并非總是如此。
除了假設(shè)測(cè)試外,設(shè)計(jì)、執(zhí)行和解釋A/B測(cè)試結(jié)果時(shí)還存在各種其他問題。不妨參閱本文中介紹的基礎(chǔ)知識(shí)。
本文介紹了關(guān)于A/B測(cè)試的五個(gè)要點(diǎn)。
圖1
1. 別基于少量樣本就做出結(jié)論。
對(duì)于任何對(duì)統(tǒng)計(jì)學(xué)知識(shí)略知一二的人來說,這似乎顯而易見,但是非常重要,值得先來介紹。
A/B測(cè)試的樣本數(shù)量很棘手,不像大多數(shù)人所想或希望的那么簡(jiǎn)單。但這其實(shí)只是與統(tǒng)計(jì)置信度有關(guān)的更大難題的一部分;只有擁有必要的樣本數(shù)量和完成實(shí)驗(yàn)所必需的時(shí)間,才能獲得統(tǒng)計(jì)置信度。合理地試驗(yàn)設(shè)計(jì)將會(huì)考慮預(yù)期的統(tǒng)計(jì)置信度所需的樣本數(shù)量和轉(zhuǎn)換次數(shù),讓試驗(yàn)得以全面展開,而不是因似乎有了成功的結(jié)果而提前停止試驗(yàn)。
可以在此處進(jìn)一步了解樣本大小和計(jì)算A/B測(cè)試統(tǒng)計(jì)置信度的更多信息。
2. 別忽視A/ B測(cè)試的心理因素。
假設(shè)你在搞電子郵件A/B測(cè)試。做好了試驗(yàn)準(zhǔn)備,以便兩個(gè)組有同樣的電子郵件內(nèi)容,但標(biāo)題行不一樣。這些標(biāo)題行變體就是測(cè)試的對(duì)象,由于這些標(biāo)題行在打開郵件之前對(duì)用戶來說是可見的(實(shí)際上用于衡量郵件的有效性),這里要測(cè)試的度量標(biāo)準(zhǔn)顯然是郵件打開率,是不是?
這得看情況。促銷活動(dòng)的目標(biāo)是什么?你是否只對(duì)打開它(或間接地閱讀它)感興趣?更可能的是,目標(biāo)是讓用戶隨后完成某種行為召喚(CTA,比如點(diǎn)擊),因此該CTA即點(diǎn)擊率可能是更準(zhǔn)確的度量標(biāo)準(zhǔn)。
但是打開電子郵件后,已經(jīng)可見的標(biāo)題行如何導(dǎo)致不一樣的點(diǎn)擊率?一切與心理因素有關(guān)。舉個(gè)例子:你的電子郵件旨在促銷數(shù)據(jù)科學(xué)會(huì)議活動(dòng),會(huì)議主角是數(shù)據(jù)科學(xué)超級(jí)明星Jane Q. Public,舉辦地在波士頓。你有2個(gè)可供選用的標(biāo)題行:
- 向***秀的專家學(xué)習(xí)數(shù)據(jù)科學(xué)!
- 與Jane Q. Public一起出席今年11月在波士頓舉辦的2018年數(shù)據(jù)大會(huì)
你已對(duì)這些標(biāo)題設(shè)定了期望,只有其中一個(gè)具有現(xiàn)實(shí)意義。用***個(gè)吸引打開并沒有讓讀者準(zhǔn)備好郵件可能的內(nèi)容,失望或期望未得到滿足的可能性大得多,因此點(diǎn)擊量無疑受到影響。另一方面,第二個(gè)預(yù)期郵件含有實(shí)際的信息,打開的那些人點(diǎn)擊的可能性大得多。
圖2
3. 注意局部最小值;A/B測(cè)試并不適合一切。
A/B測(cè)試解決不了一切,因?yàn)樗⒉贿m合一切。
改變著陸頁可能是良好的A/B測(cè)試,改變網(wǎng)站或表單上的按鈕位置可能是良好的A/B測(cè)試。完整的網(wǎng)站重新設(shè)計(jì)是不是良好的A/B測(cè)試不好說,這取決于如何搞試驗(yàn)。
增量變化通常很適合A/B測(cè)試。但是,增量變化可能無法實(shí)現(xiàn)你想要實(shí)現(xiàn)的目標(biāo),就因?yàn)槟阆氘?dāng)然地以為自己的起點(diǎn)正確。局部最小值將你的產(chǎn)品概念化成一個(gè)數(shù)學(xué)函數(shù),類似于已獲得的設(shè)計(jì)常規(guī)。倘若你沒有考慮到這點(diǎn):如果采用一種更全面的方面來重新設(shè)計(jì)產(chǎn)品,可獲得全局最小值(或甚至更理想的局部最小值),調(diào)整現(xiàn)有產(chǎn)品就毫無價(jià)值。這是多此一舉。
要點(diǎn)是,一頭扎入A/B測(cè)試不是好主意。先確定目標(biāo),一旦你確定A/B測(cè)試可以幫助你實(shí)現(xiàn)目標(biāo),然后再?zèng)Q定試驗(yàn)。之后,設(shè)計(jì)試驗(yàn)。只有這樣才能實(shí)施A/B測(cè)試。
4. 分桶(bucket)是重點(diǎn)。
先不妨考慮在不知道總體(population)中屬性分布的情況下,我們?nèi)绾卧诜峙浞滞爸白钣行У卮_保分桶之間的可比性。
答案很簡(jiǎn)單:隨機(jī)選擇和分桶分配。在不考慮總體任何屬性的情況下,隨機(jī)選擇和分桶分配是一種統(tǒng)計(jì)上合理的方法,假設(shè)可供使用的總體足夠大。
比如說,假設(shè)你在測(cè)試針對(duì)網(wǎng)站功能的改變,只對(duì)來自特定地區(qū)(美國)的響應(yīng)感興趣。先分成兩組(對(duì)照組和處理組),而不考慮用戶區(qū)域(假設(shè)總體足夠大),分配的美國訪客應(yīng)在這兩組之間分派。從這兩個(gè)分桶中,可以檢查訪客屬性以便測(cè)試,比如說:
- if (region == "US" && bucket == "treatment"):
- # do something treatment-related here
- else:
- if (region == "US" && bucket == "control"):
- # do something control-related here
- else:
- # catch-all for non-US (and not relevant to testing scenario)
圖3
第二個(gè)問題是分桶傾斜。以前曾在Etsy參與A/B測(cè)試的數(shù)據(jù)科學(xué)家Emily Robinson寫道:
分桶傾斜(又叫樣本比率不匹配)是指人員在變體之間的分派與你計(jì)劃的不一致。比如說,也許你想在對(duì)照組和處理組之間按50/50分派人員,但幾天后,你發(fā)現(xiàn)40%的人在處理組,60%的人在對(duì)照組。這是個(gè)問題!
如果你有好多用戶,即使看到對(duì)照組中有49.9%的人和處理組中有50.1%的人也可能表明你的試驗(yàn)有問題。想檢查是否有問題,請(qǐng)使用每組中的訪客數(shù)量進(jìn)行比例測(cè)試,看看p值是否小于.05。如果確實(shí)存在分桶傾斜,就有bug。遺憾的是,很難找到這個(gè)bug,但一個(gè)好辦法是查看分桶傾斜是否因Web瀏覽器、國家或另一個(gè)訪客因素而有所不同。
Emily所寫的那篇文章的其余部分也很精彩,建議不妨讀一下。
5. 分析中只包括可能受變化影響的人員。
Emily闡述的第11點(diǎn)探討了這一點(diǎn):
如果你的試驗(yàn)中有用戶的體驗(yàn)沒有受到變化的影響,你是在增加噪音,削弱檢測(cè)效果的能力。
很棒的建議!Emily隨后舉了兩個(gè)直觀的例子:
1. 如果你改變特定頁面的布局,只有在用戶實(shí)際訪問該頁面的情況下才將他們添加到試驗(yàn)中。
2. 如果你嘗試將免費(fèi)發(fā)貨閾值從$ X調(diào)低到$ Y,試驗(yàn)中應(yīng)該只包括購物車商品金額介于$ X和$ Y之間的那些用戶;他們將是處理組與對(duì)照組當(dāng)中唯一看到差異的用戶。
Emily緊接著提出了一個(gè)相關(guān)的建議:只有在用戶訪問相關(guān)網(wǎng)頁后才開始跟蹤你的度量指標(biāo):
設(shè)想你在搜索頁面上運(yùn)行試驗(yàn),有人訪問你的網(wǎng)站,從主頁購物,然后訪問搜索頁面,這時(shí)開始試驗(yàn)。
顯而易見,A/B測(cè)試本身就是一門專業(yè),貿(mào)然開始試驗(yàn)只會(huì)帶來混亂。但愿這五個(gè)簡(jiǎn)單的要點(diǎn)對(duì)你有所幫助。
原文標(biāo)題:5 Things to Know About A/B Testing,作者:Matthew Mayo
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】