自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于A/B測(cè)試所要了解的五個(gè)要點(diǎn)

譯文
開發(fā) 測(cè)試
本文介紹了關(guān)于A/B測(cè)試所要了解的五個(gè)方面,從適當(dāng)?shù)臉颖敬笮 ⒔y(tǒng)計(jì)置信度到A/B測(cè)試的有用性等。

【51CTO.com快譯】本文介紹了關(guān)于A/B測(cè)試所要了解的五個(gè)方面,從適當(dāng)?shù)臉颖敬笮?、統(tǒng)計(jì)置信度到A/B測(cè)試的有用性等。

A/B測(cè)試是一種隨機(jī)試驗(yàn),其中“A”和“B”指2個(gè)變體,用于確定哪個(gè)變體更“有效”。作為網(wǎng)絡(luò)分析中的一種常用工具,A/B測(cè)試并不被每個(gè)人所熟知,包括經(jīng)常使用它的那些人。合理的A /B測(cè)試應(yīng)牢牢扎根于統(tǒng)計(jì)假設(shè)測(cè)試,但情況并非總是如此。

除了假設(shè)測(cè)試外,設(shè)計(jì)、執(zhí)行和解釋A/B測(cè)試結(jié)果時(shí)還存在各種其他問題。不妨參閱本文中介紹的基礎(chǔ)知識(shí)。

本文介紹了關(guān)于A/B測(cè)試的五個(gè)要點(diǎn)。

關(guān)于A/B測(cè)試所要了解的五個(gè)要點(diǎn)

圖1

1. 別基于少量樣本就做出結(jié)論。

對(duì)于任何對(duì)統(tǒng)計(jì)學(xué)知識(shí)略知一二的人來說,這似乎顯而易見,但是非常重要,值得先來介紹。

A/B測(cè)試的樣本數(shù)量很棘手,不像大多數(shù)人所想或希望的那么簡(jiǎn)單。但這其實(shí)只是與統(tǒng)計(jì)置信度有關(guān)的更大難題的一部分;只有擁有必要的樣本數(shù)量和完成實(shí)驗(yàn)所必需的時(shí)間,才能獲得統(tǒng)計(jì)置信度。合理地試驗(yàn)設(shè)計(jì)將會(huì)考慮預(yù)期的統(tǒng)計(jì)置信度所需的樣本數(shù)量和轉(zhuǎn)換次數(shù),讓試驗(yàn)得以全面展開,而不是因似乎有了成功的結(jié)果而提前停止試驗(yàn)。

可以在此處進(jìn)一步了解樣本大小和計(jì)算A/B測(cè)試統(tǒng)計(jì)置信度的更多信息。

2. 別忽視A/ B測(cè)試的心理因素。

假設(shè)你在搞電子郵件A/B測(cè)試。做好了試驗(yàn)準(zhǔn)備,以便兩個(gè)組有同樣的電子郵件內(nèi)容,但標(biāo)題行不一樣。這些標(biāo)題行變體就是測(cè)試的對(duì)象,由于這些標(biāo)題行在打開郵件之前對(duì)用戶來說是可見的(實(shí)際上用于衡量郵件的有效性),這里要測(cè)試的度量標(biāo)準(zhǔn)顯然是郵件打開率,是不是?

這得看情況。促銷活動(dòng)的目標(biāo)是什么?你是否只對(duì)打開它(或間接地閱讀它)感興趣?更可能的是,目標(biāo)是讓用戶隨后完成某種行為召喚(CTA,比如點(diǎn)擊),因此該CTA即點(diǎn)擊率可能是更準(zhǔn)確的度量標(biāo)準(zhǔn)。

但是打開電子郵件后,已經(jīng)可見的標(biāo)題行如何導(dǎo)致不一樣的點(diǎn)擊率?一切與心理因素有關(guān)。舉個(gè)例子:你的電子郵件旨在促銷數(shù)據(jù)科學(xué)會(huì)議活動(dòng),會(huì)議主角是數(shù)據(jù)科學(xué)超級(jí)明星Jane Q. Public,舉辦地在波士頓。你有2個(gè)可供選用的標(biāo)題行:

  • 向***秀的專家學(xué)習(xí)數(shù)據(jù)科學(xué)!
  • 與Jane Q. Public一起出席今年11月在波士頓舉辦的2018年數(shù)據(jù)大會(huì)

你已對(duì)這些標(biāo)題設(shè)定了期望,只有其中一個(gè)具有現(xiàn)實(shí)意義。用***個(gè)吸引打開并沒有讓讀者準(zhǔn)備好郵件可能的內(nèi)容,失望或期望未得到滿足的可能性大得多,因此點(diǎn)擊量無疑受到影響。另一方面,第二個(gè)預(yù)期郵件含有實(shí)際的信息,打開的那些人點(diǎn)擊的可能性大得多。

[[243400]]

圖2

3. 注意局部最小值;A/B測(cè)試并不適合一切。

A/B測(cè)試解決不了一切,因?yàn)樗⒉贿m合一切。

改變著陸頁可能是良好的A/B測(cè)試,改變網(wǎng)站或表單上的按鈕位置可能是良好的A/B測(cè)試。完整的網(wǎng)站重新設(shè)計(jì)是不是良好的A/B測(cè)試不好說,這取決于如何搞試驗(yàn)。

增量變化通常很適合A/B測(cè)試。但是,增量變化可能無法實(shí)現(xiàn)你想要實(shí)現(xiàn)的目標(biāo),就因?yàn)槟阆氘?dāng)然地以為自己的起點(diǎn)正確。局部最小值將你的產(chǎn)品概念化成一個(gè)數(shù)學(xué)函數(shù),類似于已獲得的設(shè)計(jì)常規(guī)。倘若你沒有考慮到這點(diǎn):如果采用一種更全面的方面來重新設(shè)計(jì)產(chǎn)品,可獲得全局最小值(或甚至更理想的局部最小值),調(diào)整現(xiàn)有產(chǎn)品就毫無價(jià)值。這是多此一舉。

要點(diǎn)是,一頭扎入A/B測(cè)試不是好主意。先確定目標(biāo),一旦你確定A/B測(cè)試可以幫助你實(shí)現(xiàn)目標(biāo),然后再?zèng)Q定試驗(yàn)。之后,設(shè)計(jì)試驗(yàn)。只有這樣才能實(shí)施A/B測(cè)試。

4. 分桶(bucket)是重點(diǎn)。

先不妨考慮在不知道總體(population)中屬性分布的情況下,我們?nèi)绾卧诜峙浞滞爸白钣行У卮_保分桶之間的可比性。

答案很簡(jiǎn)單:隨機(jī)選擇和分桶分配。在不考慮總體任何屬性的情況下,隨機(jī)選擇和分桶分配是一種統(tǒng)計(jì)上合理的方法,假設(shè)可供使用的總體足夠大。

比如說,假設(shè)你在測(cè)試針對(duì)網(wǎng)站功能的改變,只對(duì)來自特定地區(qū)(美國)的響應(yīng)感興趣。先分成兩組(對(duì)照組和處理組),而不考慮用戶區(qū)域(假設(shè)總體足夠大),分配的美國訪客應(yīng)在這兩組之間分派。從這兩個(gè)分桶中,可以檢查訪客屬性以便測(cè)試,比如說:

 

  1. if (region == "US" && bucket == "treatment"):  
  2.       # do something treatment-related here  
  3.   else 
  4.       if (region == "US" && bucket == "control"):  
  5.           # do something control-related here  
  6.       else 
  7.           # catch-all for non-US (and not relevant to testing scenario) 

關(guān)于A/B測(cè)試所要了解的五個(gè)要點(diǎn)

圖3

第二個(gè)問題是分桶傾斜。以前曾在Etsy參與A/B測(cè)試的數(shù)據(jù)科學(xué)家Emily Robinson寫道:

分桶傾斜(又叫樣本比率不匹配)是指人員在變體之間的分派與你計(jì)劃的不一致。比如說,也許你想在對(duì)照組和處理組之間按50/50分派人員,但幾天后,你發(fā)現(xiàn)40%的人在處理組,60%的人在對(duì)照組。這是個(gè)問題!

如果你有好多用戶,即使看到對(duì)照組中有49.9%的人和處理組中有50.1%的人也可能表明你的試驗(yàn)有問題。想檢查是否有問題,請(qǐng)使用每組中的訪客數(shù)量進(jìn)行比例測(cè)試,看看p值是否小于.05。如果確實(shí)存在分桶傾斜,就有bug。遺憾的是,很難找到這個(gè)bug,但一個(gè)好辦法是查看分桶傾斜是否因Web瀏覽器、國家或另一個(gè)訪客因素而有所不同。

Emily所寫的那篇文章的其余部分也很精彩,建議不妨讀一下。

5. 分析中只包括可能受變化影響的人員。

Emily闡述的第11點(diǎn)探討了這一點(diǎn):

如果你的試驗(yàn)中有用戶的體驗(yàn)沒有受到變化的影響,你是在增加噪音,削弱檢測(cè)效果的能力。

很棒的建議!Emily隨后舉了兩個(gè)直觀的例子:

1. 如果你改變特定頁面的布局,只有在用戶實(shí)際訪問該頁面的情況下才將他們添加到試驗(yàn)中。

2. 如果你嘗試將免費(fèi)發(fā)貨閾值從$ X調(diào)低到$ Y,試驗(yàn)中應(yīng)該只包括購物車商品金額介于$ X和$ Y之間的那些用戶;他們將是處理組與對(duì)照組當(dāng)中唯一看到差異的用戶。

Emily緊接著提出了一個(gè)相關(guān)的建議:只有在用戶訪問相關(guān)網(wǎng)頁后才開始跟蹤你的度量指標(biāo):

設(shè)想你在搜索頁面上運(yùn)行試驗(yàn),有人訪問你的網(wǎng)站,從主頁購物,然后訪問搜索頁面,這時(shí)開始試驗(yàn)。

顯而易見,A/B測(cè)試本身就是一門專業(yè),貿(mào)然開始試驗(yàn)只會(huì)帶來混亂。但愿這五個(gè)簡(jiǎn)單的要點(diǎn)對(duì)你有所幫助。

原文標(biāo)題:5 Things to Know About A/B Testing,作者:Matthew Mayo 

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

責(zé)任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2012-07-04 17:06:53

大數(shù)據(jù)

2016-12-23 08:59:00

AB 測(cè)試CRO

2021-09-07 14:36:53

DevSecOps開源項(xiàng)目

2022-09-30 10:36:49

物聯(lián)網(wǎng)IoT

2021-11-22 11:25:57

即時(shí)通訊通信網(wǎng)絡(luò)APP

2022-02-22 23:39:15

JavaScript編程語言Web

2018-09-21 11:11:34

備份離線自動(dòng)

2018-11-08 12:07:38

備份手動(dòng)磁盤

2020-05-12 10:31:54

云遷移云平臺(tái)云計(jì)算

2021-09-05 08:46:29

CSPM網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2017-11-16 18:48:48

Hadoop數(shù)據(jù)庫數(shù)據(jù)處理

2022-09-14 10:00:12

前端自動(dòng)化測(cè)試

2022-08-15 06:53:22

網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2016-11-01 16:41:08

直通網(wǎng)線連接端口傳輸數(shù)據(jù)

2020-11-17 08:00:00

機(jī)器學(xué)習(xí)管道IT

2021-11-19 10:25:23

MySQL數(shù)據(jù)庫架構(gòu)

2022-03-18 12:46:56

Go 語言編程語言

2021-06-07 11:33:24

服務(wù)器優(yōu)化TIME-WAIT

2021-05-19 09:40:14

Android 12Android

2021-08-09 14:40:02

物聯(lián)網(wǎng)IOT智能家居
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)