深入了解技術交易中最強大的工具:A/B測試是如何工作的?
A/B測試,簡而言之就是通過創(chuàng)建可信的克隆來研究因果關系,即兩個相同的項目(或者更典型的是兩個統(tǒng)計上完全相同的組),然后觀察不同處理它們的效果。
兩個相同的項目不是僅僅相似的就可以了,我的意思是比下面圖片上的兩只貓還要相同,關鍵是找到“可信的克隆體”,或者讓隨機化和大樣本量為你創(chuàng)建出來。
科學的、受控的實驗是極佳的工具:它允許人們討論原理和成因。如果沒有它們,那么人們了解的只是相關性,這通常對決策沒有什么幫助??梢哉f,實驗是在文明對話中使用“因為”一詞的許可證。
但令人痛心的是,貪戀結果而不愿付出、對推理的質量自欺欺人、在沒有做適當實驗就聲稱自己是科學實驗的情況是很普遍的。如果出現(xiàn)不確定的情況,除非存在以下所有三個原因,否則你所做的將不算實驗:
· 運用了不同的方法
· 方法隨機分配
· 經過科學檢驗的假設(查看我的解釋:http://bit.ly/quaesita_damnedlies)
想要知道為什么實驗被用作推斷因果關系的工具,請看最簡單的實驗之一——A/B測試——背后的邏輯。
簡要說明
如果不想閱讀詳細的示例,請查看此GIF,然后跳到最后一部分(“秘密在于隨機性”)。
詳細說明
想象一下,你的公司有灰色徽標已經用了好幾年了?,F(xiàn)在,你的所有競爭對手也都使用了灰色徽標(模仿是最真誠的奉承),你的高管堅持要求將品牌重塑為更明亮的顏色……但是,換成什么顏色的呢?
雖然你的用戶看到的徽標是灰色的,但這即將改變。
在仔細評估了貴公司網(wǎng)站配色方案的實用性之后,你的設計團隊確定了僅有的兩個可行的候選顏色:藍色和橙色。
CEO最喜歡的顏色是藍色,因此她選擇批準藍色作為默認方案。換句話說,她認為如果沒有其他原因的話,她很樂意偏向選擇藍色。但幸運的是,她是一位由數(shù)據(jù)驅動的強大領導者,并且愿意在數(shù)據(jù)驅動下將她的想法變?yōu)槌壬?/p>
但CEO要看到切實的數(shù)據(jù)才愿意妥協(xié),她要求提供證據(jù)表明橙色徽標在當前的用戶群體中,可以使網(wǎng)站的特定部分產生更多的點擊量(相對于藍色)。
你是公司的高級數(shù)據(jù)科學家,到你搬磚的時刻了,你立即確定CEO的決策方法符合頻率統(tǒng)計中的框架。在仔細聽了她的話之后,你確定了她的零假設和備擇假設與因果關系有關,這意味著需要做個實驗??偨Y一下她告訴你的內容:
- 默認方案:批準藍色徽標。
- 替代方案:批準橙色徽標。
- 零假設:橙色徽標不會比藍色徽標多點擊至少10%。
- 備擇假設:橙色徽標的點擊率至少比藍色徽標高10%。
對于這樣的設置,A/ B測試是理想的實驗設計。(對于其他因果決策,可能需要其他設計。盡管在這里我僅介紹A/B測試,但更復雜的設計背后的邏輯是相似的。)
實時交通實驗
有多種方法可以運行A/B測試。在心理學實驗室(和焦點小組研究)中,我們看到的往往是邀請人們走到街上,向不同的人隨機展示不同的刺激因素,然后向他們提問。
但是CEO想要的東西難度更大。她的問題只能通過實時流量實驗來回答:當不同的用戶在你網(wǎng)站上進行日常業(yè)務時,為他們提供不同版本的徽標。
實驗基礎架構
如果想進行實時流量實驗,那么你需要一些特殊的基礎架構。與工程師合作,建立為不同用戶隨機提供不同待遇的能力,以及根據(jù)待遇條件跟蹤CEO期望指標(某些網(wǎng)站元素的點擊率)的能力。
為什么人們不常做實時流量實驗,答案通常與高昂前期成本有關。就像Google甚至在我們不知道要進行哪些實驗之前,就和在我們的大多數(shù)系統(tǒng)中構建實驗基礎架構一樣,傳統(tǒng)公司可能一開始會忘記添加此功能,進而會發(fā)現(xiàn)自己落后于更懂技術的競爭對手。但要注意,如果你想進入應用的ML /AI游戲,那么就必須具備實驗基礎架構。
示例
你非常謹慎,不想因為突然出現(xiàn)新徽標而嚇到用戶。更明智的做法是對一部分用戶進行實驗抽樣,然后進行逐步部署(如果更改造成無法預料的壞結果,那么可以選擇將其還原為灰色)。
控制
如果想了解用戶對新奇事物的反應(他們是否會因為徽標的更改而點擊更多)可以將灰色徽標處理用作對照組。但這不是的CEO想要回答的答案,她的關注點在于單獨的橙色相對于藍色的因果影響,因此,考慮到她制定決策的方式,對照組應該是顯示藍色徽標的用戶。
首先,你的系統(tǒng)嘗試將藍色徽標基準應用于樣本中的所有用戶。
但是,在系統(tǒng)實際向用戶顯示藍色徽標之前,實驗基礎架構會翻轉虛擬硬幣,以隨機將一些用戶重新分配給橙色處理,向他們顯示橙色。
然后隨機向某一些戶顯示橙色版本,而不向其他用戶顯示。
如果隨后觀察到橙色版本的平均點擊率較高,則可以說是橙色方案導致了行為上的差異。如果統(tǒng)計上的差異高于10%,那么CEO會很樂意按照她的承諾改成橙色。如果沒有,那么她會選擇藍色。
為什么是10%?因為這是CEO愿意接受的最小效應量。如果決策者關心效應量,那么應該將其納入假設檢驗中。檢驗“無差異”的零假設是一個明確的陳述,即你不會對效果大小有所懷疑。
如果處于橙色處理狀態(tài)的用戶對控制條件的反應不同,那么可以說顯示橙色版本導致點擊次數(shù)多于藍色版本。
秘密在于隨機性
如果不是隨機執(zhí)行此操作,例如,如果向所有登錄用戶提供了橙色方案,同時向其他所有人(游客)顯示藍色方案,那么就不能說是橙色方案導致了區(qū)別。因為不管使用哪種顏色的徽標,也許登錄的用戶對你們公司的忠誠度更高也更喜歡你們的產品。無論以何種顏色顯示,登錄的用戶都可能有較高的點擊傾向。
隨機化是關鍵,是讓你得出因果關系的結論,這就是為什么隨機性如此重要的原因。樣本量大(沒有大量統(tǒng)計能力的情況下無法進行實驗),隨機選擇會創(chuàng)建差異較大的組。從統(tǒng)計學上講,兩組是彼此可信的克隆體。
決策標準越直接,樣本量越大,實驗設計就越不需要復雜。A/B測試很棒,但是更多的高級實驗設計使你可以明確控制一些混雜因素(例如2x2設計,可以將已登錄的用戶與未登錄的用戶分開,并在每個組中運行微型A/B測試,以讓隨機性為你處理其余的工作)。當你很想知道橙色徽標對登錄用戶的影響有何不同,并且希望將其納入決策時,這個功能特別有用。無論哪種方式,隨機選擇都是必須的。
依靠隨機選擇,A/B測試的藍色和橙色條件下的用戶組在所有方面都一直相似(總體而言),傳統(tǒng)上人們會考慮挑選參與者以平衡他們的研究:如性別、種族、年齡、受教育程度、政治觀點、宗教信仰等。
但我們通常難以控制的其他方面,隨機選擇會使它們也保持相似:如喜歡貓的人、喝茶的人、游戲玩家、哥特人,高爾夫球手、擁有尤克里里的人、慷慨給予的人、游泳好的人、暗中討厭配偶的人、幾天沒有洗澡的人、對橙子過敏而又沒有意識到的人,等等。
這就是大樣本量加上隨機選擇的優(yōu)點,不必依靠自己的聰明才智來考慮要控制的正確混雜因素。當使用隨機數(shù)創(chuàng)建兩個大組時,你將獲得一個統(tǒng)計空白的畫布——兩個組在統(tǒng)計上都是相同的,唯一的不同是將要對它們進行的操作。
如果觀察到兩組結果之間存在實質性差異,那么你就可以說發(fā)生的差異正是由于你的操作造成的,這就是實驗的驚人力量!
探究因果關系是一場挑剔的游戲——這是科學家們也會做的事,如果提出兩個偽劣的“克隆體”,并試圖將不同的結果歸咎于不同的方案方法,如果沒有大樣本,你怎么知道影響結果的不是它們鼻子下方(這兩只小貓咪)的小斑點呢?
本文轉載自微信公眾號「讀芯術」,可以通過以下二維碼關注。轉載本文請聯(lián)系讀芯術公眾號。