自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深入了解技術交易中最強大的工具:A/B測試是如何工作的?

開發(fā) 開發(fā)工具
A/B測試,簡而言之就是通過創(chuàng)建可信的克隆來研究因果關系,即兩個相同的項目(或者更典型的是兩個統(tǒng)計上完全相同的組),然后觀察不同處理它們的效果。

[[338523]]

 A/B測試,簡而言之就是通過創(chuàng)建可信的克隆來研究因果關系,即兩個相同的項目(或者更典型的是兩個統(tǒng)計上完全相同的組),然后觀察不同處理它們的效果。

兩個相同的項目不是僅僅相似的就可以了,我的意思是比下面圖片上的兩只貓還要相同,關鍵是找到“可信的克隆體”,或者讓隨機化和大樣本量為你創(chuàng)建出來。

科學的、受控的實驗是極佳的工具:它允許人們討論原理和成因。如果沒有它們,那么人們了解的只是相關性,這通常對決策沒有什么幫助??梢哉f,實驗是在文明對話中使用“因為”一詞的許可證。

但令人痛心的是,貪戀結果而不愿付出、對推理的質量自欺欺人、在沒有做適當實驗就聲稱自己是科學實驗的情況是很普遍的。如果出現(xiàn)不確定的情況,除非存在以下所有三個原因,否則你所做的將不算實驗:

· 運用了不同的方法

· 方法隨機分配

· 經過科學檢驗的假設(查看我的解釋:http://bit.ly/quaesita_damnedlies)

想要知道為什么實驗被用作推斷因果關系的工具,請看最簡單的實驗之一——A/B測試——背后的邏輯。

簡要說明

如果不想閱讀詳細的示例,請查看此GIF,然后跳到最后一部分(“秘密在于隨機性”)。

詳細說明

想象一下,你的公司有灰色徽標已經用了好幾年了?,F(xiàn)在,你的所有競爭對手也都使用了灰色徽標(模仿是最真誠的奉承),你的高管堅持要求將品牌重塑為更明亮的顏色……但是,換成什么顏色的呢?

雖然你的用戶看到的徽標是灰色的,但這即將改變。

在仔細評估了貴公司網(wǎng)站配色方案的實用性之后,你的設計團隊確定了僅有的兩個可行的候選顏色:藍色和橙色。

CEO最喜歡的顏色是藍色,因此她選擇批準藍色作為默認方案。換句話說,她認為如果沒有其他原因的話,她很樂意偏向選擇藍色。但幸運的是,她是一位由數(shù)據(jù)驅動的強大領導者,并且愿意在數(shù)據(jù)驅動下將她的想法變?yōu)槌壬?/p>

但CEO要看到切實的數(shù)據(jù)才愿意妥協(xié),她要求提供證據(jù)表明橙色徽標在當前的用戶群體中,可以使網(wǎng)站的特定部分產生更多的點擊量(相對于藍色)。

你是公司的高級數(shù)據(jù)科學家,到你搬磚的時刻了,你立即確定CEO的決策方法符合頻率統(tǒng)計中的框架。在仔細聽了她的話之后,你確定了她的零假設和備擇假設與因果關系有關,這意味著需要做個實驗??偨Y一下她告訴你的內容:

  • 默認方案:批準藍色徽標。
  • 替代方案:批準橙色徽標。
  • 零假設:橙色徽標不會比藍色徽標多點擊至少10%。
  • 備擇假設:橙色徽標的點擊率至少比藍色徽標高10%。

對于這樣的設置,A/ B測試是理想的實驗設計。(對于其他因果決策,可能需要其他設計。盡管在這里我僅介紹A/B測試,但更復雜的設計背后的邏輯是相似的。)

實時交通實驗

有多種方法可以運行A/B測試。在心理學實驗室(和焦點小組研究)中,我們看到的往往是邀請人們走到街上,向不同的人隨機展示不同的刺激因素,然后向他們提問。

但是CEO想要的東西難度更大。她的問題只能通過實時流量實驗來回答:當不同的用戶在你網(wǎng)站上進行日常業(yè)務時,為他們提供不同版本的徽標。

實驗基礎架構

如果想進行實時流量實驗,那么你需要一些特殊的基礎架構。與工程師合作,建立為不同用戶隨機提供不同待遇的能力,以及根據(jù)待遇條件跟蹤CEO期望指標(某些網(wǎng)站元素的點擊率)的能力。

為什么人們不常做實時流量實驗,答案通常與高昂前期成本有關。就像Google甚至在我們不知道要進行哪些實驗之前,就和在我們的大多數(shù)系統(tǒng)中構建實驗基礎架構一樣,傳統(tǒng)公司可能一開始會忘記添加此功能,進而會發(fā)現(xiàn)自己落后于更懂技術的競爭對手。但要注意,如果你想進入應用的ML /AI游戲,那么就必須具備實驗基礎架構。

示例

你非常謹慎,不想因為突然出現(xiàn)新徽標而嚇到用戶。更明智的做法是對一部分用戶進行實驗抽樣,然后進行逐步部署(如果更改造成無法預料的壞結果,那么可以選擇將其還原為灰色)。

控制

如果想了解用戶對新奇事物的反應(他們是否會因為徽標的更改而點擊更多)可以將灰色徽標處理用作對照組。但這不是的CEO想要回答的答案,她的關注點在于單獨的橙色相對于藍色的因果影響,因此,考慮到她制定決策的方式,對照組應該是顯示藍色徽標的用戶。

首先,你的系統(tǒng)嘗試將藍色徽標基準應用于樣本中的所有用戶。

但是,在系統(tǒng)實際向用戶顯示藍色徽標之前,實驗基礎架構會翻轉虛擬硬幣,以隨機將一些用戶重新分配給橙色處理,向他們顯示橙色。

然后隨機向某一些戶顯示橙色版本,而不向其他用戶顯示。

如果隨后觀察到橙色版本的平均點擊率較高,則可以說是橙色方案導致了行為上的差異。如果統(tǒng)計上的差異高于10%,那么CEO會很樂意按照她的承諾改成橙色。如果沒有,那么她會選擇藍色。

為什么是10%?因為這是CEO愿意接受的最小效應量。如果決策者關心效應量,那么應該將其納入假設檢驗中。檢驗“無差異”的零假設是一個明確的陳述,即你不會對效果大小有所懷疑。

如果處于橙色處理狀態(tài)的用戶對控制條件的反應不同,那么可以說顯示橙色版本導致點擊次數(shù)多于藍色版本。

秘密在于隨機性

如果不是隨機執(zhí)行此操作,例如,如果向所有登錄用戶提供了橙色方案,同時向其他所有人(游客)顯示藍色方案,那么就不能說是橙色方案導致了區(qū)別。因為不管使用哪種顏色的徽標,也許登錄的用戶對你們公司的忠誠度更高也更喜歡你們的產品。無論以何種顏色顯示,登錄的用戶都可能有較高的點擊傾向。

隨機化是關鍵,是讓你得出因果關系的結論,這就是為什么隨機性如此重要的原因。樣本量大(沒有大量統(tǒng)計能力的情況下無法進行實驗),隨機選擇會創(chuàng)建差異較大的組。從統(tǒng)計學上講,兩組是彼此可信的克隆體。

決策標準越直接,樣本量越大,實驗設計就越不需要復雜。A/B測試很棒,但是更多的高級實驗設計使你可以明確控制一些混雜因素(例如2x2設計,可以將已登錄的用戶與未登錄的用戶分開,并在每個組中運行微型A/B測試,以讓隨機性為你處理其余的工作)。當你很想知道橙色徽標對登錄用戶的影響有何不同,并且希望將其納入決策時,這個功能特別有用。無論哪種方式,隨機選擇都是必須的。

依靠隨機選擇,A/B測試的藍色和橙色條件下的用戶組在所有方面都一直相似(總體而言),傳統(tǒng)上人們會考慮挑選參與者以平衡他們的研究:如性別、種族、年齡、受教育程度、政治觀點、宗教信仰等。

但我們通常難以控制的其他方面,隨機選擇會使它們也保持相似:如喜歡貓的人、喝茶的人、游戲玩家、哥特人,高爾夫球手、擁有尤克里里的人、慷慨給予的人、游泳好的人、暗中討厭配偶的人、幾天沒有洗澡的人、對橙子過敏而又沒有意識到的人,等等。

這就是大樣本量加上隨機選擇的優(yōu)點,不必依靠自己的聰明才智來考慮要控制的正確混雜因素。當使用隨機數(shù)創(chuàng)建兩個大組時,你將獲得一個統(tǒng)計空白的畫布——兩個組在統(tǒng)計上都是相同的,唯一的不同是將要對它們進行的操作。

如果觀察到兩組結果之間存在實質性差異,那么你就可以說發(fā)生的差異正是由于你的操作造成的,這就是實驗的驚人力量!

探究因果關系是一場挑剔的游戲——這是科學家們也會做的事,如果提出兩個偽劣的“克隆體”,并試圖將不同的結果歸咎于不同的方案方法,如果沒有大樣本,你怎么知道影響結果的不是它們鼻子下方(這兩只小貓咪)的小斑點呢?

本文轉載自微信公眾號「讀芯術」,可以通過以下二維碼關注。轉載本文請聯(lián)系讀芯術公眾號。

 

責任編輯:武曉燕 來源: 讀芯術
相關推薦

2023-04-19 08:13:02

EpollLinux

2021-09-23 09:00:00

機器人人工智能技術

2022-03-28 08:36:15

tenacityPython

2012-05-14 17:22:38

ibmdw

2019-05-07 10:03:47

Linux系統(tǒng)發(fā)行版

2012-02-16 11:35:34

ibmdw

2011-02-21 13:14:29

Qmail

2024-06-06 09:23:11

2019-08-02 08:59:21

Token認證服務器

2019-11-29 16:21:22

Spring框架集成

2017-01-20 08:30:19

JavaScriptfor循環(huán)

2023-06-06 15:31:13

JavaScript開發(fā)

2013-04-10 11:16:19

iPad的MouseE

2018-02-24 13:21:02

2018-09-04 16:20:46

MySQ索引數(shù)據(jù)結構

2016-10-20 08:46:17

2021-09-03 08:27:47

FortinetSASE平臺安全

2010-02-02 09:06:29

軟交換技術

2010-11-19 16:22:14

Oracle事務

2010-07-13 09:36:25

點贊
收藏

51CTO技術棧公眾號