自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

?據(jù)說三分之一的AB實(shí)驗(yàn)都可能存在這些問題……

開發(fā) 架構(gòu)
AB實(shí)驗(yàn)的基本原理看似很簡單,但在缺乏經(jīng)驗(yàn)的實(shí)驗(yàn)者手中、簡陋的AB實(shí)驗(yàn)平臺上還是非常容易出錯(cuò)的。

?在沒有很好的實(shí)驗(yàn)指導(dǎo)、良好的平臺支撐的情況下,大部分人都無法設(shè)計(jì)有效的AB實(shí)驗(yàn),不能正確地消化這成百上千個(gè)實(shí)驗(yàn)指標(biāo)的結(jié)果。

 根據(jù)一項(xiàng)調(diào)研,實(shí)際上可能有三分之一的AB實(shí)驗(yàn)都存在問題。對AB實(shí)驗(yàn)的錯(cuò)誤解讀會導(dǎo)致非最優(yōu)決策以及對業(yè)務(wù)增長的不準(zhǔn)確預(yù)期,從而損害公司的長期利益。

導(dǎo)致AB實(shí)驗(yàn)結(jié)果被誤判的原因有很多,從有偏差的實(shí)驗(yàn)設(shè)計(jì)、有偏差的用戶選擇到有偏差的統(tǒng)計(jì)分析,以及試圖將AB實(shí)驗(yàn)結(jié)果推廣到實(shí)驗(yàn)總體、實(shí)驗(yàn)時(shí)間框架之外等。

本文主要基于AB實(shí)驗(yàn)的基本過程以及AB實(shí)驗(yàn)所需的基本技術(shù)要素,總結(jié)在進(jìn)行AB實(shí)驗(yàn)的過程中,各個(gè)環(huán)節(jié)上可能存在的問題。

?1.實(shí)驗(yàn)參與對象的3個(gè)問題

關(guān)于實(shí)驗(yàn)參與對象主要有3個(gè)問題。

  • 實(shí)驗(yàn)參與對象是否被合理隨機(jī)化。在實(shí)際工程中涉及隨機(jī)函數(shù)選擇、正交分層框架設(shè)計(jì)等問題,其本質(zhì)是考慮隨機(jī)過程是否真的隨機(jī)進(jìn)行了,是否能夠消除不同實(shí)驗(yàn)組之間用戶選擇的偏差。即使用性能最好的哈希函數(shù)進(jìn)行分組,也存在出現(xiàn)碰撞等問題的可能。另外,在隨機(jī)化的過程中,有少量的極值、異常對象會對隨機(jī)后數(shù)據(jù)指標(biāo)產(chǎn)生很大的影響。對于這些問題的檢測和解決都是需要考慮的。
  • 實(shí)驗(yàn)參與對象是否相互獨(dú)立。AB實(shí)驗(yàn)結(jié)果有效需要滿足一個(gè)基本假設(shè)—個(gè)體處理穩(wěn)定性假設(shè)(Stable Unit Treatment Value Assumption,SUTVA)。這個(gè)假設(shè)是指任何實(shí)驗(yàn)單元的潛在結(jié)果不會隨分配給其他單元的處理而變化,每個(gè)組中參與對象的行為不受分配給其他組的參與對象的影響。在大多數(shù)實(shí)際應(yīng)用中,這是一個(gè)合理的假設(shè)。然而,在一些情況下,這個(gè)假設(shè)是不成立的。一旦這個(gè)假設(shè)不成立,得出的AB實(shí)驗(yàn)結(jié)果就是無效的。
  • 實(shí)驗(yàn)參與對象的數(shù)量是否足夠進(jìn)行實(shí)驗(yàn)評估也是需要考慮的問題。如果實(shí)驗(yàn)參與對象的樣本量不足,即使得到實(shí)驗(yàn)結(jié)果,也無法進(jìn)行有效的實(shí)驗(yàn)評估。

2.實(shí)驗(yàn)隨機(jī)分流的3個(gè)問題

在對實(shí)驗(yàn)參與對象隨機(jī)分流的環(huán)節(jié)中有如下3個(gè)關(guān)鍵問題。

  • 最小分流單元采用什么顆粒度是最佳的選擇,是元素級別、頁面級別、會話級別還是用戶級別?選擇不同顆粒度的最小分流單元,在評估實(shí)驗(yàn)效果的時(shí)候有什么不同,需要注意哪些問題?
  • 在分流的時(shí)候,如何在不增加實(shí)驗(yàn)評估復(fù)雜度的情況下實(shí)現(xiàn)流量復(fù)用,基于產(chǎn)品和各個(gè)系統(tǒng)的綜合考慮,采用什么樣的流量框架是最合適的?采用什么樣的隨機(jī)函數(shù)可以提升隨機(jī)分流的性能?
  • 對于同一個(gè)實(shí)驗(yàn)中的各組實(shí)驗(yàn)對象,它們是同質(zhì)的嗎?存在SRM問題嗎?如果存在這些問題,觀察到的實(shí)驗(yàn)組和對照組之間的差異不是實(shí)驗(yàn)導(dǎo)致的,而是引入了其他系統(tǒng)性偏差,這就有可能導(dǎo)致有偏差的結(jié)論,甚至反向的結(jié)論。獲得有偏差的結(jié)果是一場噩夢,它使整個(gè)AB實(shí)驗(yàn)徒勞無功。如果沒有正確的診斷算法,找出這些偏差的根本原因并修復(fù)它,往往比運(yùn)行AB實(shí)驗(yàn)本身需要更長的時(shí)間。根據(jù)一項(xiàng)調(diào)查,僅這種SRM問題導(dǎo)致AB實(shí)驗(yàn)無效的比例大約占所有無效實(shí)驗(yàn)的10%。

3.實(shí)驗(yàn)指標(biāo)的2個(gè)問題

實(shí)驗(yàn)指標(biāo)體系包含了兩個(gè)關(guān)鍵問題。

  • 如何建立一個(gè)完善的產(chǎn)品指標(biāo)體系,包括指標(biāo)的設(shè)計(jì)、評估、進(jìn)化和計(jì)算等一系列相關(guān)問題。
  • 如何選擇合適的實(shí)驗(yàn)評估指標(biāo),包括從產(chǎn)品視角、工程視角出發(fā),綜合考慮實(shí)驗(yàn)指標(biāo)的指向性和敏感性,以及多個(gè)目標(biāo)指標(biāo)如何合并為綜合評價(jià)標(biāo)準(zhǔn)(Overall Evaluation Criterion,OEC)等問題。

4.實(shí)驗(yàn)分析和評估的3個(gè)問題

在實(shí)驗(yàn)分析和評估環(huán)節(jié)存在的問題更多,也更加難以解決,這部分的問題往往更加個(gè)性化和多樣化。前面談到的問題,比如實(shí)驗(yàn)參與單元數(shù)量、隨機(jī)分流、指標(biāo)體系等問題可以通過建設(shè)實(shí)驗(yàn)平臺等工具進(jìn)行規(guī)避、監(jiān)控和解決。實(shí)驗(yàn)分析和評估是針對單個(gè)實(shí)驗(yàn)的,每個(gè)實(shí)驗(yàn)從目標(biāo)到指標(biāo)都有自己的不同之處,不僅需要進(jìn)行系統(tǒng)化的處理和規(guī)范,也需要具體問題具體分析。分析過程中需要對實(shí)驗(yàn)設(shè)計(jì)、產(chǎn)品特性、數(shù)據(jù)指標(biāo)以及統(tǒng)計(jì)分析的理解相對透徹,才能更好地深入實(shí)驗(yàn)評估。分析和評估相關(guān)的問題總結(jié)歸納起來主要有以下3個(gè)。

1)對于統(tǒng)計(jì)結(jié)果理解是否正確

  • 如何解讀實(shí)驗(yàn)結(jié)果中P值、置信度、置信區(qū)間等的關(guān)系?
  • 實(shí)驗(yàn)得出的相對提升,究竟是一個(gè)自然的波動(dòng)還是真實(shí)的實(shí)驗(yàn)提升?
  • 實(shí)驗(yàn)參與單元的數(shù)量是否足以檢出想要的實(shí)驗(yàn)效果?
  • 實(shí)驗(yàn)統(tǒng)計(jì)的power值是否充足?
  • 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)精度是否可以檢測出業(yè)務(wù)的提升?

2)實(shí)驗(yàn)分析的過程是否正確

  • 在實(shí)驗(yàn)過程中有沒有進(jìn)行AA實(shí)驗(yàn)?
  • 在實(shí)驗(yàn)過程中有沒有進(jìn)行SRM測試?
  • 在實(shí)驗(yàn)過程中有沒有偷窺實(shí)驗(yàn)?
  • 實(shí)驗(yàn)分析過程中,是否存在幸存者偏差、辛普森悖論等問題?
  • 局部實(shí)驗(yàn)的結(jié)果如何推導(dǎo)為全局提升量,轉(zhuǎn)化過程是否正確?

3)實(shí)驗(yàn)分析結(jié)果的外推是否正確如果前面實(shí)驗(yàn)中的每一個(gè)環(huán)節(jié)都沒有問題,實(shí)驗(yàn)組的效果是正向的,那么實(shí)驗(yàn)決策決定將這個(gè)實(shí)驗(yàn)全量(也稱發(fā)布)到所有用戶。這個(gè)環(huán)節(jié)一般來說沒有太大難度,在一些特定情況下會有問題,即實(shí)驗(yàn)結(jié)果被推廣到實(shí)驗(yàn)的設(shè)置之外,不再有效。

  • 群體外推:將結(jié)果推廣到實(shí)驗(yàn)群體之外,在一個(gè)子群體上進(jìn)行實(shí)驗(yàn),并假設(shè)對整個(gè)群體的影響是相同的。
  • 時(shí)間外推:同樣危險(xiǎn)的是在實(shí)驗(yàn)時(shí)間范圍之外推廣,因?yàn)椴荒艽_保長期影響和短期影響是相同的。

通常受AB實(shí)驗(yàn)機(jī)會成本的限制,一般實(shí)驗(yàn)運(yùn)行不超過兩周,而進(jìn)行全量實(shí)驗(yàn)意味著這個(gè)策略會長期作用在線上,一兩周的效果是否等于1個(gè)月甚至6個(gè)月后的效果是不確定的。當(dāng)進(jìn)行AB實(shí)驗(yàn)時(shí),除了選擇正向的策略外,也需要衡量這個(gè)策略長期影響的大小。因?yàn)閷?shí)驗(yàn)相關(guān)人員希望得到的結(jié)果是“如果我們使用某個(gè)策略,指標(biāo)X將在下個(gè)季度增長?”。這種說法隱含地假定在一個(gè)兩周長的實(shí)驗(yàn)中,測量的影響會持續(xù)一個(gè)季度,當(dāng)實(shí)驗(yàn)效果是時(shí)間依賴時(shí),這顯然是不正確的。更為復(fù)雜的是,并不是所有的實(shí)驗(yàn)指標(biāo)都會在實(shí)驗(yàn)中顯示和時(shí)間的相關(guān)性。

如果沒有自動(dòng)化的檢測手段,即使是最有經(jīng)驗(yàn)的實(shí)驗(yàn)者,也很難篩選出數(shù)千個(gè)指標(biāo),尋找與時(shí)間相關(guān)的實(shí)驗(yàn)效果。

上面介紹的實(shí)驗(yàn)分析問題在很多AB實(shí)驗(yàn)中都沒有被很好地回答,它們在AB實(shí)驗(yàn)中特別容易出現(xiàn),并影響實(shí)驗(yàn)結(jié)果,最終得到的是一些錯(cuò)誤的解讀和結(jié)論。統(tǒng)計(jì)一個(gè)數(shù)字容易,得到可信可靠的實(shí)驗(yàn)結(jié)論是不容易的。我們可以很容易地統(tǒng)計(jì)出B組策略比A組策略的點(diǎn)擊率高2.7%,B組策略上線之后真的可以將點(diǎn)擊率提高2.7%嗎?如果沒有實(shí)驗(yàn)系統(tǒng)以及科學(xué)的實(shí)驗(yàn)方法,那么很難保證最終效果。

參與AB實(shí)驗(yàn)的人大多遇到過一個(gè)令人頭疼的問題:實(shí)驗(yàn)的結(jié)果是正向的,全量上線后大盤數(shù)據(jù)卻沒有漲。這是一個(gè)復(fù)雜的系統(tǒng)問題,可能有多種多樣的原因,除了我們上面談到的那些影響AB實(shí)驗(yàn)的問題外,還有一個(gè)原因就是統(tǒng)計(jì)本身的概率問題。因?yàn)槲覀儾捎玫氖墙y(tǒng)計(jì)中的假設(shè)檢驗(yàn)來判斷實(shí)驗(yàn)結(jié)果,本身就存在犯錯(cuò)誤的概率。比如我們采用95%的置信度,那么犯第一類錯(cuò)誤的概率是5%(AB實(shí)驗(yàn)中,A組沒有效果,而實(shí)驗(yàn)系統(tǒng)判定A組為有效果的錯(cuò)誤是第一類錯(cuò)誤),犯第二類錯(cuò)誤的概率最高有95%。

實(shí)驗(yàn)系統(tǒng)中,用戶設(shè)置95%的置信度,此時(shí)需要承擔(dān)5%的第一類錯(cuò)誤風(fēng)險(xiǎn)。在一切都正常的情況下,A組實(shí)驗(yàn)有效果,全量上線之后沒有效果的風(fēng)險(xiǎn)有5%。這個(gè)情況無法避免,大約20次實(shí)驗(yàn)中就會出現(xiàn)一次。換句話說,如果20、30次實(shí)驗(yàn)中出現(xiàn)了1~2個(gè)實(shí)驗(yàn),雖然實(shí)驗(yàn)效果正向,但是全量后沒有效果,其實(shí)這是一個(gè)正常現(xiàn)象,在可以接受的范圍內(nèi)。如果做了不到10個(gè)實(shí)驗(yàn),就出現(xiàn)了2~3個(gè)以上實(shí)驗(yàn)效果正向,全量后沒有效果的情況,那么實(shí)驗(yàn)方法和系統(tǒng)大概率是有問題的,而且問題大概率來自本文討論的這些問題。

本文摘編于機(jī)械工業(yè)出版社出版的《AB實(shí)驗(yàn):科學(xué)歸因與增長的利器》,經(jīng)出版方授權(quán)發(fā)布。?

責(zé)任編輯:武曉燕 來源: 數(shù)倉寶貝庫
相關(guān)推薦

2009-12-09 09:50:15

上網(wǎng)本Linux

2009-02-25 08:50:45

Mini9戴爾Linux

2020-02-06 10:01:20

安全網(wǎng)絡(luò)欺詐數(shù)字

2010-10-28 13:27:19

2015-08-14 16:59:53

2009-04-27 09:57:47

員工竊取信息安全

2021-10-25 22:30:11

加密貨幣比特幣貨幣

2012-04-04 13:02:06

iPhone

2021-02-19 13:06:14

加密貨幣比特幣貨幣

2021-02-19 11:06:32

物聯(lián)網(wǎng)平臺物聯(lián)網(wǎng)IOT

2024-05-28 09:28:26

2011-05-16 14:03:54

2009-03-26 08:53:39

微軟IE8瀏覽器

2013-04-08 09:42:03

云服務(wù)市場亞馬遜

2021-09-28 14:28:32

比特幣加密貨幣貨幣

2024-07-30 13:11:04

2023-06-19 08:12:41

MetaAI

2015-09-10 11:48:30

2015-09-28 11:20:54

農(nóng)業(yè)大數(shù)據(jù)美國

2025-04-22 08:29:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號