自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從玄學(xué)走向科學(xué):AB測試驅(qū)動(dòng)的科學(xué)增長

大數(shù)據(jù)
AB測試讓大膽創(chuàng)新快速試錯(cuò)成為可能,能夠激發(fā)創(chuàng)新,提升收益。改良、發(fā)明、發(fā)現(xiàn)和從失敗中吸取教訓(xùn)的動(dòng)力使人們不斷學(xué)習(xí),發(fā)現(xiàn)新的、更好的方法,創(chuàng)造有價(jià)值的東西。

一、科學(xué)革命,人類文明的新篇章

“Now I am become Death, the destroyer of worlds.”

“現(xiàn)在我成了死神,世界的毀滅者?!薄宋锢韺W(xué)家奧本海默在目睹了第一顆原子彈爆炸的駭人景象后,引述《薄伽梵歌》說道

1945年7月16日凌晨5點(diǎn)29分45秒,科學(xué)家在美國新墨西哥州的阿拉莫斯沙漠中引爆了第一顆原子彈。這一秒可以稱之為近百年來人類文明中最具有歷史意義的一刻,從這一刻開始,人類不僅僅只是在改變歷史進(jìn)程,甚至有了終結(jié)歷史進(jìn)程的能力。

科學(xué)革命將人類帶到阿拉莫斯沙漠,帶上月球表面,搭載著刻錄了人類文明喧囂的鍍金唱片的旅行者一號甚至已經(jīng)飛往太陽系之外。近百年來,科學(xué)革命之下的人類文明發(fā)展之快,是任何最瘋狂的夢想家都難以預(yù)料的。

在過去的數(shù)百年中,人們愈發(fā)相信可以通過加強(qiáng)科學(xué)研究來獲得前所未有的強(qiáng)大力量。而且這并不是盲目迷信,而是經(jīng)過了嚴(yán)謹(jǐn)?shù)倪壿嬐茖?dǎo)和反復(fù)的觀察和證明,就像數(shù)學(xué)一樣精確,就像我們可以自信地說出,1+1就是等于2,而絕不會(huì)是其他什么答案。如果沒有科學(xué)帶來的確定性和賦予人類的強(qiáng)大力量,人類永遠(yuǎn)無法分裂原子,無法在月球上漫步,更不可能沖出太陽系。

二、從玄學(xué)走向科學(xué),為什么要做AB實(shí)驗(yàn)

一個(gè)人預(yù)測和應(yīng)對未來的能力,取決于他對事物變化背后的因果關(guān)系的理解;一個(gè)人理解這些因果關(guān)系的能力,來自他對以往變化的發(fā)生機(jī)制的研究?!瓌t:應(yīng)對變化中的世界秩序-瑞·達(dá)利歐

1、告別野蠻生長的經(jīng)驗(yàn)時(shí)代

十多年前,曾經(jīng)有過這樣一句話:“站在臺風(fēng)口,豬都能飛上天?!?在當(dāng)年智能手機(jī)普及引發(fā)的移動(dòng)互聯(lián)網(wǎng)大潮之中,“風(fēng)口上的豬”成為許多企業(yè)的真實(shí)寫照。

然而,今時(shí)今日,野蠻生長的互聯(lián)網(wǎng)紅利期一去不返,流量成本愈發(fā)昂貴,產(chǎn)品迭代試錯(cuò)成本高昂,制約了企業(yè)進(jìn)一步增長的潛力。許多當(dāng)年趁著潮水涌入的玩家們,如今面臨著日益嚴(yán)峻的增長乃至生存困境。原因其實(shí)很簡單,只有潮水退去了才能知道誰在裸泳,企業(yè)增長最終要依靠的,仍然是科學(xué)而又行之有效的增長策略,以及苦心歷練而成的基于科學(xué)而非玄學(xué)的綜合能力。

數(shù)據(jù)驅(qū)動(dòng)是科學(xué)增長的底層邏輯。成功不應(yīng)該靠玄學(xué)或者運(yùn)氣,而是有一套完備的方法論,每個(gè)人都應(yīng)該學(xué)會(huì),并且都能夠?qū)W會(huì)。我們要像科學(xué)家研究原子彈和登月火箭一樣做產(chǎn)品增長,通過科學(xué)實(shí)驗(yàn),大膽假設(shè),小心求證,發(fā)掘出增長背后的“第一性原理”。

當(dāng)今的時(shí)代,日新月異,變化萬千,被稱之為VUCA時(shí)代(復(fù)雜性Complexity、模糊性Ambiguity、不確定性Uncertainty、波動(dòng)性Volatility)。在不確定的時(shí)代下,科學(xué)增長的數(shù)學(xué)般精準(zhǔn)的確定性,成為了我們最值得信賴的依靠。

通過科學(xué)的AB實(shí)驗(yàn),我們可以確保每個(gè)決策都能帶來正向收益,實(shí)現(xiàn)復(fù)利效應(yīng),實(shí)現(xiàn)持續(xù)循環(huán)的可持續(xù)增長:

消除產(chǎn)品設(shè)計(jì)中不同意見的無休止的爭論,根據(jù)實(shí)驗(yàn)的效果,科學(xué)決策,確定最佳方案

讓大膽創(chuàng)新快速試錯(cuò)成為可能,快速準(zhǔn)確地檢驗(yàn)新策略上線后的效果

快速定位問題的真正原因,避免低效而又昂貴的錯(cuò)誤迭代

降低新產(chǎn)品或新功能發(fā)布的風(fēng)險(xiǎn),為產(chǎn)品持續(xù)迭代提供保障

2、什么是AB實(shí)驗(yàn):隨機(jī)對照實(shí)驗(yàn)

AB實(shí)驗(yàn)又稱隨機(jī)對照實(shí)驗(yàn)(randomized controlled trial,RCT)。隨機(jī)對照實(shí)驗(yàn)最初來源于來自生物醫(yī)學(xué)的領(lǐng)域。

1747年5月20日,詹姆斯·林德做了人類歷史上第一個(gè)隨機(jī)對照實(shí)驗(yàn)。林德將船上患了壞血癥的海員分為多組,每組喂食不同的食物,從而嘗試驗(yàn)證哪種食物可以治療敗血癥。雖然由于時(shí)代的局限性,林德當(dāng)時(shí)沒能成功指出橘子中含有的維生素C可以治療敗血癥,但是由于這是歷史上第一次用隨機(jī)對照實(shí)驗(yàn)檢驗(yàn)藥物療效的嘗試,林德仍然青史留名。林德的實(shí)驗(yàn)標(biāo)志著檢驗(yàn)藥物有效性的方法從蒙昧走向科學(xué)。

在現(xiàn)代生物醫(yī)學(xué)領(lǐng)域的雙盲測試中,病人被隨機(jī)分成多組,在不知情的情況下分別給予安慰劑和測試用藥,經(jīng)過一段時(shí)間的實(shí)驗(yàn)后,比較這兩組病人的表現(xiàn)是否具有顯著的差異,從而確定測試用藥是否有效。隨機(jī)對照試驗(yàn)的基本方法是,將研究對象隨機(jī)分組,對不同組實(shí)施不同的干預(yù),在這種嚴(yán)格的條件下對照效果的不同。在研究對象數(shù)量足夠的情況下,這種方法可以抵消已知和未知的混雜因素對各組的影響。

在互聯(lián)網(wǎng)產(chǎn)品的迭代優(yōu)化中,我們通常使用小流量AB實(shí)驗(yàn),也即在線上流量中取出一小部分(較低風(fēng)險(xiǎn)),完全隨機(jī)地分給原策略A和新策略B(排除干擾),再結(jié)合一定的統(tǒng)計(jì)方法,得到對于兩種策略相對效果的準(zhǔn)確估計(jì)(量化結(jié)果)。這一套基于小樣本的實(shí)驗(yàn)方法同時(shí)滿足了低風(fēng)險(xiǎn),抗干擾和量化結(jié)果的要求,因此不論在互聯(lián)網(wǎng)產(chǎn)品研發(fā)還是科學(xué)研究中,都被廣泛使用。

3、AB實(shí)驗(yàn)是互聯(lián)網(wǎng)公司的標(biāo)配

隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,AB實(shí)驗(yàn)借著互聯(lián)網(wǎng)科技公司的發(fā)展的大潮,不斷發(fā)揚(yáng)壯大。從遠(yuǎn)在太平洋彼岸的蘋果、愛彼迎、亞馬遜、臉書、谷歌、領(lǐng)英、微軟、優(yōu)步等硅谷弄潮兒,到國內(nèi)的BAT巨頭、以及字節(jié)跳動(dòng)等科技公司,都在高頻使用AB實(shí)驗(yàn)協(xié)助決策。早在2000年左右,谷歌工程師首先將AB實(shí)驗(yàn)應(yīng)用在互聯(lián)網(wǎng)產(chǎn)品的迭代測試中。

在這之后,AB實(shí)驗(yàn)漸漸普及開來,逐步成為數(shù)據(jù)驅(qū)動(dòng)增長的經(jīng)典手段,助力了大量互聯(lián)網(wǎng)產(chǎn)品的迭代優(yōu)化。今天,谷歌微軟這些科技公司每年進(jìn)行著數(shù)以萬計(jì)的實(shí)驗(yàn),覆蓋了億級的用戶量,實(shí)驗(yàn)的內(nèi)容涵蓋了絕大多數(shù)產(chǎn)品特征的迭代優(yōu)化,從產(chǎn)品命名到交互設(shè)計(jì),從改變字體、彈窗效果、界面大小,到推薦算法、廣告優(yōu)化、用戶增長等等。

2012年,一位微軟必應(yīng)搜索引擎的員工,創(chuàng)建了AB實(shí)驗(yàn)來驗(yàn)證不同展示方式的廣告標(biāo)題的效果。沒有想到的是,這一小小的AB實(shí)驗(yàn)卻帶來了萬分驚艷的效果。在數(shù)小時(shí)內(nèi),實(shí)驗(yàn)組廣告收入增加了12%,同時(shí)沒有給用戶體驗(yàn)的相關(guān)指標(biāo)帶來任何負(fù)面影響。這個(gè)實(shí)驗(yàn)因?yàn)樾Ч麑?shí)在是太好而令人難以相信,所以后來微軟將這一實(shí)驗(yàn)重復(fù)了很多次,結(jié)果卻驚人的一致,都是巨幅的收入提升。具體的實(shí)驗(yàn)內(nèi)容十分細(xì)微,僅僅是將標(biāo)題下的第一行正文添加到標(biāo)題行,形成一個(gè)更長的標(biāo)題行。這一簡單方案一開始并不被大家看好,因此這個(gè)需求的優(yōu)先級較低,被擱置了長達(dá)6個(gè)月之久。這一微小的改動(dòng)當(dāng)時(shí)僅僅在北美就為微軟創(chuàng)造了超過1億美元的年收入,可想而知AB實(shí)驗(yàn)帶來的潛在收益會(huì)有多大。事實(shí)上,微軟也是世界上最早采用A/B實(shí)驗(yàn)評估每一個(gè)重大feature的科技公司之一,從bing的搜索排序到MSN的交互設(shè)計(jì),數(shù)據(jù)驅(qū)動(dòng)的決策無處不在,每年為微軟規(guī)避大量風(fēng)險(xiǎn)并創(chuàng)造可觀回報(bào)。

谷歌早在2000年就嘗試通過AB實(shí)驗(yàn)來優(yōu)化搜索結(jié)果頁的結(jié)果條數(shù)。雖然當(dāng)時(shí)的第一個(gè)實(shí)驗(yàn)由于頁面加載過慢導(dǎo)致實(shí)驗(yàn)沒有達(dá)到預(yù)期結(jié)果,但是AB實(shí)驗(yàn)的基礎(chǔ)設(shè)施和通過實(shí)驗(yàn)評估迭代產(chǎn)品功能的理念就此生根發(fā)芽,為后續(xù)更加復(fù)雜的AB實(shí)驗(yàn)打下了基礎(chǔ)。在首次運(yùn)行AB實(shí)驗(yàn)11年之后,谷歌最多已經(jīng)同時(shí)運(yùn)行多達(dá)7000個(gè)不同的AB實(shí)驗(yàn)。2016年,谷歌對搜索結(jié)果頁的鏈接顏色進(jìn)行了實(shí)驗(yàn)。谷歌對進(jìn)入到搜索結(jié)果頁的用戶進(jìn)行隨機(jī)分流,一部分用戶看到的鏈接是藍(lán)色,另有一部分用戶看到的鏈接是黑色。谷歌甚至?xí)︽溄拥牟煌顪\的藍(lán)色做進(jìn)一步的實(shí)驗(yàn),在整整測試了41種藍(lán)色之后,找到了顏色最佳的那一抹藍(lán)。最終在實(shí)驗(yàn)中優(yōu)勝的藍(lán)色每年多為谷歌帶來兩億美元的收入。

字節(jié)跳動(dòng)有著非常濃厚的AB實(shí)驗(yàn)文化,在字節(jié)跳動(dòng)流行著這么一句話:AB 實(shí)驗(yàn),是一種信仰,萬物皆可試驗(yàn)。截至2022年8月,字節(jié)跳動(dòng)累計(jì)已有150W+ 次實(shí)驗(yàn),日新增實(shí)驗(yàn) 2000+,同時(shí)運(yùn)行實(shí)驗(yàn) 3W+,服務(wù) 500+ 業(yè)務(wù)線。

A/B實(shí)驗(yàn)廣泛應(yīng)用于字節(jié)跳動(dòng)方方面面,從產(chǎn)品命名到交互設(shè)計(jì),從改變字體、彈窗效果、界面大小,到推薦算法、廣告優(yōu)化、用戶增長。字節(jié)跳動(dòng)幾乎把AB實(shí)驗(yàn)應(yīng)用到了每一個(gè)業(yè)務(wù)和每一項(xiàng)決策中。字節(jié)跳動(dòng)的明星產(chǎn)品抖音,它的名字,就是AB實(shí)驗(yàn)的產(chǎn)物。字節(jié)跳動(dòng)做短視頻App的時(shí)候,將產(chǎn)品原型起成不同的名字、使用不同的Logo,封裝成不同的應(yīng)用包,在應(yīng)用商店做AB實(shí)驗(yàn)。在最后的實(shí)驗(yàn)結(jié)果中,雖然“抖音”這個(gè)名字在測試結(jié)果中只排名第二,但大家覺得,這個(gè)名字更符合用用戶認(rèn)知,更能體現(xiàn)它的形態(tài),所以還是選了它。

三、大型在線對照實(shí)驗(yàn),現(xiàn)代AB實(shí)驗(yàn)系統(tǒng)綜述

Instead of saying 'I have an idea', what if you said 'I have a new hypothesis , let's go test it, see if it's valid, ask how quickly can we validate it.' And if it's not valid, move on to the next one. —— Satya Nadella CEO, Microsoft

與其說'我有一個(gè)想法',不如說'我有一個(gè)新的假設(shè),讓我們?nèi)y試一下,看看它是否有效,問問我們能多快驗(yàn)證它。如果它無效,繼續(xù)下一個(gè)?!猄atya Nadella 微軟首席執(zhí)行官

在互聯(lián)網(wǎng)的應(yīng)用場景下,AB實(shí)驗(yàn)主要被用于大規(guī)模的在線測試,因此也被稱為在線對照實(shí)驗(yàn)(Online Controlled Experiment,OCE)或者在線AB實(shí)驗(yàn)。在線AB實(shí)驗(yàn)中,部分用戶被隨機(jī)選出參與實(shí)驗(yàn),并在打散后均勻分入不同的策略組。同時(shí)還會(huì)有日志系統(tǒng)根據(jù)實(shí)驗(yàn)配置情況標(biāo)記不同的用戶,并且記錄用戶的行為,然后大數(shù)據(jù)分析系統(tǒng)基于帶有實(shí)驗(yàn)標(biāo)記的日志數(shù)據(jù)計(jì)算各類實(shí)驗(yàn)指標(biāo)結(jié)果形成可供決策者參考的實(shí)驗(yàn)報(bào)告。于是產(chǎn)品運(yùn)營人員就可以通過這些指標(biāo)去分析不同的策略對實(shí)驗(yàn)用戶是否產(chǎn)生了作用,產(chǎn)生了什么樣的作用,是否符合實(shí)驗(yàn)假設(shè),最終科學(xué)指導(dǎo)產(chǎn)品的迭代方向。

1、AB實(shí)驗(yàn)的基本原理

為了驗(yàn)證一個(gè)新策略的效果,準(zhǔn)備原策略A和新策略B兩種方案。隨后在總體用戶中取出一小部分,將這部分用戶完全隨機(jī)地分在兩個(gè)組中,使兩組用戶在統(tǒng)計(jì)角度無差別。將原策略A和新策略B分別展示給不同的用戶組,一段時(shí)間后,結(jié)合統(tǒng)計(jì)方法分析數(shù)據(jù),得到兩種策略生效后指標(biāo)的變化結(jié)果,并以此判斷新策略B是否符合預(yù)期。上述過程即A/B實(shí)驗(yàn),亦被稱為“對照實(shí)驗(yàn)”或“小流量隨機(jī)實(shí)驗(yàn)”。


圖片

從不同角度來看,AB實(shí)驗(yàn)可以有幾種不同的分類。按照常見的分類方式,AB實(shí)驗(yàn)可以分為以下幾類:

從實(shí)驗(yàn)產(chǎn)品的形態(tài)來看,AB實(shí)驗(yàn)可以分為:手機(jī)App客戶端、桌面客戶端、手機(jī)Web頁面,桌面Web網(wǎng)頁等。

從實(shí)驗(yàn)分流服務(wù)的調(diào)用方式來看,AB實(shí)驗(yàn)可以分為:客戶端SDK分流、服務(wù)的HTTP接口分流等。

從實(shí)驗(yàn)分流的實(shí)驗(yàn)對象來看,AB實(shí)驗(yàn)可以分為:頁面類型、元素類型,用戶類型、會(huì)話類型等。

2、AB實(shí)驗(yàn)的隨機(jī)分流

開設(shè)A/B實(shí)驗(yàn),顧名思義,我們至少需要一個(gè)A組和一個(gè)B組,那么究竟是什么決定了哪些用戶被實(shí)驗(yàn)命中,以及哪些用戶進(jìn)入A組/B組呢?就是靠A/B實(shí)驗(yàn)分流服務(wù)。分流服務(wù)需要幫助實(shí)驗(yàn)者,從總體流量中抽取部分流量,并將抽取的流量隨機(jī)地分配進(jìn)A組與B組之中,盡量減少抽樣誤差。

在對實(shí)驗(yàn)對象進(jìn)行隨機(jī)分流時(shí),我們需要特別關(guān)注以下幾個(gè)問題:

  • 實(shí)驗(yàn)對象如何被隨機(jī)分為實(shí)驗(yàn)組和對照組
  • 實(shí)驗(yàn)量增加后,流量不夠用的問題如何解決
  • 不同層之間的正交性是如何實(shí)現(xiàn)并保證的

下面會(huì)著重討論這些問題。

① 哈希算法

隨機(jī)分流的隨機(jī)性是通過哈希算法來實(shí)現(xiàn)的。哈希函數(shù)在對用戶進(jìn)行分組的時(shí)候,由于只用到了用戶標(biāo)識,而且能把有規(guī)律的id集合散列的很均,所以在其他屬性(比如機(jī)型、地域、年紀(jì)、性別等)上能分得很均勻。哈希函數(shù)還有一個(gè)特性:如果輸入值是固定的,那么哈希函數(shù)的輸出值也是固定的。因此,哈希算法可以保證用戶不會(huì)跳組,即不會(huì)出現(xiàn)張三上午在版本A,下午在版本B。

AB實(shí)驗(yàn)分流系統(tǒng)中常見的散列算法有MD5、SHA、Murmur等,其中比較推薦的是Murmur。Murmur算法的計(jì)算性能更好,抗碰撞性更強(qiáng),均勻性、相關(guān)性也是最好的,因此在工程實(shí)踐中運(yùn)用最多。

② 實(shí)驗(yàn)層

實(shí)驗(yàn)層技術(shù)是為了讓多個(gè)實(shí)驗(yàn)?zāi)軌虿⑿胁幌嗷ジ蓴_,且都獲得足夠的流量而研發(fā)的流量分層技術(shù)。

假如現(xiàn)在有4個(gè)實(shí)驗(yàn)要進(jìn)行,每一個(gè)實(shí)驗(yàn)要取用30%的流量才能夠得出可信的實(shí)驗(yàn)結(jié)果。此時(shí)為了同時(shí)運(yùn)行這4個(gè)實(shí)驗(yàn)就需要4*30%=120%的流量,這意味著100%的流量不夠同時(shí)分配給這4個(gè)實(shí)驗(yàn)。那么此時(shí)我們只能選擇給實(shí)驗(yàn)排序,讓幾個(gè)實(shí)驗(yàn)先后完成,但是這樣會(huì)造成實(shí)驗(yàn)效率低下。

實(shí)驗(yàn)層技術(shù)就可以完美解決這個(gè)問題:我們把總體流量“復(fù)制”無數(shù)遍,形成無數(shù)個(gè)流量層,讓總體流量可以被無數(shù)次復(fù)用,從而提高實(shí)驗(yàn)效率。各層之間的流量是正交的,可以簡單理解為:在流量層選擇正確的前提下,流量經(jīng)過科學(xué)的分配,可以保證各實(shí)驗(yàn)的結(jié)果不會(huì)受到其他層實(shí)驗(yàn)的干擾。

③ 流量正交

流量正交指的是每個(gè)獨(dú)立實(shí)驗(yàn)為一層,一份流量穿越每層實(shí)驗(yàn)時(shí),都會(huì)隨機(jī)打散再重組,保證每層流量數(shù)量相同。

舉個(gè)例子。假設(shè)我現(xiàn)在有2個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)A(實(shí)驗(yàn)組標(biāo)記為A1,對照組標(biāo)記為A2)分布于實(shí)驗(yàn)層1,取用該層100%的流量;實(shí)驗(yàn)B(實(shí)驗(yàn)組標(biāo)記為B1,對照組標(biāo)記為B2)分布于實(shí)驗(yàn)層2,也取用該層100%的流量。(要注意,實(shí)驗(yàn)層1和實(shí)驗(yàn)層2實(shí)際上是同一批用戶,實(shí)驗(yàn)層2只是復(fù)用了實(shí)驗(yàn)層1的流量)

如果把A1組的流量分成2半,一份放進(jìn)B1組,一份放進(jìn)B2組;再把A2組的流量也分成2半,一份放進(jìn)B1組,一份放進(jìn)B2組。那么兩個(gè)實(shí)驗(yàn)對于流量的調(diào)用就會(huì)如下圖所示。此時(shí)實(shí)驗(yàn)A和實(shí)驗(yàn)B之間,就形成了流量“正交”。

我們可以發(fā)現(xiàn),因?yàn)锳1組的一半流量在B1中,另一半流量在B2中,因此即使A1的策略會(huì)對實(shí)驗(yàn)B產(chǎn)生影響,那么這種影響也均勻的分布在了實(shí)驗(yàn)B的兩個(gè)組之中;

在這種情況下,如果B1組的指標(biāo)上漲了,那么就可以排除B1是受A1影響才形成上漲。這就是流量正交存在的意義。


圖片

3、AB實(shí)驗(yàn)的指標(biāo)

在互聯(lián)網(wǎng)行業(yè)中,指標(biāo)是指反映某種事物或現(xiàn)象,描述在一定時(shí)間和條件下的規(guī)模、程度、比例、結(jié)構(gòu)等概念,通常由指標(biāo)名稱和指標(biāo)數(shù)值組成。指標(biāo),可以分為簡單計(jì)數(shù)型指標(biāo)和復(fù)合型指標(biāo)。

簡單計(jì)數(shù)型指標(biāo)是指可通過重復(fù)加1這一數(shù)學(xué)行為而獲得數(shù)值的指標(biāo),如UV(Unique Visit , 獨(dú)立訪客數(shù))、PV(Page View,頁面瀏覽量)。

復(fù)合型指標(biāo)是由簡單計(jì)數(shù)型指標(biāo)經(jīng)四則運(yùn)算后得到的,如跳出率、購買轉(zhuǎn)化率。

AB實(shí)驗(yàn)的指標(biāo),根據(jù)對實(shí)驗(yàn)影響的重要程度,有以下兩類需要重點(diǎn)關(guān)注:

① 核心指標(biāo)

核心指標(biāo),用來決策實(shí)驗(yàn)功能是否符合預(yù)期的「直接效果指標(biāo)」 也叫「成功指標(biāo)」。只可以設(shè)置一個(gè)指標(biāo)為某個(gè)實(shí)驗(yàn)的核心指標(biāo),可在實(shí)驗(yàn)報(bào)告里面查看實(shí)驗(yàn)數(shù)據(jù)。

比如開設(shè)「按鈕文案」的優(yōu)化實(shí)驗(yàn),那么「按鈕點(diǎn)擊率」就是該實(shí)驗(yàn)的核心指標(biāo)。

一般常見的核心指標(biāo),如下:

  • 轉(zhuǎn)化率、uv/au類,如留存率;
  • 人均次數(shù)類,如pv/au、pv/uv、sum/au、sum/uv;
  • 平均值類,如sum/pv;

② 圍欄指標(biāo)

圍欄指標(biāo),又稱必看指標(biāo),指的是必須守護(hù)的業(yè)務(wù)線指標(biāo),實(shí)驗(yàn)功能可能對其無直接的因果關(guān)聯(lián)、無法直接帶來提升,但一般而言不能對其有顯著負(fù)向影響。

4、AB實(shí)驗(yàn)的統(tǒng)計(jì)學(xué)原理

① 假設(shè)檢驗(yàn)

A/B實(shí)驗(yàn)的核心統(tǒng)計(jì)學(xué)理論是(雙樣本)假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn),即首先做出假設(shè),然后運(yùn)用數(shù)據(jù)來檢驗(yàn)假設(shè)是否成立。需要注意的是 ,我們在檢驗(yàn)假設(shè)時(shí),邏輯上采用了反證法。通過A/B實(shí)驗(yàn),我們實(shí)際上要驗(yàn)證的是一對相互對立的假設(shè):原假設(shè)和備擇假設(shè)。

原假設(shè)(null hypothesis):是實(shí)驗(yàn)者想要收集證據(jù)予以反對的假設(shè)。A/B實(shí)驗(yàn)中的原假設(shè)就是指“新策略沒有效果”。

備擇假設(shè)(alternative hypothesis):是實(shí)驗(yàn)者想要收集證據(jù)予以支持的假設(shè),與原假設(shè)互斥。A/B實(shí)驗(yàn)中的備擇假設(shè)就是指“新策略有效果”。

利用反證法來檢驗(yàn)假設(shè),意味著我們要利用現(xiàn)有的數(shù)據(jù),通過一系列方法證明原假設(shè)是錯(cuò)誤的(偽),并借此證明備擇假設(shè)是正確的(真)。這一套方法在統(tǒng)計(jì)學(xué)上被稱作原假設(shè)顯著性檢驗(yàn) null hypothesis significance testing (NHST)。

舉個(gè)例子:我們要針對某頁面的購買按鈕做一個(gè)實(shí)驗(yàn)。我認(rèn)為:將購買按鈕的顏色從藍(lán)色改為紅色,可以提高購買率3%。在這個(gè)實(shí)驗(yàn)中,我們想通過統(tǒng)計(jì)學(xué)檢驗(yàn)的“原假設(shè)”就是“購買按鈕改成紅色不能提升購買率”;“備擇假設(shè)”就是“購買按鈕改成紅色能夠提升購買率”。這是一對互斥的假設(shè)。也就是說,實(shí)際上我們要證明的就是“改成紅色不能提升購買率”是錯(cuò)誤的。

② 第一類錯(cuò)誤和顯著性水平(α)

第一類錯(cuò)誤,指原假設(shè)正確(真),但是我們假設(shè)檢驗(yàn)的結(jié)論卻顯示原假設(shè)錯(cuò)誤。這一過程中我們拒絕了正確的原假設(shè),所以第一類錯(cuò)誤是“棄真”。

第一類錯(cuò)誤在實(shí)際操作中表現(xiàn)為:實(shí)驗(yàn)結(jié)論顯示我的新策略有用,但實(shí)際上我的新策略沒有用。

在統(tǒng)計(jì)學(xué)中,我們用顯著性水平(α)來描述實(shí)驗(yàn)者犯第一類錯(cuò)誤的概率。

當(dāng)某個(gè)實(shí)驗(yàn)組的指標(biāo)是顯著的,說明這個(gè)實(shí)驗(yàn)結(jié)果大概率是可信的。這個(gè)概率是95%,也就是說,系統(tǒng)有95%的信心確認(rèn)這個(gè)實(shí)驗(yàn)結(jié)果是準(zhǔn)確的。

顯著性水平存在的意義是什么?

一個(gè)按鈕從藍(lán)色改成紅色,一個(gè)窗口從左邊移到右邊,到底用戶體驗(yàn)會(huì)變好還是變差呢?我們并不確定,因此我們試圖使用A/B實(shí)驗(yàn)的辦法,幫助我們轉(zhuǎn)化這種“不確定”——觀察小流量實(shí)驗(yàn)中新舊策略的表現(xiàn),從而確定新舊策略的優(yōu)劣。

但是,這樣就能完全消除不確定性了嗎?答案是不能,因?yàn)榇嬖诔闃诱`差。

舉個(gè)例子,假設(shè)瑞士人均收入為中國的十倍,那么隨機(jī)抽三個(gè)瑞士人和三個(gè)中國人,能保證樣本里這三個(gè)瑞士人的平均收入是三個(gè)中國人的十倍嗎?萬一這三個(gè)中國人是馬云,王健林和一個(gè)小學(xué)生呢?

反過來想,假設(shè)在1%的流量下,組A(按鈕呈紅色)比組B(按鈕呈現(xiàn)藍(lán)色)購買率高,將流量擴(kuò)大至100%,能保證策略A的表現(xiàn)仍舊比策略B出色嗎?顯然,我們還是不確定。

抽樣誤差帶來的不確定性,使得我們在做小流量實(shí)驗(yàn)時(shí),永遠(yuǎn)沒法保證結(jié)論是完全正確的。幸運(yùn)的是,對于抽樣的不確定性,在統(tǒng)計(jì)學(xué)中,我們有一套方法來量化這種不確定性到底有多大,這便是顯著性水平(α)存在的意義。

③ 第二類錯(cuò)誤( β )和統(tǒng)計(jì)功效(statistics power)

第二類錯(cuò)誤,指原假設(shè)錯(cuò)誤(偽),但是我們假設(shè)檢驗(yàn)的結(jié)論卻顯示“原假設(shè)正確(真)、備擇假設(shè)是錯(cuò)誤的”,這一過程中我們接受了錯(cuò)誤的原假設(shè),所以第二類錯(cuò)誤是“取偽”。

第二類錯(cuò)誤在實(shí)際操作中表現(xiàn)為:我的新策略其實(shí)有效,但實(shí)驗(yàn)沒能檢測出來。

在統(tǒng)計(jì)學(xué)中,統(tǒng)計(jì)功效 = 1 - 第二類錯(cuò)誤的概率,統(tǒng)計(jì)功效在現(xiàn)實(shí)中表現(xiàn)為:我的新策略是有效的,我有多大概率在實(shí)驗(yàn)中檢測出來。

④ 統(tǒng)計(jì)顯著性/置信水平/置信度/置信系數(shù)

置信水平(也稱置信度、置信系數(shù)、統(tǒng)計(jì)顯著性),指實(shí)驗(yàn)組與對照組之間存在真正性能差異的概率,實(shí)驗(yàn)組和對照組之間衡量目標(biāo)(即配置的指標(biāo))的差異不是因?yàn)殡S機(jī)而引起的概率。置信水平使我們能夠理解結(jié)果什么時(shí)候是正確的,對于大多數(shù)企業(yè)而言,一般來說,置信水平高于95%都可以理解為實(shí)驗(yàn)結(jié)果是正確的。因此,默認(rèn)情況下,「A/B 測試」產(chǎn)品將置信水平參數(shù)值設(shè)置為95%。

在A/B實(shí)驗(yàn)中,由于我們只能抽取流量做小樣本實(shí)驗(yàn)。樣本流量的分布與總體流量不會(huì)完全一致,這就導(dǎo)致沒有一個(gè)實(shí)驗(yàn)結(jié)果可以100%準(zhǔn)確——即使數(shù)據(jù)漲了,也可能僅僅由抽樣誤差造成,跟我們采取的策略無關(guān)。在統(tǒng)計(jì)學(xué)中,置信度的存在就是為了描述實(shí)驗(yàn)結(jié)果的可信度。

在實(shí)驗(yàn)的過程中,我們所抽取的樣本流量實(shí)際上與總體流量會(huì)存在些許的差異,這些差異就決定了我們通過實(shí)驗(yàn)得出的結(jié)論或多或少會(huì)存在一些“誤差”。

舉個(gè)例子,實(shí)驗(yàn)中,我通過改變落地頁的顏色讓購買率提升了3%,但是因?yàn)闃颖玖髁坎⒉荒芡耆砜傮w流量,有可能“我改變顏色這一策略其實(shí)沒用,購買率提升3%是抽樣結(jié)果導(dǎo)致的”。

那么發(fā)生這種“我的策略其實(shí)沒用”事件的概率有多大呢?在統(tǒng)計(jì)學(xué)中,我們會(huì)用“顯著性水平(α)”來描述發(fā)生這一事件的概率是多少。而置信度=1-α。

在「A/B 測試」產(chǎn)品上,根據(jù)業(yè)界標(biāo)準(zhǔn),顯著性水平α取0.05。在A/B實(shí)驗(yàn)中,如果發(fā)生“我的策略其實(shí)沒用”這一事件的概率小于0.05,我們即稱實(shí)驗(yàn)結(jié)論已經(jīng)“統(tǒng)計(jì)顯著/可置信”。這意味著你采取的新策略大概率(A/B實(shí)驗(yàn)中意味著大于95%)是有效的。相反,如果這一事件的概率大于0.05,則稱實(shí)驗(yàn)結(jié)論“不顯著/不可置信”。

⑤ 中心極限定理

顯著性水平的理論依據(jù)便是中心極限定理。我們可以量化抽樣誤差的根基在于中心極限定理的存在。

什么是中心極限定理?

由于存在抽樣誤差,我們每次實(shí)驗(yàn)所得到的指標(biāo)結(jié)果,都可能與我們期望得到的真正結(jié)果有誤差。假設(shè)我們從總體中抽取樣本,計(jì)算其指標(biāo)的均值,每一次計(jì)算,樣本均值都會(huì)受抽樣誤差影響。假如我們做無數(shù)多次實(shí)驗(yàn),那么理論上,這無數(shù)多個(gè)樣本均值中,總應(yīng)該有一個(gè)是“真的”,不受抽樣誤差影響的,這個(gè)值在統(tǒng)計(jì)學(xué)里被稱為“真值”。

中心極限定理定告訴我們,如果我們從總體流量里不斷抽取樣本,做無數(shù)次小流量實(shí)驗(yàn),這無數(shù)次抽樣所觀測到的均值,近似呈現(xiàn)正態(tài)分布(就是下圖這樣的分布)。這個(gè)分布以真值為中心,均值越接近真值,出現(xiàn)的概率就越大;反之均值越偏離真值,出現(xiàn)的概率就越小。

PS:此處為了便于理解,放棄了闡述統(tǒng)計(jì)學(xué)概念,僅從A/B實(shí)驗(yàn)場景下出發(fā),解釋中心極限定理。


圖片

為什么樣本均值越接近真值,出現(xiàn)的概率越大?

舉個(gè)例子,如果從全中國人這個(gè)總體中,抽取很多很多次樣本,計(jì)算很多很多次平均收入。

可以預(yù)見,我們會(huì)因?yàn)闃颖静煌玫胶芏鄠€(gè)不同的平均收入值。這些數(shù)值確實(shí)有可能因?yàn)榕既怀榈巾敿壐缓蓝撸蛞驗(yàn)槌榈綐O貧困的人口而偏低。但是,上述兩種情況畢竟是少數(shù)(均值越偏離真值,出現(xiàn)的概率小)。隨著抽樣次數(shù)增多,我們會(huì)發(fā)現(xiàn),平均收入落在大多數(shù)普通人收入范圍內(nèi)的次數(shù),會(huì)顯著增多(均值接近真值,出現(xiàn)的概率大)。并且,有了中心極限定理的幫助,我們可以知道每個(gè)均值出現(xiàn)的概率是多少。

5、AB實(shí)驗(yàn)的應(yīng)用場景

產(chǎn)品優(yōu)化迭代的各方面都可以使用AB實(shí)驗(yàn),其中有以下幾類典型應(yīng)用場景:

① 產(chǎn)品優(yōu)化

產(chǎn)品優(yōu)化的最終目的在于提升每一個(gè)用戶的用戶體驗(yàn),理想的用戶體驗(yàn)是用戶感到高興、滿足、驕傲甚至是愛上這款產(chǎn)品。不過,一千個(gè)人眼中有一千個(gè)哈姆雷特。每個(gè)人對于美的喜好都不相同,有的時(shí)候甚至是完全不一樣的。尤其是在面對來自不同背景不同文化的用戶的時(shí)候,產(chǎn)品運(yùn)營和設(shè)計(jì)人員更難以準(zhǔn)確揣摩用戶的喜好。汝之砒霜彼之蜜糖,只有通過AB實(shí)驗(yàn)才能夠科學(xué)衡量不同設(shè)計(jì)方面的實(shí)際效果。

② 算法迭代

互聯(lián)網(wǎng)時(shí)代發(fā)展到今天,算法已經(jīng)滲透到了互聯(lián)網(wǎng)產(chǎn)品中的每一個(gè)角落,從短視頻信息流,電商購物,打車出行,到個(gè)性化音樂視頻推薦,每一項(xiàng)功能背后可能都蘊(yùn)含著復(fù)雜的算法。以推薦系統(tǒng)中的推薦算法為例,特別是廣泛應(yīng)用的深度學(xué)習(xí)模型,參數(shù)的量級可能是上千萬的,有著很強(qiáng)的黑盒屬性,完全依靠人工優(yōu)化已經(jīng)不再現(xiàn)實(shí)。優(yōu)化一個(gè)特征、一個(gè)模型、一路算法、一個(gè)參數(shù)之后,用戶體驗(yàn)如何,是不是向著期望的方向迭代,都無法簡單通過經(jīng)驗(yàn)來判斷。算法模型參數(shù)復(fù)雜,影響因子眾多,一個(gè)簡單的策略優(yōu)化對用戶體驗(yàn)的影響是難以預(yù)料的。如果不用AB實(shí)驗(yàn),我們很難評估算法模型的實(shí)際效能??梢哉f,AB實(shí)驗(yàn)是智能時(shí)代算法迭代的最佳搭檔。

③ 私域運(yùn)營

客戶運(yùn)營場景下的許多活動(dòng),例如用戶社交裂變、紅包活動(dòng)、短信拉活都是可以使用AB實(shí)驗(yàn)的典型場景。使用大額紅包等運(yùn)營策略,一般都可以在短時(shí)間內(nèi)大幅提升產(chǎn)品的各項(xiàng)核心數(shù)據(jù),但是誰也沒法說準(zhǔn)是否能夠有效提升長期roi,很多情況下成本過高的運(yùn)營活動(dòng)可能在整個(gè)用戶生命周期都無法回本,長期以往對于產(chǎn)品的長遠(yuǎn)發(fā)展無異于飲鴆止渴。如果沒有AB實(shí)驗(yàn)的科學(xué)量化和數(shù)據(jù)說話,很難避免短期利益對于長期利益的損害。

④ 公域營銷

公域下的廣告營銷也是一個(gè)典型的可以使用AB實(shí)驗(yàn)的場景。“我有一半的廣告費(fèi)都被浪費(fèi)了,但就是不知道是哪一半?!? 零售大亨約翰·沃納梅克這句經(jīng)典名言被稱為廣告界的哥特巴赫猜想,道出了廣告營銷的難點(diǎn)。應(yīng)該如何科學(xué)的衡量廣告的效果一直既是業(yè)界的重點(diǎn)、熱點(diǎn)也是難點(diǎn)?;贏B實(shí)驗(yàn),我們可以針對性別、年齡、職業(yè)、地域等不同的廣告人群定向,或者不同的廣告預(yù)算出價(jià)、風(fēng)格各異的廣告素材,乃至線上線下不同的廣告投放渠道等進(jìn)行科學(xué)的對照實(shí)驗(yàn),發(fā)掘出最優(yōu)的投放策略,有望為廣大廣告主節(jié)省下巨額的營銷資金。

四、展望未來。所有企業(yè)都是數(shù)據(jù)驅(qū)動(dòng)的企業(yè),AB測試不可或缺

動(dòng)蕩時(shí)代最大的危險(xiǎn)不是動(dòng)蕩本身,而是仍然用過去的邏輯做事?!说谩さ卖斂?/p>

我們知道數(shù)據(jù)驅(qū)動(dòng)這個(gè)概念。

如今,越來越多的企業(yè)正在積極擁抱數(shù)據(jù)驅(qū)動(dòng),希望通過數(shù)據(jù)技術(shù)來幫助業(yè)務(wù)做好科學(xué)決策

展望未來,在數(shù)字化轉(zhuǎn)型的大背景下,所有企業(yè)都將會(huì)變成數(shù)據(jù)驅(qū)動(dòng)的企業(yè),AB測試也將會(huì)成為數(shù)據(jù)驅(qū)動(dòng)下的一種“標(biāo)配”,驅(qū)動(dòng)企業(yè)科學(xué)增長。

一個(gè)社會(huì)的發(fā)明創(chuàng)新力是生產(chǎn)率的主要驅(qū)動(dòng)因素。創(chuàng)新和商業(yè)精神是經(jīng)濟(jì)繁榮的命脈。

AB測試讓大膽創(chuàng)新快速試錯(cuò)成為可能,能夠激發(fā)創(chuàng)新,提升收益。改良、發(fā)明、發(fā)現(xiàn)和從失敗中吸取教訓(xùn)的動(dòng)力使人們不斷學(xué)習(xí),發(fā)現(xiàn)新的、更好的方法,創(chuàng)造有價(jià)值的東西。通過科學(xué)的AB測試,我們可以確保每個(gè)決策都能帶來正向收益,實(shí)現(xiàn)復(fù)利效應(yīng),實(shí)現(xiàn)正向循環(huán)的可持續(xù)增長。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2018-02-01 16:25:55

2022-06-09 09:48:46

AI預(yù)測醫(yī)療

2023-10-09 08:22:18

驅(qū)動(dòng)科學(xué)數(shù)據(jù)分析因素

2023-11-06 10:34:19

數(shù)據(jù)科學(xué)數(shù)據(jù)驅(qū)動(dòng)

2024-10-29 20:54:53

2019-08-05 11:01:24

2018-03-26 09:11:09

數(shù)據(jù)機(jī)器學(xué)習(xí)崗位

2022-11-23 10:31:54

2019-04-15 11:00:51

人工智能AI

2014-07-30 10:25:47

大數(shù)據(jù)華為

2023-09-22 11:32:31

數(shù)字化轉(zhuǎn)型數(shù)字經(jīng)濟(jì)

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2015-06-25 13:36:56

好代碼科學(xué)定義

2015-11-16 14:40:15

數(shù)據(jù)科學(xué)

2019-06-10 16:08:06

數(shù)據(jù)科學(xué)家數(shù)據(jù)驅(qū)動(dòng)原則

2021-05-10 11:33:11

數(shù)字化

2018-06-29 16:00:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)清理數(shù)據(jù)分析

2020-05-27 11:16:49

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號