數(shù)據(jù)科學(xué)在騰訊內(nèi)容生態(tài)中的應(yīng)用
一、數(shù)據(jù)是什么樣子的?
1、正態(tài)分布
統(tǒng)計(jì)學(xué)教材中首個(gè)連續(xù)分布就是正態(tài)分布。如圖中所示,正態(tài)分布看上去是一個(gè)對(duì)稱的鐘型分布圖形。在正態(tài)分布里,均值、中位數(shù)和眾數(shù)一般是相等的。教材中有兩個(gè)經(jīng)典的正態(tài)分布的例子:考試分?jǐn)?shù)的分布和新生兒體重的分布。還比如諾貝爾獎(jiǎng)得主年齡的分布,也是正態(tài)分布。
雖然正態(tài)分布很經(jīng)典,應(yīng)用很廣泛,但是從個(gè)人角度而言,這個(gè)分布在日常生活中感知并不強(qiáng)烈。用成年人的身高來(lái)舉例,雖然我們知道身邊很多朋友的身高,但是在腦海里很難形成一個(gè)很鮮明的分布的概念。
而在日常生活中,讓我感知比較強(qiáng)烈的是另外一個(gè)分布——Power Law。
2、The Power Law
Power Law 分布如圖中雷龍的樣子,在較小的范圍里相對(duì)小的值有很高的概率出現(xiàn),而右邊的尾巴很長(zhǎng),極大值可以很大,但出現(xiàn)的頻率卻很低。在這樣的分布里,因?yàn)榇嬖跇O大值,所以其均值大于中位數(shù)大于眾數(shù)。舉一些例子:
- 常見(jiàn)的城市人口數(shù)量分布,2000 年美國(guó)超過(guò) 1 萬(wàn)人的城市的人口數(shù)量分布,是一個(gè)很明顯的 Power Law 分布,大城市的數(shù)量極少。
- 在自然界中,地震深度的分布也屬于 Power Law 分布,比如上圖所示的 2020 年之前土耳其所有 4.0 級(jí)以上地震的深度的分布。
- Startup 價(jià)值的分布,那些 venture capital 真正想投資追逐的是最后的尾部,但凡能命中 top one,不會(huì)在意 top two。
為什么人們對(duì) Power Law 的分布感知更強(qiáng)烈呢?比如提到城市人口數(shù)量,大家能馬上想到的大城市只有少數(shù)幾個(gè),超過(guò) 2000 萬(wàn)人的城市如北京、上海,小一些的 400 萬(wàn)人口的城市如大連等。剩下一些非常小的城市,甚至想不起來(lái)名字,也不會(huì)在腦海里浮現(xiàn)出來(lái)。又比如每天上下班通勤中,大多數(shù)路口的車流量實(shí)際上并不高,只有個(gè)別路口非常堵。說(shuō)起來(lái)哪最堵,大家心里都比較清楚。因此在日常生活中對(duì) Power Law 感知更加強(qiáng)烈。
3、為什么 Power Law 常見(jiàn)?
為什么 Power Law 數(shù)據(jù)在日常生活中這么常見(jiàn)?
從抽象的角度來(lái)講,human-related networks 數(shù)據(jù)最終都會(huì)呈現(xiàn)出 Power Law 的情況。因?yàn)槿祟惖南埠檬怯泄残缘?,做出的選擇大多都是相似的,這導(dǎo)致了個(gè)別數(shù)據(jù)非常集中。
比如,我們可以把每個(gè)人想象成一個(gè)點(diǎn),若在 Facebook 或者 Twitter 上有 follow 好友的關(guān)系,就將這兩點(diǎn)連線,最終呈現(xiàn)出如上圖 1 的關(guān)系。從內(nèi)容生態(tài)角度而言,也可以把內(nèi)容或創(chuàng)作者看作一個(gè)點(diǎn),若同一個(gè) c 端用戶消費(fèi)內(nèi)容就畫(huà)一條邊,最終呈現(xiàn)的也是如上圖 1 的樣子。所以這種有 pattern 的圖,每一個(gè)節(jié)點(diǎn)的邊的數(shù)量大概率呈現(xiàn)為 Power Law。而真正隨機(jī)產(chǎn)生的一個(gè) network graph 則是像上圖 2。
這就是抽象機(jī)制。
理論機(jī)制也存在多種,這里舉 3 個(gè)例子:
Proportional random growth 機(jī)制
假設(shè)有固定數(shù)量的隨機(jī)變量,用 s 表示,每一個(gè)時(shí)間可取到的值=上一個(gè)時(shí)間的值 × 隨機(jī)變量 γ。這里面的 γ 是 iid 的隨機(jī)變量,有 pdf f,γ>0。在 t+1 時(shí)刻,隨機(jī)變量大于某一個(gè)固定值的概率,我們把它定義為 function
。它與
相關(guān),所以如圖中間公式所示。最終可以寫(xiě)成一個(gè)期望的形式,這個(gè)期望又可以展開(kāi)成一個(gè)積分形式,因?yàn)橐阎?density function 是 f,如果滿足一定條件,system 最終會(huì)達(dá)到一個(gè)均衡狀態(tài)。均衡狀態(tài)是指 function G 不隨時(shí)間的變化而變化,就可把時(shí)間的角標(biāo)去掉, 得出 function G 等于積分里面的 function G 等式。
function G 的 solution 可以是什么形式?如果 function a over x to the power k 滿足積分等于 1 的條件下,function G 的 parameter k,能滿足積分形式的 G 就是最后等式的一個(gè) solution。它恰好是一個(gè) Power Law 分布的 1 減 CDF 的 function。所以在 proportional random growth 這種情況下,當(dāng)系統(tǒng)達(dá)到均衡的狀態(tài),會(huì)得到一個(gè) Power Law 的分布。
Transformations of PLs
當(dāng)我們對(duì) Power Law 的 random variable 進(jìn)行一些操作,比如把它們相加、相乘、取最小值或取最大值等。最終都會(huì)得到一個(gè)新的 Power Law 分布。
Matching and equilibriumn
第三個(gè)形成機(jī)制是經(jīng)濟(jì)學(xué)的一個(gè)理論,叫做 matching。分享一個(gè) CEO 工資的例子。
大家都知道 CEO 的工資都很高,而且大公司往往比小公司高了很多。這是為什么呢?
先來(lái)介紹背景,公式中的 n 代表公司的角標(biāo),S of n 表示第 n 個(gè)公司的規(guī)模;m 表示 CEO 候選人角標(biāo),T(m)表示 CEO 才華價(jià)值;ω(m) 表示第 m 個(gè) CEO 候選人的薪水范圍。
針對(duì)每一個(gè)公司,都希望能最大化 T(m)-ω(m) 的差值。這里面還有一個(gè)參數(shù) γ,表示大公司相對(duì)于小公司而言,在短時(shí)間內(nèi)更難被 CEO 改變,即 γ<1。
若存在最優(yōu)解,那么 objective function 的一階導(dǎo)數(shù)是 0,變量是 m,因此若對(duì) t 取導(dǎo),乘以它減去 γ 的導(dǎo)數(shù),最終等于 0,于是得出一個(gè)表達(dá)形式。
在 paper 里面,基于歷史數(shù)據(jù),researcher 對(duì) s 的形式作了假設(shè),假設(shè)公司規(guī)模服從帕累托分布,有參數(shù) γ 對(duì)于 CEO 候選人的才華價(jià)值的導(dǎo)數(shù),并且右側(cè)尾巴是滿足一定指數(shù)的。經(jīng)過(guò)一番處理之后,最終得出上圖中的公式。
這篇 paper 里面,他們研究對(duì)象是世界 500 強(qiáng)的公司,按公司規(guī)模從大到小排序, n star 250 就是第 250 個(gè)公司。最后 paper 里做了一些 calibration,發(fā)現(xiàn) γ 的值基本上就是 1,β 與 α 的比值約為 2: 3 。
還有一個(gè)有趣的結(jié)論,他們發(fā)現(xiàn)在最大的和中位數(shù)的公司中,兩者的 CEO 的才華價(jià)值差異小于 1% ,但是前者的工資卻是后者的 5 倍。這也解釋了為什么 CEO 的工資的分布屬于 Power Law。
另外也從側(cè)面印證了,在許多優(yōu)化問(wèn)題里,若原始的數(shù)據(jù)存在 Power Law 分布,它最后的結(jié)果很可能也是 Power Law 的分布。
4、內(nèi)容生態(tài)數(shù)據(jù):the Power Law
如圖中所示,展示了 3 個(gè)產(chǎn)品 c 端用戶單天消費(fèi)時(shí)長(zhǎng)的分布。這里選了 3 個(gè)產(chǎn)品,藍(lán)色的圖為短視頻產(chǎn)品,紅色和綠色為信息流類的產(chǎn)品。
上面小圖是原始數(shù)據(jù)的分布,由于第一個(gè)柱子特別高,無(wú)法查看具體的 pattern,因此取了對(duì)數(shù)進(jìn)行分析,取對(duì)后發(fā)現(xiàn)均類似鐘型的對(duì)稱分布。
中間的圖與左側(cè)圖類似,中間圖為內(nèi)容流量的分布,依舊看不出什么 pattern。取對(duì)后發(fā)現(xiàn),它依舊是 Power Law 形式的分布,右側(cè)有一個(gè)長(zhǎng)尾巴,大部集中在前面比較小的范圍里。所以對(duì)比單天的用戶消費(fèi)時(shí)長(zhǎng)和內(nèi)容流量的分布,是類似的,其實(shí)在我們的生態(tài)里面,10% 的內(nèi)容貢獻(xiàn)了 90% 的流量。
大多數(shù)時(shí)候,大家遇到右側(cè)尾部很長(zhǎng)的分布,會(huì)對(duì)尾部更感興趣。比如對(duì)這三個(gè)數(shù)據(jù),分別用 truncated,log normal 還有 Power Law 對(duì)它們做擬合。但并未發(fā)現(xiàn) Power Law 或 log normal 的顯著優(yōu)勢(shì)。
二、我們可以做什么?
1、厚尾分布及其性質(zhì)
當(dāng)我們看到 Power Law 的數(shù)據(jù),可以做些什么呢?
先來(lái)看 Power Law 分布具體的定義和性質(zhì)?;旧峡吹脚c雷龍相似的分布就認(rèn)為是Power Law。但這只是一個(gè)比較通用的概念。準(zhǔn)確來(lái)說(shuō),我們只能說(shuō)它是一個(gè)厚尾分布。厚尾分布根據(jù)尾巴的厚度從薄到厚,常用的有以下三種:
- 第一種是大家熟悉的指數(shù)分布。
- 尾巴稍微厚一點(diǎn)的就是 Log-normal 分布,就是隨機(jī)變量 take log 之后是正態(tài)的,所以它就是一個(gè) log-normal distribution。常用的是 truncate 以后的 version,比如我們更關(guān)心它右側(cè)長(zhǎng)的是什么樣子的。
- 最后一個(gè)指的是一類分布,最著名的例子就是帕累托分布,還有 Zeta 分布、Zipfian 分布。
Power Law 分布有如下性質(zhì):
其中最著名的就是二八法則,又稱為 Pareto principle。表示 80% 的結(jié)果均由 20% 的原因造成的。更準(zhǔn)確地講,它是一個(gè)特殊的帕累托分布,所產(chǎn)生的現(xiàn)象就是 ship parameter 等于 1.16 的帕累托分布。在日常工作中,我們可以花更多的精力和資源去抓住重要的 20%,這樣就能拿到大部分的收益。
第二個(gè)性質(zhì)是針對(duì)整個(gè) Power Law 的,當(dāng)參數(shù) k 大于 2,它才有 finite mean;當(dāng)參數(shù) k 大于 3,它才有 finite variance。這就存在一些潛在問(wèn)題,如應(yīng)用很廣的理論 central limit theorem,它要求隨機(jī)變量的均值和方差都是定義良好的。但若 Power Law 存在,且 variance 不在有限的情況下,會(huì)導(dǎo)致 central limit theorem 失效;或者是 variance 很大的時(shí)候,其收斂速度會(huì)很慢。另外一個(gè)問(wèn)題是,central limit theorem 只描述了 sample mean 中心部分分布的樣子,它會(huì)最終收斂成正態(tài)分布,但并不關(guān)注尾部特征。對(duì)這部分感興趣的同學(xué)可以看一下大偏差理論 large deviation principle。
Power Law 的這兩個(gè)性質(zhì),可能會(huì)在日常應(yīng)用中帶來(lái)一些風(fēng)險(xiǎn)。比如在 AB 實(shí)驗(yàn)中,可能因?yàn)閭€(gè)別極端值的存在,導(dǎo)致 AB 分組本身存在一定的差異。
第二個(gè)問(wèn)題是 10-Sigma event 會(huì)比我們預(yù)想中更容易發(fā)生。有一個(gè)經(jīng)典的例子,在 1998 年時(shí),名為 long term capital management 的對(duì)沖基金因?yàn)榧僭O(shè)了某個(gè)貨幣的一些 movements 是服從正態(tài)分布的,從而低估了風(fēng)險(xiǎn),結(jié)果發(fā)生了 10-Sigma event 的發(fā)生,這是一個(gè)小概率的事情,但導(dǎo)致了他們破產(chǎn)。
2、Power Law 應(yīng)用例子
(1)網(wǎng)頁(yè)搜索瀏覽
第一個(gè)例子,谷歌的網(wǎng)頁(yè)瀏覽量基本上是服從 Zipf’s law。谷歌在做網(wǎng)頁(yè)索引時(shí),最高優(yōu)的索引池的量級(jí)是相對(duì)較小的,只有百萬(wàn)級(jí)別,網(wǎng)頁(yè)的索引可以達(dá)到秒級(jí)的更新。而谷歌的全量索引池是千億級(jí)別的,只能達(dá)到小時(shí)或者天級(jí)的更新。即便是這樣,只有一個(gè)規(guī)模如此之小的高優(yōu)索引池,也可讓谷歌的搜索提供高質(zhì)量的搜索體驗(yàn),就是因?yàn)?Zipf’s law 的存在。
另外一個(gè)原因是,部分網(wǎng)頁(yè)不需要更新這么快,比如 Wikipedia 中線性規(guī)劃的網(wǎng)頁(yè),質(zhì)量很高,但更新頻率很慢,而且不會(huì)存在顛覆性的更新,所以即便它是一個(gè)好的網(wǎng)頁(yè),也不需要進(jìn)最高優(yōu)的索引池。一般只有新聞或者是體育賽事的實(shí)況信息才需進(jìn)入高優(yōu)搜索池。
第二個(gè)例子也與搜索相關(guān),現(xiàn)在很多搜索結(jié)果都是在右上方 knowledge panel,只有一小部分會(huì)被高頻率地訪問(wèn)到。因此只有這些 hot part 才會(huì)被頻繁地更新,而那些 cold part 更新速度比較慢。
我們可以將這兩個(gè)優(yōu)點(diǎn)利用得很好,但需要注意 Power Law 帶來(lái)的問(wèn)題。
比如大家以 URL 為單位,以點(diǎn)擊量作為觀測(cè)數(shù)據(jù)進(jìn)行 AA 實(shí)驗(yàn),即便是百萬(wàn)量級(jí),最后也可能因?yàn)橐粌蓚€(gè)網(wǎng)頁(yè)導(dǎo)致均值上顯著的差異。因此在谷歌絕大部分實(shí)驗(yàn)都是以 query 為單位進(jìn)行的。為了克服這個(gè)問(wèn)題還有其他方法,拿到實(shí)驗(yàn)數(shù)據(jù)時(shí)并不能直接得出結(jié)論,而是需要進(jìn)一步做一些分析,常用分析方法有 DID、propensity score matching 或者是 propensity score weighting 等。
(2)書(shū)店對(duì)比
第二個(gè)例子是兩個(gè)書(shū)店的對(duì)比。
Barnes & noble 是美國(guó)常見(jiàn)的連鎖實(shí)體書(shū)店。Amazon 是電商。Barnes & noble 的藏書(shū)量?jī)H幾十萬(wàn)本,但是亞馬遜只有 30% 銷售的是 Barnes & noble 沒(méi)有的書(shū)。正因?yàn)槎朔▌t的存在,這樣小的實(shí)體書(shū)店才得以存活下來(lái),并且規(guī)模是越來(lái)越大。這就類似阿基米德說(shuō)的,給一個(gè)杠桿,就能敲起地球。
三、我們是怎么做的?
1、內(nèi)容中臺(tái):全鏈路統(tǒng)籌優(yōu)化,以小換大
如圖所示,在傳統(tǒng)的內(nèi)容生態(tài)行業(yè)里,供應(yīng)鏈流程如下:
- 首先需要內(nèi)容創(chuàng)作者進(jìn)行內(nèi)容生產(chǎn)。
- 然后業(yè)務(wù)將數(shù)據(jù)收集并進(jìn)行進(jìn)一步的加工,如安全性、分類、打 tag 等。
- 接著進(jìn)入推薦或者搜索的場(chǎng)景進(jìn)行分發(fā)。
- 最終才能觸達(dá)到 c 端的用戶。
在傳統(tǒng)的供應(yīng)鏈里,每一個(gè)環(huán)節(jié)只能接觸到上游或者下游的數(shù)據(jù),很難做到全鏈路的統(tǒng)籌優(yōu)化。而在數(shù)據(jù)科學(xué)中心則會(huì)得到全業(yè)務(wù)鏈路每一個(gè)環(huán)節(jié)的數(shù)據(jù),因此我們可以做的優(yōu)化工作有很多。舉 3 個(gè)偏傳統(tǒng)統(tǒng)計(jì)和概率的例子:
- 內(nèi)容生產(chǎn)環(huán)節(jié)上,可以通過(guò)時(shí)間序列進(jìn)行發(fā)文預(yù)估,甚至可進(jìn)一步地讓業(yè)務(wù)對(duì)各自的進(jìn)行預(yù)算預(yù)估和分配資源。
- 通過(guò)整數(shù)規(guī)劃找到一些相對(duì)不重要的內(nèi)容或創(chuàng)作者,調(diào)整策略。
- 概率論的應(yīng)用,實(shí)現(xiàn)自動(dòng)對(duì)發(fā)文量的異動(dòng)進(jìn)行歸因,節(jié)省了人力的成本。
在信息內(nèi)容的收集和處理環(huán)節(jié)也有很多比較偏算法的項(xiàng)目:
- 用圖論描述創(chuàng)作者是什么樣子的。比如一個(gè)創(chuàng)作者他擅長(zhǎng)的話題和程度,或者表示原創(chuàng)、搬運(yùn)或人格化程度很高等。
- 通過(guò)樹(shù)模型,對(duì)創(chuàng)作者進(jìn)行發(fā)文和創(chuàng)作的風(fēng)格或相似性進(jìn)行對(duì)比。
- 通過(guò)因果推斷找到對(duì)創(chuàng)作者產(chǎn)生影響的抓手。
2、策略優(yōu)化
我們常用流量補(bǔ)貼政策、流量補(bǔ)貼策略和結(jié)算補(bǔ)貼策略激勵(lì)創(chuàng)作者,因此希望知道這些策略對(duì)創(chuàng)作者的影響大小。以下分享 3 個(gè)日常工作中的案例。
(1)整數(shù)規(guī)劃
這是一個(gè)發(fā)文策略中整數(shù)規(guī)劃的例子。
這個(gè)項(xiàng)目是為了找到高生態(tài)價(jià)值的頭部作者,從而進(jìn)行補(bǔ)貼策略的調(diào)整。r 表示業(yè)務(wù)的收益函數(shù),c 表示成本函數(shù)。在絕大多數(shù)情況下,收益函數(shù)都是 concave 的函數(shù),成本函數(shù)都是一個(gè) convex 的形式,所以 objective function 形式比較好。最后是一個(gè) concave,很適合做 maximization。
這里有一些 constraints。我們不希望業(yè)務(wù)對(duì)創(chuàng)作者產(chǎn)生過(guò)大的影響,因此對(duì)于每一個(gè)業(yè)務(wù)和賽道,需要有一個(gè)限制。這里面的 x1 到 xn 表示有 n 個(gè)創(chuàng)作者,如果等于 1,需要進(jìn)入到新策略里,若等于 0 就不放到新策略里。通常來(lái)講 function r 和 function c 形式是多變的,但我們可以用 piecewise linear function 進(jìn)行預(yù)估。圖中可看出最終這個(gè)問(wèn)題就會(huì)轉(zhuǎn)化成一個(gè)形式非常好的混合的整數(shù)規(guī)劃,可以用 branch and cut 方法進(jìn)行求解,能保證理論上有唯一的最優(yōu)解。
(2)創(chuàng)作者擅長(zhǎng)領(lǐng)域定義 & 挖掘
第二個(gè)例子是圖論里的方法的應(yīng)用,我們希望對(duì)創(chuàng)作者擅長(zhǎng)的領(lǐng)域進(jìn)行描述,并且對(duì)其擅長(zhǎng)度進(jìn)行打分。
在我們的體系里,對(duì)于創(chuàng)作者的內(nèi)容可分成兩類:
- 按類型分類,約有幾百個(gè)類型。
- 按 tag 分類,至少有幾百萬(wàn)的量級(jí)。
對(duì)于運(yùn)營(yíng)同學(xué)而言,幾百量級(jí)的分類,顆粒度太粗,而幾百萬(wàn)的 tag 分類, 顆粒度又太細(xì),很難直觀地描述創(chuàng)作者適合創(chuàng)作什么話題。
因此我們針對(duì)每一個(gè)創(chuàng)作者,將他過(guò)去一段時(shí)間內(nèi)的發(fā)文的 tag 取出來(lái)。每一個(gè) tag 作為一個(gè)節(jié)點(diǎn)。我們把節(jié)點(diǎn) a 和節(jié)點(diǎn) b 當(dāng)作兩個(gè)隨機(jī)事件,若其中一個(gè)發(fā)生使得另一個(gè)事件更容易發(fā)生,即認(rèn)為它們之間存在正相關(guān)性,在兩個(gè)節(jié)點(diǎn)之間連上一條線。我們可以用 odds ratio 來(lái)度量這個(gè)關(guān)系,若它大于 1,就給它們之間連上線。接下來(lái)用一個(gè)比較經(jīng)典的 community detection 的方法去對(duì)它進(jìn)行分析。可將社區(qū)看作是創(chuàng)作者常創(chuàng)作的話題,有社區(qū)之后,我們可以找中心度比較高的詞,并認(rèn)為這些些詞能夠抽象地描述出這個(gè)話題是什么。最后,我們用一個(gè)加權(quán)的消費(fèi)指標(biāo),描述在話題里作者的擅長(zhǎng)程度。
圖中黃色點(diǎn)是一個(gè)創(chuàng)作者原始的數(shù)據(jù),下方是經(jīng)過(guò)處理后最終得到的結(jié)果??梢钥闯?,創(chuàng)作者擅長(zhǎng)創(chuàng)作兩類話題,一類是動(dòng)畫(huà)電影的解讀,一類是動(dòng)漫類作品的解讀。這個(gè)結(jié)果提高了不同業(yè)務(wù)之間創(chuàng)作者引入索引的準(zhǔn)確性,從 10% 提高了至 50%。
3、結(jié)算策略變化對(duì)創(chuàng)作者的影響
通過(guò)數(shù)據(jù)分析和算法模型,我們對(duì)創(chuàng)作者的基本畫(huà)像有了概念,那么如何推動(dòng)不同類型的創(chuàng)作者調(diào)整他們的行為呢?
其中一個(gè)因素是結(jié)算策略的變化。我們希望知道結(jié)算策略的變化對(duì)創(chuàng)作者有什么影響,影響有多大。如圖所示,這是某一個(gè)視頻業(yè)務(wù)的賬號(hào)體系的結(jié)算單價(jià)數(shù)據(jù),從 T1 時(shí)刻開(kāi)始結(jié)算發(fā)放,到 T2 時(shí)刻下調(diào)單價(jià)。我們想知道這兩個(gè)行為在創(chuàng)作者側(cè)產(chǎn)生了怎樣的影響。
創(chuàng)作者對(duì)結(jié)算金額是非常敏感的,無(wú)法進(jìn)行傳統(tǒng)的 AB 實(shí)驗(yàn),若因他屬于實(shí)驗(yàn)組就被削減了單價(jià),是非常不公平的。因此在這個(gè)場(chǎng)景下,我們只能對(duì)歷史數(shù)據(jù)進(jìn)行因果推斷。
最經(jīng)典常用的方法是 DID,受干預(yù)的組和沒(méi)有受干預(yù)的組在干預(yù)之前,創(chuàng)作者因本身的差異,導(dǎo)致我們所關(guān)心的指標(biāo)產(chǎn)生差距 A。在 intervention 發(fā)生后,這兩組的差距變成了 B。在 AB 實(shí)驗(yàn)場(chǎng)景里,可能只對(duì) intervention 發(fā)生之后的數(shù)據(jù)進(jìn)行對(duì)比,得到差異值是 B。但實(shí)際上 intervention 自己本身產(chǎn)生的影響是 B 減去 A,所以 C 才是我們真正想知道的值。
DID 方法的應(yīng)用有兩種情況:
- 單純地計(jì)算差的差。先算 B 的值,再算下 A 的值。兩個(gè)相減后,再做一些統(tǒng)計(jì)上的 test,觀察差異是否顯著。如果是,說(shuō)明這個(gè) intervention 是有影響的,并且知道影響的大小。
- 第二種應(yīng)用方式是把它放到一個(gè)線性回歸里面。T 代表時(shí)間,intervention 會(huì)產(chǎn)生一個(gè)時(shí)間點(diǎn)。i 表示兩組分別屬于被干預(yù)組,還是沒(méi)有受到干預(yù)的組。重點(diǎn)是變量 x ,我們可以把一些用戶的屬性數(shù)據(jù)看作 x,如賬號(hào)的年紀(jì)、賬號(hào)的類型等,從而將這種 intervention 的影響分析得更清楚。
右側(cè)是我們分析的結(jié)果:
- 在 T1 時(shí)刻,賬號(hào)體系 A 發(fā)放結(jié)算使得他們的視頻發(fā)文量顯著提升 9%,同樣,另外一個(gè)賬號(hào)體系的視頻發(fā)文量也顯著地上升,而對(duì)圖文賽道卻沒(méi)有影響。
- 在 T2 時(shí)刻單價(jià)下調(diào)后,發(fā)現(xiàn)對(duì)剛開(kāi)始活躍的新賬號(hào)創(chuàng)作者而言,他們的體感是最強(qiáng)的,其留存率下降 13%。而對(duì)于活躍中期的用戶,留存的下降就沒(méi)那么明顯,而成熟期的基本沒(méi)有產(chǎn)生影響。
這兩個(gè)觀察結(jié)論輔助了業(yè)務(wù)進(jìn)行決策,決定在 T3 時(shí)刻對(duì)部分的高等級(jí)賬號(hào)進(jìn)行單價(jià)的回調(diào)。
四、問(wèn)答環(huán)節(jié)
Q1:在日常的生活工作中,基于分布給出估計(jì)的前提是我們知道數(shù)據(jù)符合什么樣的分布。在無(wú)法直觀判斷分布的前提下,我們應(yīng)該怎么處理數(shù)據(jù),使其可以滿足我們后續(xù)預(yù)測(cè)的需求?
A1:首先都會(huì)有一個(gè)直觀的感受。比如我們可以先畫(huà)下 Histogram,大概看一下它長(zhǎng)成什么形狀。大多數(shù)情況下,這些分布是有參數(shù)的,如正態(tài)是有參數(shù)的,這些 power law也是有參數(shù)的。我們可以用 maximum likelihood 對(duì)參數(shù)進(jìn)行估計(jì),然后用這些參數(shù)可以做一個(gè) simulation,查看這個(gè)分布下產(chǎn)生的數(shù)據(jù)是什么樣子的。相當(dāng)于我們有了兩組數(shù)據(jù),進(jìn)而我們又可以做 Kolmogorov Smirnov test,查看兩組分布是否存在顯著的差異。如果沒(méi)有顯著的差異,即證明我們 calibrate 出來(lái)分布能滿足所需。
但實(shí)際中常出現(xiàn)一種情況,如上面所提到的例子,一般 log normal 和 Power Law 上最后的結(jié)果都差不多。所以在這種情況下,不管是用 log normal 還是用 Power Law 都可以。
Q2:請(qǐng)問(wèn)對(duì)于符合 Power Law 分布的總體來(lái)說(shuō),在后續(xù)建模中,如果過(guò)分提高頭部樣本的權(quán)重,對(duì)長(zhǎng)尾部分樣本的權(quán)益存在一定的不公平,在實(shí)際業(yè)務(wù)中會(huì)引起長(zhǎng)尾用戶的反感。該如何規(guī)避建模時(shí)這種情況的發(fā)生呢?
A2:實(shí)際上,在我們的業(yè)務(wù)里,前期在做數(shù)據(jù)分析時(shí)并不會(huì)規(guī)避這些東西。比如想找到哪些相對(duì)不重要的內(nèi)容,我們就會(huì)認(rèn)認(rèn)真真地做分析找出結(jié)論。但在做策略時(shí),會(huì)考慮這些問(wèn)題,在策略的設(shè)計(jì)上做得比較溫和。