自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何破解YouTube視頻推薦算法

大數(shù)據(jù) 算法
YouTube沒有把他們算法用到的變量公之于眾。要搞清楚其算法的運(yùn)轉(zhuǎn)原理,即使數(shù)據(jù)很有限,我們也得對這個大大的黑盒子一探究竟。

[[176814]]

如果你是某個發(fā)行渠道(比如電影、戲劇、電視節(jié)目、網(wǎng)絡(luò)視頻)的內(nèi)容工作者,那么內(nèi)容的成敗就取決于發(fā)行機(jī)制的運(yùn)轉(zhuǎn)邏輯。比如說,你制作了一檔電視節(jié)目,你很想它能火起來,那么你就得知道該在哪里切入廣告,怎么宣傳節(jié)目,上哪個頻道播放,所選的頻道能被多少家庭收看,等等,諸如此類。

如果你的發(fā)行渠道是YouTube,那么你最應(yīng)該搞清楚的是YouTube的算法是怎么工作的。然而,全天下所有由算法來運(yùn)營的平臺,要搞清楚這一點(diǎn)那不是一般的困難。

YouTube沒有把他們算法用到的變量公之于眾。要搞清楚其算法的運(yùn)轉(zhuǎn)原理,即使數(shù)據(jù)很有限,我們也得對這個大大的黑盒子一探究竟。有些算法倚重的變量,我們是一點(diǎn)數(shù)據(jù)也拿不到的(比如縮略圖,標(biāo)題印象,用戶訪問歷史,用戶行為,會話信息,等),如果能拿到這些數(shù)據(jù),那等于就是把YouTube的算法脫光了讓我們看,然而呢,呵呵噠,并沒有。

看起來我們啥都沒有,但還是想盡可能用手上這點(diǎn)數(shù)據(jù)大致搞清楚其算法邏輯。所以,我的前同事(為什么是“前”同事呢?因?yàn)槲易罱鼜腇rederator離職啦,哇咔咔)Jeremy Rosen花了半年時間分析Frederator自己掌握和運(yùn)營的頻道數(shù)據(jù),想搞清楚YouTube的算法。

開始之前,先明確一下:這篇文章內(nèi)所指的算法包含多個YouTube增長類算法(為你推薦(Recommended),建議觀看(Suggest),相關(guān)視頻(Related),搜索(Search),原始評分(MetaScore),等等)。這些不同的算法產(chǎn)品,各有側(cè)重,但有一個共同點(diǎn),那就是它們的優(yōu)化目標(biāo)相同,都是觀看時長(Watch Time)。

觀看時長

先要說清楚的,“觀看時長”并不是說觀看過的分鐘數(shù)。這個概念我們之前也討論過[1],觀看時長由以下指標(biāo)構(gòu)成:

  1. 訪問次數(shù)
  2. 訪問停留
  3. 會話開始
  4. 上傳頻率
  5. 會話時長
  6. 會話結(jié)束

本質(zhì)上以上每一項(xiàng)都關(guān)系著頻道以及頻道的視頻表現(xiàn)好壞,人們是不是經(jīng)常來訪問(開始一次頁面訪問的會話)以及是不是停留很長時間。

要在算法那里積累下任何變量的取值,你的頻道和視頻首先得有人來訪問你才行。一個視頻要成功(成功定義為訂閱者中超過一半的人在前30天訪問過)需要視頻發(fā)布的前幾分鐘、前幾小時、前幾天內(nèi)得到大量的訪問,我們把這稱之為訪問速率( View Velocity)

訪問以及訪問速率

我們分析Frederator的訪問速率,發(fā)現(xiàn)整個生命周期內(nèi)累計(jì)訪問次數(shù)與前48小時內(nèi)訂閱用戶訪問百分比呈指數(shù)關(guān)系。

48小時內(nèi)訪問的訂閱用戶百分比與得到的平均訪問次數(shù)

基于這個觀察,我們稍微深挖了一下,發(fā)現(xiàn)用這個速率規(guī)律去預(yù)測一個視頻是否會成功,可以做到92%的準(zhǔn)確率。其實(shí),還存在一個更直接的相關(guān)性:72小時內(nèi)訪問的訂閱用戶百分比,與視頻整個生命周期的累計(jì)被訪問次數(shù)之間。

72小時內(nèi)訪問的訂閱用戶百分比與整個生命周期內(nèi)累計(jì)的訪問次數(shù)

這兩個圖以及相關(guān)系數(shù)充分說明訪問次數(shù)和訪問速率對視頻和頻道有著直接而重要的影響。除此之外,我們還有證據(jù)證明這個規(guī)律反過來也成立。差勁的訪問速率不但影響這個視頻本身,還影響其上一個和下一個視頻。

下圖說明如果Frederator上一個視頻48小時內(nèi)訪問速率比較糟糕(少于5%的訂閱用戶訪問),那么接下來上傳的視頻也會受其影響。

訪問了下一個視頻的訂閱用戶百分比與訪問了前兩個視頻的訂閱用戶平均百分比之間的關(guān)系

這個數(shù)據(jù)證實(shí)了Matthew Patrick的理論:如果某一個視頻點(diǎn)擊效果不好,那么你的下一次上傳的視頻,YouTube就不會給予太多權(quán)重讓它被你的訂閱用戶看到。[2]

也可能是因?yàn)樯弦粋€視頻表現(xiàn)糟糕,所以訪問你的頻道次數(shù)就會減少,自然地就導(dǎo)致更少的訂閱用戶以原生的方式訪問到。不管到底“為什么”,結(jié)果反正就是醬紫。

另一個負(fù)速率對新上傳視頻的影響就是:有證據(jù)表明這還會傷害到你的整個視頻庫。下面的***張圖是視頻上傳48小時內(nèi)就訪問的訂閱用戶7天平均百分比(譯者注:這7天上傳了若干個視頻,紀(jì)錄每個視頻上傳后48小時就訪問的訂閱用戶百分比,然后取這些百分比的平均值)與頻道總訪問次數(shù)(譯者注:反應(yīng)了整個視頻庫的效果)的關(guān)系。第二張圖是某一天訪問視頻的總體訂閱用戶百分比與當(dāng)日的總體訪問次數(shù)之間的關(guān)系。

七天內(nèi)的平均“48小時內(nèi)訪問視頻的訂閱用戶百分比” 與 每日整個頻道視頻訪問總數(shù)之間的關(guān)系

七天平均訂閱用戶訪問人數(shù) 與 總體訪問訪問次數(shù)之間的關(guān)系

這些圖標(biāo)都說明一件事:一旦新上傳視頻和整個視頻庫的訪問用戶百分比走低,那么頻道的總體訪問次數(shù)也會走低。對于我們來說的啟示是:YouTube算法更看重那些能夠吸引到核心觀眾的頻道,而懲罰那些不能吸引其核心觀眾的。

訪問停留

另一個算法非常看重的指標(biāo)就是訪問停留(View Duration)。

訪問停留就是用戶會花多長時間停留在單個視頻頁面。這個變量的權(quán)重很高,我們的數(shù)據(jù)中能看到一個明顯的引爆點(diǎn)。Frederator其中一個頻道,前30天內(nèi),平均訪問時長8分鐘的視頻,比平均5分鐘的要多350%的訪問量。下圖表明,F(xiàn)rederator的一個頻道的視頻訪問量,與平均訪問停留時長的關(guān)系。

整個生命周期內(nèi),平均訪問時長和平均訪問量的關(guān)系

注意,這里沒考慮訪問時長在八分鐘之上的數(shù)據(jù)。

我們還發(fā)現(xiàn),訪問停留時長越長,視頻表現(xiàn)越好。下面這張圖是七天內(nèi)訪問停留時長少于5分鐘的視頻(1),介于五分鐘到十分鐘的(5), 十分鐘以上的(10)分別與訪問量的關(guān)系。

 

七天內(nèi)平均訪問量與平均訪問停留時長的關(guān)系

下面這張圖也是一個意思,不過從7天拉長到整個生命周期內(nèi)了。

整個生命周期內(nèi)平均訪問量與平均訪問停留時長的關(guān)系

基于這些發(fā)現(xiàn),我們可以得出一個簡單的結(jié)論:發(fā)布長視頻可以提高訪問效果。Frederator有一個關(guān)于兒童樂園的頻道,每周會上傳三到四個不同長度(3分鐘,10分鐘,30分鐘。70分鐘)的視頻,我們發(fā)現(xiàn)每個視頻發(fā)布后的48小時內(nèi),70分鐘視頻的訪問次數(shù)遠(yuǎn)遠(yuǎn)超過其他長度的視頻,哪怕是重發(fā)一些炒剩飯的舊視頻。除此之外,70分鐘的視頻和其他版本的視頻有相同的平均訪問停留時長。

于是,我們建議公司每周就只上傳70分鐘長度的視頻就好了。就用了這個策略,頻道日均訪問量增長了50萬,而過去6周里我們上傳的視頻個數(shù)卻減少了75%。好了好了,我知道你受刺激了,不要崇拜哥。

會話開始,會話時長,會話結(jié)束

能做這篇研究,全都得益于我之前的一篇文章:《觀看時長是個什么鬼》(WTF is WatchTime?)[1]

快速回顧一下,會話開始(Session Starts)就是指用戶有多少次是從你的視頻開始訪問YouTube的。這其實(shí)說明了訂閱用戶能在前72小時訪問你是多么重要。訂閱用戶是在視頻發(fā)布后最早能看到的你人,他們也是最可能點(diǎn)擊你頻道圖標(biāo)的人,因?yàn)樗麄円呀?jīng)熟悉你的品牌了。

會話時長(Session Duration)就是你的內(nèi)容讓用戶在YouTube平臺上逗留了多久,他們訪問你的視頻,以及訪問之后都算是在平臺上逗留。除了用戶平均訪問時長(Average View Duration )和獨(dú)立訪問數(shù)( Unique Views),也沒有更好的數(shù)據(jù)了。

會話結(jié)束(Session Ends)衡量用戶是不是經(jīng)常在看完你的視頻后就離開了YouTube平臺。這是算法利用的一個負(fù)面指標(biāo),但是我們根本拿不到數(shù)據(jù)。

一則算法理論

YouTube的算法設(shè)計(jì)時關(guān)注的是頻道效果而不是單個視頻效果。但是它要利用單個視頻來提高頻道效果。

算法結(jié)合了單個視頻的特定數(shù)據(jù)和頻道的聚合數(shù)據(jù)來決定推薦哪個視頻。最終目標(biāo)仍然是為頻道聚攏其目標(biāo)觀眾。

YouTube這么做是因?yàn)椋?/strong>

1. 讓用戶常常回訪YouTube平臺

2. 讓用戶在平臺停留越久越好

下面有三張圖表來證明這則理論是成立的。

***張圖是48小時內(nèi)訪問的訂閱者比例與7天內(nèi)總訪問量之間的關(guān)系。這張圖說明,如果開始有大量用戶從你的視頻開始的平臺會話,那么你的視頻就會獲得很大的訪問量。到達(dá)一個閾值之后,就會呈指數(shù)級增長。

7日內(nèi)總訪問量與48小時內(nèi)訪問的訂閱用戶百分比

第二個圖是頻道內(nèi)日均訪問量與5日內(nèi)訪問的訂閱用戶百分比的關(guān)系。

日均訪問量與5日內(nèi)訪問的訂閱用戶百分比的關(guān)系

這意味著如果能一直讓大量用戶從你開始訪問YouTube(近5天內(nèi)平均來看),那么算法就會將用戶每日訪問向你整個頻道視頻庫傾斜。

***一幅圖是日均訪問的訂閱用戶百分比與5天內(nèi)訪問的訂閱用戶百分比之間的關(guān)系。

日均訪問的訂閱用戶百分比與5日內(nèi)訪問的訂閱用戶百分比之間的關(guān)系

我們相信這一切都表明,頻道效果的連貫性與訪問量之間存在相關(guān)性,訪問量又表現(xiàn)在訂閱用戶訪問百分比,YouTube就會因此把流量傾斜給你。

假如說你有一個游戲頻道,10萬個訂閱用戶,你每天上傳6個視頻,每個視頻有5%的訂閱用戶訪問。你的每個視頻的平均訪問訂閱用戶會穩(wěn)定在區(qū)區(qū)5%。這意味你會每天產(chǎn)生30%的訂閱用戶訪問次數(shù)(3萬/天,60萬/月)。現(xiàn)在假設(shè)你有1百萬訂閱用戶,那么每日訪問次數(shù)在30萬,每月在600萬。

我們認(rèn)為這一段數(shù)學(xué)運(yùn)算是不會騙人的。這意味YouTube在根據(jù)一些指標(biāo)選擇一些頻道進(jìn)行推薦,然后只要算法幫這個頻道提高訪問量。

但,壯士請留步,以上還僅僅是理論上的分析!

一種打分算法

這里我們打算破解YouTube的算法,然后重建一個。用了15個信號量,以及我們估計(jì)的權(quán)重,來重新構(gòu)建打分算法。信號量列舉如下:

用來開發(fā)打分算法的信號量/因素

下面這些圖是這些信號量實(shí)際產(chǎn)生的效果。

三天的算法平均分與訪問量的相關(guān)趨勢

算法打分與訪問量的相關(guān)性趨勢

下面這張圖更詳細(xì)一些。

三天的算法打分均值與每日訪問量

知道你還是很好奇,那下面就揭曉我們模擬出來的各種權(quán)重:

各種算法的權(quán)重分布模擬

觀看時長優(yōu)化算法的各信號量權(quán)重分布模擬

相關(guān)推薦及其他算法的各信號量權(quán)重分布

然而但是but,我們也沒有其他數(shù)據(jù)了,所以我們也不敢肯定在計(jì)算相關(guān)性時該用哪種回歸方式,也只敢說大多數(shù)信號和算法之間很相關(guān),而已。也正因?yàn)槿绱?,我們對YouTube算法一直熱情不減。

對YouTube算法的看法

根據(jù)我們的數(shù)據(jù),至少可以得到6個粗淺結(jié)論:

1. YouTube用算法決定了我們的視頻和頻道能得到多少訪問量。

2. 成功的頻道都是專注在特定類型的內(nèi)容或創(chuàng)意上。

3. 頻道自己一旦明確了哪種類型的內(nèi)容成功之后,就不要再搖擺了。

4. 內(nèi)容制作者光靠錢在YouTube平臺上絕無可能成功,因此土豪型的制作者不太會全身心擁抱YouTube。

5. 個性化的節(jié)目/頻道會一直是YouTube上面占統(tǒng)治地位的內(nèi)容類型,因?yàn)檫@就是人們要找的“特定類型的內(nèi)容”。

6. 新建的頻道,如果不能在YouTube站外導(dǎo)流進(jìn)去的話,相當(dāng)長時間內(nèi)增長都會比較困難。

前面說到,YouTube更注重于提高頻道的訪問效果,這個觀點(diǎn)只是我們推測得到的。頻道能夠上傳很多視頻,從而獲得和留住大量的目標(biāo)觀眾。如果你想在YouTube上成功,我們能給的建議就是:瞄準(zhǔn)一個非常垂直的興趣類型,然后持續(xù)去制作10分鐘以上的視頻,一定得是你選定的這個興趣類型的視頻。

我這里是私人博客,需要提醒一下,YouTube可是儲備了大量的算法彈藥啊,也希望他們不把本文視為對算法的負(fù)面消息。通過這篇研究,我更加感謝YouTube及其算法工程師們,有預(yù)見性地設(shè)計(jì)了這些算法。畢竟,他們還是想努力讓這個世界上的十億用戶能在一個月內(nèi)不重樣地觀看視頻。如果你能停下來回頭再整體上審視一下這一切,你會驚嘆于YouTube算法設(shè)計(jì)如此優(yōu)雅,在實(shí)現(xiàn)商業(yè)目標(biāo)上和保護(hù)平臺健康發(fā)展上做得難以置信的好。為他們點(diǎn)32個贊!

作者簡介:

Matt Gielen是Frederator Networks的前副總裁, 主管編程和觀眾開發(fā)。Matt所管的團(tuán)隊(duì)是世界上***的動畫制作網(wǎng)絡(luò)公司,F(xiàn)rederator網(wǎng)絡(luò)頻道。

譯后記:

最初看到這篇文章是@fengyoung 在Facebook上分享的,覺得題目很有意思就看了一遍,看完后感覺很有啟發(fā),遂決定翻譯一下讓更多人看到。

這篇文章給我的啟發(fā)有三方面:

1. 從YouTube平臺的算法設(shè)計(jì)人員角度,設(shè)計(jì)繁多的推薦算法,是為了提高頻道的觀看時長,而提高頻道的觀看時長又是為了讓用戶能夠經(jīng)常訪問平臺。這是一種雙贏的思維,說白了:誰能幫平臺留住用戶,平臺就重點(diǎn)扶持他。

2. 文章得出結(jié)論,要做垂直內(nèi)容才能在YouTube上活下去。平臺上內(nèi)容越多樣,平臺越健康,這是毋庸置疑的,盡管我贊同這個結(jié)論,但是我沒有在本文中看到作者是如何得到這個結(jié)論的。這一點(diǎn)就是YouTube和國內(nèi)視頻平臺***的差別,國內(nèi)的視頻平臺嚴(yán)重趨同,花高價購買獨(dú)家版權(quán)似乎是國內(nèi)視頻平臺的唯一出路,也是一個妖魔化的出路,反觀YouTube,他們利用算法驅(qū)使了各個頻道專耕某一個垂直內(nèi)容,然后把最適合的用戶給你匹配上,這才是更宏大的一盤內(nèi)容棋。

3. 本文作者給我們了一個啟示,算法并不是黑盒子,是可以hack的,盡管這個也只能hack到冰山一角,但是也比我們盲目地運(yùn)營要明亮很多了。作者的研究方式,首先是明確了一個平臺的算法目標(biāo)是什么,YouTube是watch time,那么就去觀察這個目標(biāo)和哪些指標(biāo)有關(guān),進(jìn)一步看到每個指標(biāo)又能怎么提高。

責(zé)任編輯:武曉燕 來源: Matt Gielen
相關(guān)推薦

2016-12-09 08:56:54

2021-07-08 10:00:22

YouTube推薦算法Mozilla

2017-07-11 09:46:29

2017-09-30 09:43:57

YouTube推薦系統(tǒng)

2024-10-15 08:10:49

NotebookLMYouTube視頻AI

2023-02-07 09:09:48

視頻文件存儲

2010-01-21 13:34:31

HTML 5Youtube

2023-06-26 07:19:03

視頻推薦算法經(jīng)典算法

2009-05-22 18:51:23

2023-06-18 07:51:27

2010-07-06 10:35:59

2012-12-11 09:45:39

JustinTV實(shí)時視頻網(wǎng)站

2019-04-23 09:00:00

機(jī)器學(xué)習(xí)排序?qū)W習(xí)人工智能

2018-08-08 13:30:59

推薦系統(tǒng)DeepFM算法

2013-01-08 11:00:06

YouTubeAJAXCSS

2010-03-09 08:44:59

HTML 5YouTube

2023-04-25 07:00:20

2016-09-30 15:03:13

推薦系統(tǒng)算法

2012-07-27 15:47:18

YouTube

2023-04-24 07:37:28

推薦算法項(xiàng)目
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號