自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“算透”用戶,抖音為什么讓人沉迷?

人工智能
抖音成為2020年1月美國(guó)下載數(shù)量最高的應(yīng)用。誰(shuí)不愛(ài)看可愛(ài)的小狗與頑皮的小貓?特別是在全球受新冠疫情影響而進(jìn)行全面隔離的當(dāng)下,我們更需要?dú)g樂(lè)的視頻來(lái)調(diào)劑自己的心情。

誰(shuí)不愛(ài)看可愛(ài)的小狗與頑皮的小貓?特別是在全球受新冠疫情影響而進(jìn)行全面隔離的當(dāng)下,我們更需要?dú)g樂(lè)的視頻來(lái)調(diào)劑自己的心情。

但這并不足以解釋抖音為什么能獲得如此之多的青睞。在不到兩年時(shí)間里,它從一個(gè)只有少數(shù)粉絲的“對(duì)口型”應(yīng)用,發(fā)展成今年月均近8億活躍用戶的“病毒式”應(yīng)用。甚至,帶有“新冠病毒”標(biāo)簽的抖音視頻在應(yīng)用中被播放了足足530億次。

▲ 抖音成為2020年1月美國(guó)下載數(shù)量最高的應(yīng)用

▲ 抖音全球下載量

抖音最顯著的特色,在于各類(lèi)洗腦歌曲加上有趣的啞劇式短視頻。

用戶每天平均在這款應(yīng)用上耗費(fèi)52分鐘,相比之下,Snapchat、Instagram以及Facebook的日均使用時(shí)長(zhǎng)分別為26分鐘、29分鐘與37分鐘。

▲ Oberlo統(tǒng)計(jì)的使用時(shí)長(zhǎng)報(bào)告

此外,這款只支持60秒短視頻的應(yīng)用中還充斥著模因、喜劇、舞蹈及無(wú)數(shù)才華橫溢的用戶。憑借著業(yè)內(nèi)最強(qiáng)大的推薦引擎之一,我們無(wú)需搜索或擁有明確的訴求,就能很快找到符合自己口味的內(nèi)容。點(diǎn)擊一下,引擎會(huì)幫你生成個(gè)性化建議。

這種無(wú)窮無(wú)盡的快速刺激帶來(lái)了輕松快樂(lè)的使用感受,最終讓用戶沉迷其中、無(wú)法自拔。有人將抖音稱(chēng)為浪費(fèi)時(shí)間的終極殺手,并表示“在抖音上感覺(jué)過(guò)了5分鐘,實(shí)際上已經(jīng)過(guò)了1個(gè)小時(shí)。”

而在今天的文章中,我們將探討抖音如何使用機(jī)器學(xué)習(xí)技術(shù)通過(guò)交互機(jī)制分析用戶的興趣與偏好,并據(jù)此為用戶展示不同的個(gè)性化推薦內(nèi)容。

對(duì)于數(shù)據(jù)科學(xué)社區(qū)來(lái)說(shuō),推薦引擎早已不是什么新鮮事物。但由于一直缺少圖像識(shí)別或者語(yǔ)言生成等抓人眼球的最新“特效”,不少人傾向于將其劃入傳統(tǒng)AI系統(tǒng)一類(lèi)。

盡管如此,推薦引擎仍是一類(lèi)重要AI系統(tǒng),而且?guī)缀醣椴几黝?lèi)在線服務(wù)與平臺(tái)。從YouTube視頻推薦、到亞馬遜發(fā)布的廣告郵件、再到Kindle書(shū)城中的熱點(diǎn)圖書(shū),一切都是推薦引擎的功勞。

根據(jù)Gomez-Uribe與Netflix公司街道口負(fù)責(zé)人Neil Hunt發(fā)表的研究論文,個(gè)性化與推薦的綜合作用每年可為Netflix節(jié)約超過(guò)10億美元。此外,有80%的訂閱者會(huì)從引擎提供的推薦列表中選擇視頻。

那么,抖音的獨(dú)門(mén)絕技是什么?

1.關(guān)于推薦引擎

[ 如果您對(duì)推薦引擎的基本概念已經(jīng)非常熟悉,可以直接閱讀下一章節(jié) ]

目前網(wǎng)絡(luò)上關(guān)于推薦引擎的說(shuō)明文章及在線課程所在多有,因此這里只給大家提供兩條相關(guān)學(xué)習(xí)資源鏈接:

  • 從零開(kāi)始構(gòu)建推薦引擎的綜合指南[注1](閱讀時(shí)長(zhǎng)大約需要35分鐘,重現(xiàn)其中的Python代碼約需要40到60分鐘)

  • 來(lái)自吳恩達(dá)的推薦引擎指南[注2](視頻時(shí)長(zhǎng)約1個(gè)小時(shí))

除了這些必要基礎(chǔ)之外,工業(yè)級(jí)推薦引擎還需要強(qiáng)大的后端與架構(gòu)設(shè)計(jì)以實(shí)現(xiàn)全面集成。下面來(lái)看相關(guān)示例:

▲ 推薦引擎(由Catherine Wang創(chuàng)建,版權(quán)所有)

實(shí)時(shí)系統(tǒng)應(yīng)具備堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)(用于收集與存儲(chǔ)),支持頂端多個(gè)抽象層(算法層、服務(wù)層與應(yīng)用層),借此解決不同的業(yè)務(wù)問(wèn)題。

2.抖音推薦系統(tǒng)設(shè)計(jì)原型

“以用戶為中心的設(shè)計(jì)”正是抖音的原型核心。簡(jiǎn)單來(lái)說(shuō),抖音只會(huì)推薦當(dāng)前用戶喜歡的內(nèi)容,并從應(yīng)用冷啟動(dòng)開(kāi)始不斷貫徹這種對(duì)用戶偏好的跟蹤與強(qiáng)化。

如果你點(diǎn)開(kāi)了舞蹈視頻,那么系統(tǒng)會(huì)初步將你的偏好定制為娛樂(lè)類(lèi),而后持續(xù)跟蹤你的行為以進(jìn)一步分析,最終為你提供高度貼合喜好的精確推薦。

下面說(shuō)說(shuō)高級(jí)工作流。

▲ 三大核心組件(由Catherine Wang創(chuàng)建,版權(quán)所有)

在抖音的原型體系中,包含三大核心組件:1)標(biāo)記內(nèi)容;2)創(chuàng)建用戶資料與用戶場(chǎng)景;3)訓(xùn)練并提供推薦算法。

下面,我們將具體對(duì)這三大組件做出說(shuō)明。

2.1 數(shù)據(jù)與特征

首先是數(shù)據(jù)。如果用更正式的語(yǔ)言描述推薦模型,那它實(shí)際上是一項(xiàng)負(fù)責(zé)將用戶滿意度與“用戶生成內(nèi)容”匹配起來(lái)的函數(shù)。要實(shí)現(xiàn)這個(gè)目標(biāo),我們需要從三個(gè)維度輸入數(shù)據(jù)。

  • 內(nèi)容數(shù)據(jù)——抖音是一個(gè)包含大量用戶生成內(nèi)容的平臺(tái)。每種類(lèi)型的內(nèi)容都有其特征,而系統(tǒng)需要能夠識(shí)別并區(qū)分各類(lèi)內(nèi)容以實(shí)現(xiàn)可靠的推薦效果。

  • 用戶數(shù)據(jù)——其中包括興趣標(biāo)簽、職業(yè)、年齡、性別、人口統(tǒng)計(jì)信息等等,也包含基于ML的客戶集群內(nèi)潛在特征。

  • 場(chǎng)景數(shù)據(jù)——這部分?jǐn)?shù)據(jù)用于跟蹤用戶在不同場(chǎng)景下的個(gè)人偏好變化。例如,用戶在工作、旅行或者通勤時(shí),分別更喜歡看到哪些類(lèi)型的視頻。

在收集到相關(guān)數(shù)據(jù)之后,系統(tǒng)就會(huì)導(dǎo)出四種類(lèi)型的關(guān)鍵工程特征,并將其輸入至推薦引擎當(dāng)中。

  • 關(guān)聯(lián)特征:表示內(nèi)容屬性與用戶標(biāo)簽之間的關(guān)聯(lián),包括關(guān)鍵字匹配、分類(lèi)標(biāo)簽、源匹配、主題標(biāo)簽以及用戶與內(nèi)容間矢量距離等潛在特征。

  • 用戶場(chǎng)景特征:根據(jù)場(chǎng)景數(shù)據(jù)進(jìn)行工程處理,包括地理位置、當(dāng)前時(shí)間與事件標(biāo)簽等等。

  • 趨勢(shì)特征:基于用戶交互并表現(xiàn)為全局趨勢(shì)、熱門(mén)話題、熱門(mén)關(guān)鍵字、趨勢(shì)主題等等。

  • 協(xié)同特征:基于協(xié)同過(guò)濾技術(shù),負(fù)責(zé)在狹窄推薦(偏見(jiàn))與協(xié)同推薦(概括)之間尋求平衡。更準(zhǔn)確地說(shuō),其不信會(huì)考慮單一用戶的歷史記錄,同時(shí)還會(huì)分析相似用戶組之間的協(xié)同行為(點(diǎn)擊、贊、關(guān)鍵字、主題等)。而推薦引擎模型,將通過(guò)學(xué)習(xí)上述特征以預(yù)測(cè)特定內(nèi)容在特定場(chǎng)景中是否適合特定用戶。

2.2 隱性目標(biāo)

在推薦模型當(dāng)中,點(diǎn)擊率、觀看時(shí)長(zhǎng)、贊、評(píng)論與轉(zhuǎn)發(fā)等都屬于明確可量化的目標(biāo)。我們可以使用模型或算法對(duì)這些指標(biāo)進(jìn)行擬合,而后做出結(jié)論性的預(yù)測(cè)。

但除此之外,還存在其他一些無(wú)法通過(guò)這些可量化指標(biāo)進(jìn)行評(píng)估的隱性目標(biāo)。

例如,為了維護(hù)健康的社區(qū)與生態(tài)系統(tǒng),抖音一直努力控制與暴力、詐騙、色情及謠言相關(guān)的內(nèi)容,希望保證平臺(tái)上發(fā)布的內(nèi)容更加貼近事實(shí)。
為此,自然需要在可量化模型目標(biāo)之外定義新的邊界控制框架(內(nèi)容審核系統(tǒng))。

2.3 算法

推薦目標(biāo)可以指定為經(jīng)典的機(jī)器學(xué)習(xí)問(wèn)題,而后通過(guò)協(xié)同過(guò)濾模型、邏輯回歸模型、分解機(jī)、GBD以及深度學(xué)習(xí)等多種算法對(duì)問(wèn)題求解。

[[329651]]

▲ 協(xié)同過(guò)濾示意圖

工業(yè)級(jí)的推薦系統(tǒng)往往需要靈活且可擴(kuò)展的機(jī)器學(xué)習(xí)平臺(tái)以構(gòu)建實(shí)驗(yàn)管道,借此快速訓(xùn)練各類(lèi)模型,而后將不同模型疊加起來(lái)進(jìn)行實(shí)時(shí)服務(wù)。(例如將強(qiáng)化學(xué)習(xí)、DNN、SVM以及CNN結(jié)合使用)

除了主推薦算法之外,抖音還需要訓(xùn)練內(nèi)容分類(lèi)算法與用戶偏好算法。下面來(lái)看在實(shí)現(xiàn)內(nèi)容分析方面,抖音建立起的多層級(jí)分類(lèi)架構(gòu)。

▲ 多層級(jí)分類(lèi)樹(shù)(由Catherine Wang創(chuàng)建,版權(quán)所有)

我們從主root起步,一層層下探。首先是主類(lèi)別與子類(lèi)別。與獨(dú)立的分類(lèi)器相比,這種多層級(jí)分類(lèi)機(jī)制能夠更好地解決數(shù)據(jù)偏斜的問(wèn)題。

2.4 訓(xùn)練機(jī)制

抖音使用實(shí)時(shí)在線訓(xùn)練協(xié)議,因此能夠以較少的計(jì)算資源需求提供更快的反饋速度。這兩點(diǎn)對(duì)于流媒體與信息流產(chǎn)品無(wú)疑非常重要。

訓(xùn)練系統(tǒng)會(huì)即時(shí)捕捉用戶的行為與動(dòng)作,并將其反饋給模型以在下一次響應(yīng)中有所體現(xiàn)。(例如,當(dāng)您點(diǎn)擊新的視頻時(shí),饋送內(nèi)容會(huì)根據(jù)您的最新操作而快速更改)

據(jù)個(gè)人推測(cè),抖音很可能是使用Storm Cluster處理實(shí)時(shí)樣本數(shù)據(jù),包括點(diǎn)擊、展示、收藏、贊、評(píng)論與共享等。

他們還構(gòu)建起模型參數(shù)與特征服務(wù)器(分別存儲(chǔ)特征與模型),借此進(jìn)一步提升系統(tǒng)性能。其中特征存儲(chǔ)可保存并交付數(shù)千萬(wàn)項(xiàng)原始特征與工程矢量,而模型存儲(chǔ)則負(fù)責(zé)模型與經(jīng)調(diào)優(yōu)參數(shù)的維護(hù)與交付。

▲ 在線訓(xùn)練機(jī)制(簡(jiǎn)化版)(由Catherine Wang創(chuàng)建,版權(quán)所有)

下面我們對(duì)訓(xùn)練流程做出總結(jié):1)在線服務(wù)器捕捉實(shí)時(shí)數(shù)據(jù),并將其存儲(chǔ)在Kafka當(dāng)中;2)Storm Cluster使用Kafka數(shù)據(jù)并生成特征;3)特征存儲(chǔ)負(fù)責(zé)收集新特征與推薦標(biāo)簽,并據(jù)此構(gòu)建起新的訓(xùn)練集;4)在線訓(xùn)練管道重新訓(xùn)練模型參數(shù),并將參數(shù)保存在模型存儲(chǔ)中;5)更新客戶端推薦列表,捕捉新的反饋(用戶操作)并再次循環(huán)。

3.抖音的推薦工作流

抖音一直未向公眾或技術(shù)界公開(kāi)其核心算法。但通過(guò)該公司發(fā)布的零散信息,以及極客社區(qū)通過(guò)逆向工程發(fā)現(xiàn)的蛛絲馬跡,我們初步得出以下結(jié)論。(免責(zé)聲明——以下內(nèi)容皆為作者個(gè)人的解釋與推斷,可能與抖音的實(shí)際情況有所出入)

▲ 推薦工作流(由Catherine Wang創(chuàng)建,版權(quán)所有)

步驟0:用戶生成內(nèi)容雙審核系統(tǒng) (UGC)

在抖音,每天有數(shù)百萬(wàn)用戶上傳自己制作的內(nèi)容。惡意內(nèi)容很可能從單一機(jī)器審核系統(tǒng)中發(fā)現(xiàn)漏洞并成功漏網(wǎng),而過(guò)于龐大的上傳量也讓手動(dòng)審核變得不切實(shí)際。為此,雙審核成為抖音公司的主要視頻內(nèi)容篩選算法。

  • 機(jī)器審核:總體來(lái)看,雙審核模型(基于計(jì)算機(jī)視覺(jué))可以識(shí)別用戶上傳內(nèi)容中的視頻圖像與關(guān)鍵字。它主要提供兩大核心功能:1)檢查剪輯內(nèi)容中是否存在違規(guī)并檢查文本信息。如果懷疑存在問(wèn)題,內(nèi)容將被攔截并標(biāo)記為黃色或紅色,以供人工審核員進(jìn)行復(fù)核。2)提取視頻中的圖片與關(guān)鍵幀,抖音的雙審核算法隨后將這些內(nèi)容與龐大的歸檔內(nèi)容庫(kù)進(jìn)行匹配。這些副本將被渲染為低精度版本,借此降低流量占用并減輕推薦引擎的處理負(fù)擔(dān)。

  • 手動(dòng)審核:主要關(guān)注三個(gè)問(wèn)題:視頻標(biāo)題、封面縮略圖與視頻關(guān)鍵幀。對(duì)于被雙審核模型標(biāo)記為可疑的內(nèi)容,技術(shù)人員將進(jìn)一步做出手動(dòng)檢查。如果確定違規(guī),則刪除該視頻并凍結(jié)上傳賬戶。

步驟1:冷啟動(dòng)

抖音推薦機(jī)制的核心在于信息流漏斗。在內(nèi)容通過(guò)雙審核過(guò)濾之后,將被放入冷啟動(dòng)流量池內(nèi)。例如,當(dāng)用戶的新視頻成功通過(guò)審核流程,抖音會(huì)為其分配200到300個(gè)活躍用戶的初始流量,保證你的內(nèi)容初步獲得向用戶展示的機(jī)會(huì)。

在這種機(jī)制下,新創(chuàng)作者可以與意見(jiàn)領(lǐng)袖們(可能已經(jīng)擁有成千上萬(wàn)關(guān)注者)站上相同的起點(diǎn),完全依靠作品質(zhì)量展開(kāi)正面競(jìng)爭(zhēng)。

步驟2:基于指標(biāo)的權(quán)重機(jī)制

通過(guò)初始流量池,我們的視頻已經(jīng)獲得了幾千次瀏覽,而這些數(shù)據(jù)將被進(jìn)一步收集與分析。分析中考量的指標(biāo)主要包括贊、觀看、完整觀看、評(píng)論、關(guān)注、轉(zhuǎn)發(fā)與分享等數(shù)據(jù)。

接下來(lái),推薦引擎會(huì)根據(jù)這些初始指標(biāo)與賬戶得分(無(wú)論您是否身為高水平創(chuàng)作者)對(duì)內(nèi)容進(jìn)行權(quán)重評(píng)分。

根據(jù)評(píng)分結(jié)果,前10%的視頻將獲得額外10000到100000次推薦展示的機(jī)會(huì)。

步驟3:用戶偏好放大器

來(lái)自步驟2內(nèi)流量池階段的反饋將接受進(jìn)一步分析,幫助系統(tǒng)判斷是否使用用戶偏好放大器。在這一步中,高質(zhì)量的內(nèi)容將被投放至特定的用戶組(例如體育迷、時(shí)尚愛(ài)好者)中并得到進(jìn)一步加強(qiáng)與放大。

這類(lèi)似于“猜你喜歡什么”的概念。推薦引擎將建立用戶個(gè)人偏好庫(kù),以便在內(nèi)容與用戶組之間找到最佳匹配。

步驟4:精品趨勢(shì)池

只有低于1%的內(nèi)容最終能夠進(jìn)入趨勢(shì)池。趨勢(shì)池中的內(nèi)容將獲得遠(yuǎn)超其他視頻的曝光量,包括以無(wú)差別方式推薦給所有用戶。

其他步驟:延遲曝光

部分抖音用戶可能會(huì)注意到,自己的內(nèi)容在發(fā)布數(shù)周之后,才突然獲得了巨大的關(guān)注與點(diǎn)擊——在此之前,觀看量與轉(zhuǎn)發(fā)量都一樣比較平均。這是怎么回事?

這主要有兩個(gè)原因:

  • 首先,抖音使用一種昵稱(chēng)為“掘墓人”的算法,可以回溯舊有內(nèi)容并挖掘出高質(zhì)量的曝光對(duì)象。如果您的內(nèi)容被這種算法選中,則表明您的賬戶中擁有足夠的垂直視頻以獲得清晰的定位標(biāo)簽。換言之,建立明確的標(biāo)簽?zāi)軌驇椭膬?nèi)容得到“掘墓人”算法的青睞。

  • 第二是“時(shí)尚效應(yīng)”。換句話說(shuō),如果您的某條內(nèi)容獲得了數(shù)百萬(wàn)次觀看,那么觀看者會(huì)主動(dòng)前往您的主頁(yè),查看您之前發(fā)布過(guò)的其他內(nèi)容。這是個(gè)主動(dòng)探索并發(fā)現(xiàn)寶藏的過(guò)程,也在一定程度上增加了用戶的成就感。

局限性:流量峰值

如果某段內(nèi)容通過(guò)信息流漏洞(雙審核、權(quán)重迭代與放大),那么創(chuàng)建者的賬戶將獲得大量展示機(jī)會(huì)、用戶交互與關(guān)注群體。

但根據(jù)研究,這種高曝光時(shí)間窗口極窄。通常,該窗口只會(huì)持續(xù)一周左右;在此之后,內(nèi)容與賬戶將快速“涼涼”,連隨后發(fā)布的內(nèi)容也無(wú)法得到人們的關(guān)注。

為什么會(huì)這樣?

這主要是因?yàn)槎兑粝MM量為內(nèi)容制作者們提供更公平的發(fā)布環(huán)境,消除算法中的意外偏見(jiàn)。通過(guò)這種設(shè)計(jì),推薦引擎不會(huì)偏向于特定類(lèi)型的內(nèi)容,這將保證各類(lèi)新內(nèi)容都有平等的機(jī)會(huì)成為新的爆款。

【注】:

1.https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/

2.https://www.youtube.com/playlist?list=PL-6SiIrhTAi6x4Oq28s7yy94ubLzVXabj

【參考資料】:
1.https://www.businessofapps.com/data/tik-tok-statistics/
2.https://mediakix.com/blog/top-tik-tok-statistics-demographics/
3.https://en.wikipedia.org/wiki/TikTok
4.http://shop.oreilly.com/product/9780596529321.do
5.https://sensortower.com/
6.https://www.nytimes.com/2020/06/03/technology/tiktok-is-the-future.html

 

責(zé)任編輯:龐桂玉 來(lái)源: 科技行者
相關(guān)推薦

2020-06-15 17:21:15

技術(shù)周刊

2021-09-17 20:30:07

抖音短視頻移動(dòng)應(yīng)用

2020-08-06 10:09:08

抖音木馬安全隱私

2019-09-03 09:56:51

2013-04-19 10:06:51

ApacheHadoopMapReduce計(jì)算

2020-08-13 09:49:43

WAF應(yīng)用安全網(wǎng)絡(luò)安全

2021-06-28 05:19:32

抖音電腦

2022-06-06 12:19:08

抖音功耗優(yōu)化Android 應(yīng)用

2020-09-11 11:27:17

TikTok程序禁令

2019-03-07 15:04:37

抖音快手同城

2022-01-22 07:44:12

抖音PC 版電腦刷抖音

2019-06-21 09:55:10

刷抖美腿App

2019-04-28 13:28:25

Siri自然語(yǔ)言交互工具

2020-10-27 09:33:39

抖音印度移動(dòng)應(yīng)用

2024-06-13 17:10:16

2023-02-23 13:42:18

技術(shù)AI

2009-05-22 09:17:57

2021-06-18 07:53:35

抖音服務(wù)器帶寬

2010-08-20 10:34:29

施密特
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)