自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手落地萬億參數(shù)推薦精排模型

人工智能 機器學習
精準的推薦系統(tǒng)模型是很多互聯(lián)網產品的核心競爭力,個性化推薦系統(tǒng)旨在根據(jù)用戶的行為數(shù)據(jù)提供“定制化”的產品體驗。國民級短視頻App快手,每天為數(shù)億用戶推薦百億的視頻,遇到的挑戰(zhàn)之一是推薦系統(tǒng)模型如何精準地描述與捕捉用戶的興趣。

精準的推薦系統(tǒng)模型是很多互聯(lián)網產品的核心競爭力,個性化推薦系統(tǒng)旨在根據(jù)用戶的行為數(shù)據(jù)提供“定制化”的產品體驗。國民級短視頻App快手,每天為數(shù)億用戶推薦百億的視頻,遇到的挑戰(zhàn)之一是推薦系統(tǒng)模型如何精準地描述與捕捉用戶的興趣。

如今業(yè)內采用的解決方案通常為結合大量數(shù)據(jù)集和擬合參數(shù)來訓練深度學習模型,如此一來讓模型更加逼近現(xiàn)實情況。Google日前發(fā)布了萬億級模型 Switch Transformer,參數(shù)量達到1.6萬億,其速度是Google之前開發(fā)的語言模型(T5-XXL)的4倍。然而快手萬億參數(shù)精排模型總的參數(shù)量超過1.9萬億,規(guī)模更大,且已經投入實踐。下面就讓我們通過快手精排模型的發(fā)展史,一起揭秘它內部的的技術密碼吧!

 

圖示:Google BERT-large NLP預訓練模型: 3.4億參數(shù)量、Google Meena開域聊天機器人:26億參數(shù)量、Google T5預訓練模型: 110億參數(shù)量、OpenAI GPT3語言模型:1750億參數(shù)量、Google Switch Transformer語言模型: 16000億參數(shù)量、快手精排排序模型:19000億參數(shù)量

參數(shù)個性化CTR模型-PPNet

2019年之前,快手App主要以雙列的瀑布流玩法為主,用戶同視頻的交互與點擊,觀看雙階段來區(qū)分。在這種形式下, CTR預估模型變得尤為關鍵,因為它將直接決定用戶是否愿意點擊展示給他們的視頻。彼時業(yè)界主流的推薦模型還是以DNN,DeepFM等簡單的全連接深度學習模型為主。但考慮到某用戶個體和視頻的共建語義模式在全局用戶的共建語義模式基礎上會有個性化的偏差,如何在DNN網絡參數(shù)上為不同用戶學習一個獨有的個性化偏差成為了快手推薦團隊優(yōu)化的方向。

在語音識別領域中,2014年和2016年提出的LHUC算法(learning hidden unit contributions)核心思想是做說話人自適應(speaker adaptation),其中一個關鍵突破是在DNN網絡中,為每個說話人學習一個特定的隱式單位貢獻(hidden unit contributions),來提升不同說話人的語音識別效果。借鑒LHUC的思想,快手推薦團隊在精排模型上展開了嘗試。經過多次迭代優(yōu)化,推薦團隊設計出一種gating機制,可以增加DNN網絡參數(shù)個性化并能夠讓模型快速收斂??焓职堰@種模型叫做PPNet(Parameter Personalized Net)。據(jù)快手介紹,PPNet于2019年全量上線后,顯著的提升了模型的CTR目標預估能力。

 

PPNet結構圖

如上圖所示,PPNet的左側是目前常見的DNN網絡結構,由稀疏特征(sparse features)、嵌入層(embedding layer)、多神經網絡層(neural layer)組成。右側是PPNet特有的模塊,包括Gate NN和只給Gate NN作為輸入的id特征。其中uid,pid,aid分別表示user id,photo id,author id。左側的所有特征的embedding會同這3個id特征的embedding拼接到一起作為所有Gate NN的輸入。需要注意的是,左側所有特征的embedding并不接受Gate NN的反傳梯度,這樣操作的目的是減少Gate NN對現(xiàn)有特征embedding收斂產生的影響。Gate NN的數(shù)量同左側神經網絡的層數(shù)一致,其輸出同每一層神經網絡的輸入做element-wise product來做用戶的個性化偏置。Gate NN是一個2層神經網絡,其中第二層網絡的激活函數(shù)是2 * sigmoid,目的是約束其輸出的每一項在[0, 2]范圍內,并且默認值為1。當Gate NN輸出是默認值時,PPNet同左側部分網絡是等價的。經實驗對比,通過Gate NN為神經網絡層輸入增加個性化偏置項,可以顯著提升模型的目標預估能力。PPNet通過Gate NN來支持DNN網絡參數(shù)的個性化能力,來提升目標的預估能力,理論上來講,可以用到所有基于DNN模型的預估場景,如個性化推薦,廣告,基于DNN的強化學習場景等。

多目標預估優(yōu)化-基于MMoE的多任務學習框架

隨著短視頻用戶的需求不斷升級,2020年9月,快手推出了8.0版本。這個版本里增加了底部導航欄,在此基礎上增加了一個“精選”tab,支持單列上下滑的形式。這個兼容雙列點選和單列上下滑的版本,旨在為用戶提供更好的消費體驗,加入更多元的消費方式。在新的界面下,有相當一部分用戶會既使用雙列也使用單列。用戶在這兩種頁面上的消費方式和交互形式都有很大的不同,因此在數(shù)據(jù)層面表示出來的分布也非常不同。如何將兩部分數(shù)據(jù)都用在模型建模里,而且用好,成為了快手推薦團隊一個亟待解決的問題。

 

快手團隊發(fā)現(xiàn),當單列業(yè)務的場景增多后,多任務學習更加重要。因為在單列場景下,用戶的交互行為都是基于show給用戶的視頻發(fā)生,并沒有像雙列交互那樣有非常重要的點擊行為。這些交互行為相對平等,而且這些行為數(shù)量多達幾十個(時長相關預估目標、喜歡、關注、轉發(fā)等)。

 

精排模型預估目標(部分)

隨著單列業(yè)務數(shù)據(jù)量越來越大,從模型層面,推薦團隊嘗試拆離出針對單列業(yè)務單獨優(yōu)化的模型。具體表現(xiàn)在特征層面,可以完全復用雙列模型特征,只是針對單列的目標,額外添加個性化偏置特征和部分統(tǒng)計值特征。在Embedding層面,因為前期單列數(shù)據(jù)量少,不能保證embedding收斂,最初使用雙列數(shù)據(jù)click行為主導訓練,后面改用單雙列用戶視頻觀看行為(有效播放、長播放、短播放)主導訓練embedding。在網絡結構層面,主要基于shared-bottom網絡結構訓練,不相關目標獨占一個tower,相關目標共享同一tower頂層輸出,這能在一定程度上提升目標預估效果。這個模型上線后,起初有一定的效果,但很快暴露出了一些問題。首先,它沒有考慮到單雙列業(yè)務中embedding分布差異,造成了embedding學習不充分。其次,在多任務學習層面,單列場景下,用戶的交互都是基于當前視頻show的單階段行為,各個目標之間互相影響,模型單個目標的提升,不一定能帶來線上的整體收益。

因此,如何設計一個好的多任務學習算法框架,讓所有預估目標都能提升變得非常關鍵。這個算法框架必須考慮數(shù)據(jù)、特征、embedding、網絡結構以及單列用戶交互特點。經過充分的調研和實踐,推薦團隊決定采用MMoE模型(Multi-gate Mixture-of-Experts)來改進當前模型。

MMoE是Google提出的一種經典多任務學習算法,其核心思想是把shared-bottom網絡替換為Expert層,通過多個門控網絡在多個專家網絡上上分別針對每個目標學習不同專家網絡權重進行融合表征,在此融合表征的基礎上通過task網絡學習每個任務。

通過參考MMoE算法和上面提到的快手推薦場景難點,推薦團隊改造了MMoE算法并設計了一套新的多任務學習算法框架。具體體現(xiàn)在,在特征層面,進行了語義統(tǒng)一,修正在單雙列業(yè)務中語義不一致特征,添加針對用戶在單列相關特征。在Embedding層面,進行了空間重新映射,設計了embedding transform layer,直接學習單雙列embedding映射關系,幫助單雙列embedding映射到統(tǒng)一空間分布。在特征重要性層面,設計了slot-gating layer,為不同業(yè)務做特征重要性選擇。

通過以上3點的改動,模型將輸入層的embedding表示從特征語義,embedding在不同業(yè)務分布,特征在不同業(yè)務重要性三個層面做了歸一化和正則化,重新映射到統(tǒng)一的特征表征空間,使得MMoE網絡在此空間上更好的捕捉多個任務之間后驗概率分布關系。通過此項對MMoE的改進,模型所有的目標提升非常顯著。

短期行為序列建模-Transformer模型

在快手的精排模型中,用戶歷史行為特征非常重要,對刻畫用戶興趣的動態(tài)變化有很好的表征。在快手的推薦場景下,用戶的行為特征非常豐富并且多變,其復雜度遠遠超過視頻類特征或者上下文的特征,因此設計一個能夠針對用戶行為序列有效建模的算法很有必要。

目前業(yè)界上對于用戶行為序列建模主要分為兩種模式,一是對于用戶的歷史行為進行weighted sum,二是通過RNN之類的模型進行時序建模。在快手前期的雙列精排模型里,用戶行為序列只是簡單做sum pooling作為模型輸入。而在單列場景下,用戶被動接收快手推薦視頻,而且丟失掉封面信息后,用戶需要觀看視頻一段時間再做反饋,因此主動視頻選擇權降低,更加適合推薦系統(tǒng)對用戶的興趣做E&E(Exploit & Explore)。

快手的序列建模靈感來自于Transformer模型。Transformer模型是Google在2017年提出的經典神經網絡翻譯模型,后來火爆的BERT和GPT-3也是基于此模型部分結構。Transformer主要包括Encoder跟Decoder兩部分,其中Encoder部分對輸入語言序列進行建模,這部分跟用戶行為序列建模目標是非常類似的,因此快手借鑒其中算法結構并對計算量進行了優(yōu)化。

 

MMoE結合Transformer建模用戶興趣序列

首先,快手推薦團隊使用用戶的視頻播放歷史作為行為序列。候選的序列有用戶長播歷史序列,短播歷史序列,用戶點擊歷史序列等,此類列表詳盡地記錄了用戶觀看視頻id,作者id,視頻時長,視頻tag,視頻觀看時長,視頻觀看時間等內容,完整描述用戶的觀看歷史。其次,對視頻觀看距今時間做log變換代替position embedding。在快手的推薦場景下,用戶短期的觀看行為跟當次預估更相關,長時間觀看行為更多體現(xiàn)用戶的多興趣分布,使用log變換更能體現(xiàn)這種相關性。最后,替換multi-head self-attention為multi-head target attention,并且使用當前embedding層的輸入作為query。這樣設計的目的有兩點,首先當前用戶特征,預估視頻特征和context特征比單獨的用戶行為序列提供更多信息。其次可以簡化計算量,從O(d*n*n*h)變換為O(d*n*h + e*d),其中d為attention的維度,n為list長度,h為head個數(shù),e*d表征的是embedding層維度變換為attention維度所需的復雜度。

改造后的Transformer網絡能顯著提升模型的預估能力,在離線評估上,用戶觀看時長類預估提升非常明顯,線上用戶觀看時長也顯著提升。

長期興趣建模

長期以來,快手的精排模型都比較偏向于使用用戶最近的行為。上面已經說到,通過采用transformer和MMoE模型,快手的精排模型對用戶的短期興趣進行了精確的建模,取得了非常大的收益。之前的模型里,采用了用戶最近幾十個歷史行為進行建模。由于短視頻行業(yè)的特點,最近幾十個歷史行為通常只能表示用戶很短一段時間內的興趣。這就造成了模型過度依賴用戶的短期行為,而導致了對用戶中長期興趣建模的缺失。

針對快手的業(yè)務特點,快手推薦團隊對于用戶長期興趣也進行了建模,使得模型能對于用戶長期的歷史記錄都有感知能力。快手推薦團隊發(fā)現(xiàn),將用戶的交互歷史序列(播放、點贊、關注、轉發(fā)等)擴長之后,模型能夠更好的捕捉到一些潛在的用戶興趣,即使此類行為相對稀疏。針對該特點,推薦團隊在之前的模型基礎上設計并改進了用戶超長期興趣建模模塊,能夠對用戶幾個月到一年的行為進行全面的建模,用戶行為序列長度能達到萬級。此模型已經在全量業(yè)務推全并且取得了巨大的線上收益。

 

快手用戶長期興趣精排模型結構示意圖

千億特征,萬億參數(shù)

隨著模型的迭代,深度學習網絡的復雜度越來越高,模型中添加的特征數(shù)量也越來越多,模型特征規(guī)模的大小也制約了精排模型的迭代。這不僅會限制模型特征的規(guī)模,使得一部分特征被逐出,帶來模型收斂的不穩(wěn)定性,同時還會導致模型更容易逐出低頻的特征,造成線上冷啟動效果變差(新視頻、新用戶),對于長尾的視頻或者新用戶不夠友好。

為了解決這個問題,快手推薦和架構的同學針對訓練引擎和線上serving進行改進,做到離線訓練和線上serving的服務根據(jù)配置的特征量靈活擴展,可以支持精排模型離線跟線上有千億特征,萬億參數(shù)的規(guī)模。特別的,新模型對于新視頻跟新用戶的流量分發(fā)更加友好,在新用戶和新視頻的指標上有顯著的提升,踐行了快手推薦”普惠“的理念。目前快手的精排模型,總特征量超過1000億,模型總的參數(shù)量超過19000億。

在線訓練和預估服務

為了支撐推薦場景下千億特征模型的在線訓練和實時預估,推薦團隊針對訓練框架和線上預估服務的參數(shù)服務器(Parameter Server)進行了修改。在推薦模型的在線學習中,存儲Embedding的參數(shù)服務器需要能夠精準的控制內存的使用,提升訓練和預估的效率。為了解決這一問題,推薦團隊提出了無沖突且內存高效的全局共享嵌入表(Global Shared Embedding Table, GSET)的參數(shù)服務器設計。

每個 ID 單獨映射一個Embedding向量很快就會占滿機器的內存資源,為了確保系統(tǒng)可以長期執(zhí)行,GSET 使用定制的 feature score 淘汰策略以控制內存占用量可以始終低于預設閾值。傳統(tǒng)的緩存淘汰策略如 LFU、LRU 只考慮了實體出現(xiàn)的頻率信息,主要用以最大化緩存的命中率。feature score 策略考慮了機器學習場景下額外的信息來輔助進行特征淘汰。

在推薦系統(tǒng)的在線學習過程中,會有大量低頻 ID 進入系統(tǒng),這些低頻 ID 通常在未來的預估中根本不會出現(xiàn),系統(tǒng)接收了這些特征后可能很快又會再次淘汰他們。為了防止低頻 ID 無意義的進入和逐出對系統(tǒng)性能產生影響,GSET 中支持一些特征準入策略來過濾低頻特征。同時為了提升GSET的效率和降低成本,快手還采用了新的存儲器件 -- 非易失內存 (Intel AEP)。非易失內存能提供單機達到若干TB的近似內存級別訪問速度。為了適配這種硬件,推薦團隊實現(xiàn)了底層KV引擎NVMKV來支撐GSET,從而很好的確保了萬億參數(shù)模型的線上穩(wěn)定性。

展望未來

據(jù)快手推薦算法負責人,曾在Google Research擔任Staff Research Manager的宋洋博士介紹,短視頻行業(yè)有其獨特的挑戰(zhàn),表現(xiàn)在用戶量多,視頻上傳量大,作品生命周期短,用戶興趣變化快等多個方面。因此短視頻推薦很難照搬傳統(tǒng)視頻行業(yè)精細化運營的做法,而需要依靠推薦算法對視頻進行及時的,精確的分發(fā)??焓滞扑]算法團隊一直針對短視頻業(yè)務進行深度定制和積極創(chuàng)新,提出了很多業(yè)界首創(chuàng)的推薦模型和想法,同時也給推薦工程架構團隊帶來了很多系統(tǒng)和硬件層面的挑戰(zhàn)。

宋洋博士認為,快手精排萬億參數(shù)模型是推薦系統(tǒng)一個里程碑式的突破,它結合了序列模型,長短期興趣模型,門控模型,專家模型等各個方面的優(yōu)點,是至今為止工業(yè)界最全面,最有效的推薦模型之一。該模型已在快手的主要業(yè)務上全量上線為用戶服務。在未來“算法-系統(tǒng)-硬件”三位一體的挑戰(zhàn)和機遇可能會有更多,希望這將更進一步推動快手推薦系統(tǒng)在技術上的創(chuàng)新和突破,為用戶增進體驗和創(chuàng)造價值。

 

 

責任編輯:王雪燕 來源: 快手
相關推薦

2023-01-11 18:34:22

推薦精排模型

2023-10-12 07:32:27

冷啟動推薦模型

2025-03-12 14:49:29

2023-07-13 12:54:42

GPT-4OpenAI

2023-11-16 16:41:36

AI 模型

2009-07-27 10:03:02

分層模型網絡故障

2023-09-25 07:31:19

算力AI框架

2024-04-03 07:56:50

推薦系統(tǒng)多任務推薦

2023-12-27 14:06:00

模型訓練

2023-05-24 07:47:23

ChatGPT參數(shù)模型

2023-05-26 07:47:41

ChatGPT模型AI

2023-05-19 10:26:01

谷歌模型

2024-11-15 10:43:27

2021-11-09 16:59:56

模型人工智能GPU

2022-04-20 18:30:00

算法架構粗排

2024-02-05 08:41:08

因果推斷快手短視頻應用

2023-10-26 17:56:04

AI小快大規(guī)模語言模型

2024-11-07 13:35:10

2024-07-16 13:13:26

2023-09-20 16:55:15

華為AI 計算集群
點贊
收藏

51CTO技術棧公眾號