淘寶直播流量與供給端到端聯(lián)動探索
一、淘寶直播體系化調(diào)控能力演進
目前淘寶直播推薦算法工作階段性重心轉(zhuǎn)向發(fā)現(xiàn)性和實時性。從C端用戶的視角出發(fā),重新定義人貨場的匹配推薦,以提高用戶的真實體感。而對于流量調(diào)控算法而言,為了鼓勵主播開播、加速主播成長、優(yōu)化主播生態(tài),流量扶持或流量激勵是重要的方式組成,更多的是從B端視角即主播商家側(cè)出發(fā),提供業(yè)務(wù)運營可控途徑,扶持激勵主播成長,促進生態(tài)平衡繁榮。
圍繞直播主播生態(tài)與主播成長大目標,直播流量調(diào)控系統(tǒng)承擔了多維度的業(yè)務(wù)訴求,構(gòu)建了較為完善流量調(diào)控機制體系。比如產(chǎn)品功能上的分享任務(wù)、排位賽,運營杠桿下的領(lǐng)航計劃、營銷活動,產(chǎn)算機制內(nèi)的新主播冷啟、實時賽馬、潛力主播、場觀保底等等。
與商品、圖文、短視頻等業(yè)務(wù)場景相比較,直播場景具有較大的差異性,無論是供給的時效性,其他場景內(nèi)容供給是全周期的,即生產(chǎn)出來后可以時時刻刻作為內(nèi)容池子去分發(fā),而直播不一樣,其生命周期僅存在于直播間從創(chuàng)建到關(guān)閉這段時間,即只有主播開播期間才能生產(chǎn)內(nèi)容并進行流量分發(fā)或調(diào)控,因此有較強的實效性。另外內(nèi)容的動態(tài)變化性,其他場景內(nèi)容是離線生產(chǎn)的,生產(chǎn)后各種屬性信息基本就確定下來了,而直播的內(nèi)容是實時生產(chǎn)的,是流式的內(nèi)容,很難知道下一刻的直播內(nèi)容是什么,主播上架商品、商品秒殺、評論抽獎、紅包雨、粉絲互動等一系列直播間動作或狀態(tài)都隨時會發(fā)生或變化,會影響到直播間的氛圍或直播間對用戶的吸引力或承接能力,無疑會對流量調(diào)控工作提出了更高的挑戰(zhàn)要求。進一步,從主播的生命周期價值來看,從LTV的視角出發(fā),其價值在時刻發(fā)生變化,無論在每場內(nèi)還是不同場間。無論在技術(shù)還是業(yè)務(wù)上,流量調(diào)控在直播領(lǐng)域存在很多挑戰(zhàn)和問題。除了一些調(diào)控原始的問題,在預估主播開播時長、保持流量平穩(wěn)性、提升推薦算法和調(diào)控算法效率等方面都需要持續(xù)優(yōu)化,以實現(xiàn)用戶找到符合興趣的直播間,實現(xiàn)用戶側(cè)價值、主播匹配到高互動意愿和高轉(zhuǎn)化意愿的用戶以調(diào)動主播積極性的目標,實現(xiàn)主播側(cè)價值,進而最終實現(xiàn)平臺價值。
目前,淘寶直播涉及多個核心場域,每個場域都有不同的業(yè)務(wù)邏輯和產(chǎn)品認知。圍繞主播生態(tài)和主播成長兩大目標,我們希望建立一個統(tǒng)一的流量平臺管理能力,協(xié)調(diào)差異化的傳控訴求的同時,緩解業(yè)務(wù)需求與分發(fā)協(xié)調(diào)的困難。同時,希望支持主播、貨品、用戶等多維度的調(diào)控訴求,構(gòu)建一個更實時化、精細化、業(yè)務(wù)多維度可控的體系化調(diào)控能力,服務(wù)整個直播生態(tài)的健康發(fā)展和流量規(guī)劃可控。
目前,淘寶直播已經(jīng)迭代了一套相對完善的直播調(diào)控流量中控系統(tǒng),以滿足多維度的調(diào)控業(yè)務(wù)訴求。從技術(shù)和架構(gòu)的角度來看,整個系統(tǒng)可以從三個視角進行討論,即調(diào)控策略維度、流量調(diào)控目標維度和調(diào)控場景維度。
首先,調(diào)控策略維度。我們構(gòu)建了包括主播場次維度、貨品維度、營銷活動維度、用戶PV維度等多方面的調(diào)控能力。每個部分下又涵蓋了不同的調(diào)控細化能力。能夠覆蓋像主播場次的宏觀多類型保量,增量調(diào)控,分時段精準調(diào)控等,還有像搭建了以品為核心的商品調(diào)控鏈路,強化貨品供給端到端聯(lián)動流量分發(fā)的能力?;谪浧返娜巳喝x+商品維度流量調(diào)控,結(jié)合看點的實時消息做到在主播講解品的瞬間起量,分鐘級精準快速保量。營銷玩法聯(lián)動流量機制,用戶pv粒度精準控制等等。
其次,調(diào)控目標維度。類似于我們向主播宣導時長和成交是流量上升的重要考核因素,對于調(diào)控流量,不同的調(diào)控業(yè)務(wù)類型,不同類型的人設(shè)主播,不同場次預期目標安排對于調(diào)控的業(yè)務(wù)訴求也是不同的,比如針對內(nèi)容型主播或者新咖入淘,對于調(diào)控流量是否能帶來更高的粉絲轉(zhuǎn)化和留存有著更強的需求,針對帶貨主播大場成交轉(zhuǎn)化無疑是更加重要的目標等,那么站在調(diào)控目標角度,如何去強化明確激勵流量的ROI屬性:時長、轉(zhuǎn)粉、轉(zhuǎn)化、用戶拉新等,而不僅僅是pv完成率,這是傳統(tǒng)調(diào)控所難以達到的。那么針對調(diào)控架構(gòu)的設(shè)計,我們也希望擁有這種可以多元目標轉(zhuǎn)變的定制化能力。
最后,調(diào)控場景維度。淘寶直播目前覆蓋核心場景眾多,緩解直播流量控制的確定性業(yè)務(wù)訴求與跨域各分發(fā)場景在流量調(diào)控上的協(xié)同困難,中控系統(tǒng)構(gòu)建了多場景的動態(tài)實時協(xié)調(diào)能力,結(jié)合主播歷史渠道流量分布,場景流量規(guī)模,是否新人主播,是否預設(shè)pvr信息等進行分渠道流量預規(guī)劃,調(diào)控過程中,結(jié)合調(diào)控現(xiàn)狀(當前目標,流量進度,計算誤差,時間信息等),進行各場景實時pvr動態(tài)調(diào)整規(guī)劃,結(jié)合調(diào)控實時反饋,緩解調(diào)控難度保障完成率,避免流量過度集中到某個特定場景,同時提升流量效率。中控統(tǒng)一架構(gòu)下的差異化各場景調(diào)控人群生成,保證調(diào)控穩(wěn)定性的同時,提升流量效率,兼顧平穩(wěn)性與效率。
在整個架構(gòu)下,算法也是進行了多維度多切口的迭代優(yōu)化,例如營銷活動聯(lián)動流量調(diào)控,淘寶直播動態(tài)精準端到端人群構(gòu)建,直播流量多價值路徑建模,如何優(yōu)雅的進行貨找人/人找人多粒度人群匹配,流量池下的直播網(wǎng)絡(luò)流建模,調(diào)控特色的排序體系化建設(shè)等等。
那么縱觀整個直播流量調(diào)控體系,圍繞眾多業(yè)務(wù)訴求,算法側(cè)我們可以整體抽象出來一些核心問題:
1.眾多差異化的調(diào)控訴求,構(gòu)建體系化的解決方案
2.流量控制的確定性業(yè)務(wù)訴求與各分發(fā)場景在流量調(diào)控上的協(xié)同困難
3.流量調(diào)控任務(wù)的完成率與平穩(wěn)性保證
4.持續(xù)提升調(diào)控流量的效率價值
5.直播端到端供給如何聯(lián)動分發(fā)
6.調(diào)控激勵流量是否多元ROI屬性可定制
二、實驗實時動態(tài)多元價值路徑人群建模
對于激勵流量調(diào)控而言,各差異化類型的調(diào)控計劃本質(zhì)均是在已有推薦系統(tǒng)的基礎(chǔ)上,調(diào)控算法通過干預公域推薦流量的分發(fā)來給到主播額外的推薦流量。在面向B端視角的情況下,我們可以從另一個視角去詮釋推薦和調(diào)控的差異性,推薦重視給特定用戶推薦更加契合的候選主播列表,而調(diào)控側(cè)重給調(diào)控目標主播推薦更加契合的候選用戶列表。舉一個更加通俗的例子,從推薦角度來看,假設(shè)全用戶召回的情況下,對于用戶A,興趣相關(guān)性較高的主播B是一個較好的優(yōu)質(zhì)候選待推薦主播。而從調(diào)控角度來看,對于B主播的調(diào)控計劃,用戶A不一定在最match當前主播的高調(diào)控目標價值用戶集合中。
那么針對上述算法抽象核心問題和我們對調(diào)控的另一個視角的闡述,一個較好的可通用化的切入點就是如何更加合理有效的構(gòu)建調(diào)控人群方案,那么我們可以一起討論如何創(chuàng)新性的將主播調(diào)控人群圈選問題轉(zhuǎn)化為給主播實時推薦直播在線用戶問題,引入面向主播側(cè)的算法實時個性化推薦能力,并對整個系統(tǒng)流程架構(gòu)進行簡介,一方面兼顧調(diào)控平穩(wěn)性與調(diào)控完成率,持續(xù)提升調(diào)控流量效率價值,另一方面,能夠端到端的聯(lián)動直播供給與分發(fā),更深入的,我們希望調(diào)控人群架構(gòu)的設(shè)計能夠強化明確激勵流量的ROI屬性等。
直播業(yè)務(wù)中,傳統(tǒng)的圈選人群通常是業(yè)務(wù)和算法團隊根據(jù)業(yè)務(wù)經(jīng)驗、調(diào)控計劃規(guī)模、主播人設(shè)和貨品招商情況進行定向圈選的。然而,傳統(tǒng)的圈選方式通常會存在以下幾個潛在問題:
1、離線調(diào)控人群很難在效率和完成率之間做到較好的平衡,且調(diào)控過程平穩(wěn)性有待加強:
這是因為直播間的實時在線用戶相對于整個用戶群體來說是一個相對較小的群體。為了保證調(diào)控任務(wù)的可執(zhí)行性和完成率,傳統(tǒng)人群的圈選量級通常會達到上千萬規(guī)模,不僅規(guī)模巨大,而且人群內(nèi)部的用戶質(zhì)量良莠不齊,因此導致難以保證推薦效率。如果要提高推薦效率,將推薦人群圈選得較小,那么任務(wù)的完成率就會受到影響,難以實現(xiàn)平穩(wěn)調(diào)控。此外,離線人群的用戶到達分布是不穩(wěn)定的,容易出現(xiàn)抖動或毛刺等現(xiàn)象。
2、離線調(diào)控人群圈選,難以做到“千主播千人群”以及根據(jù)主播和用戶的實時行為動態(tài)調(diào)整人群。
通常,圈選規(guī)則是根據(jù)歷史的業(yè)務(wù)經(jīng)驗和主播的歷史表現(xiàn)行為進行制定的,這導致了無法根據(jù)用戶和主播的實時行為狀態(tài)進行動態(tài)調(diào)整,只能進行一些簡單的人工增減活動等。在這種情況下,更難以實現(xiàn)實時的千主播千人群。
3、如何去強化明確激勵流量的ROI屬性:時長、轉(zhuǎn)粉、轉(zhuǎn)化、用戶拉新等,而不僅僅是pv完成率。
對于推薦系統(tǒng)而言,階段性時間內(nèi)推薦系統(tǒng)輸出的流量或?qū)蚴敲鞔_的。但對于調(diào)控計劃來說,不同的調(diào)控計劃、類型和主播等都可以具有更加明確的偏向?qū)傩裕{(diào)控人群的多元屬性可明確定制化是我們的架構(gòu)希望能夠達到的。
針對上述問題,在流量調(diào)控的人群方案上,我們經(jīng)歷了三個階段的探索:
- 第一階段,離線人群圈定,屬于傳統(tǒng)調(diào)控人群圈定的方案。在這個過程中,我們和業(yè)務(wù)方合作積累一定的直播典型人群,能夠滿足不同類型的流量調(diào)控訴求,如不同類型的大咖入淘,領(lǐng)航計劃等。
- 第二階段,離線人群圈定結(jié)合動態(tài)人群擴展方案。在第一階段的基礎(chǔ)上,我們搭建動態(tài)人群擴展場景,聯(lián)動調(diào)控系統(tǒng),構(gòu)建基于調(diào)控誤差、調(diào)控目標規(guī)模的動態(tài)人群包擴展功能。對整個人群生成寫入邏輯進行了全鏈路梳理優(yōu)化,線上基本保證10min內(nèi)更新完畢千萬級疊加人群。
在這種機制保障下,一方面我們可以在離線的時候?qū)θ巳哼M行更精細化的邏輯控制生成,而不用擔心由于人群規(guī)模問題導致線上計劃的不可執(zhí)行或者流量后續(xù)乏力,另一方面調(diào)控的整體完成率得到了進一步的提升,避免了人工預估調(diào)整的繁瑣工作,同時平均調(diào)控完成率進一步提升。 - 第三階段,端到端直播間在線用戶精準動態(tài)人群調(diào)控方案。結(jié)合前兩階段的方案積累和優(yōu)勢,進一步創(chuàng)新性的將主播人群圈選問題轉(zhuǎn)化為給主播實時推薦用戶問題,引入主播側(cè)算法實時個性化推薦能力。
整體的方案結(jié)構(gòu)如上圖,重點在于如何將主播調(diào)控人群問題轉(zhuǎn)化為給主播實時推薦直播在線用戶,并引入個性化推薦能力。模型造方面需要解決主播視角下推薦系統(tǒng)面臨的負載問題,例如,對于一個主播,候選用戶量級比用戶視角推薦主播的候選量級明顯大很多,這對于任何推薦系統(tǒng)來說都是很高的負載。而在線調(diào)控方面需要兼顧用戶規(guī)模和調(diào)控精準性,同時能夠兼顧主播人群的泛化性能力。人群模型的整體構(gòu)造分為兩部分:離線大模型和線上實時化模型。離線大模型容納了大量多元異構(gòu)行為信息,線上實時化模型則采用了一些創(chuàng)新性優(yōu)化,如 attention算力下沉等,并引入人群聚類算法可以很好地在調(diào)控精度和計算負載之間做出權(quán)衡。在實時在線用戶的底池中,所有用戶都是對直播間實時在線的,保證推薦的精準度。此外,還引入了針對人群規(guī)模的個性化預估和實時的誤差修正,以及基于人群的曝光過濾和子人群的失效時間預估,比較自然的將推薦系統(tǒng)的能力遷移過來,提高主播側(cè)的調(diào)控計劃的效率和pv價值。
首先介紹人群模型部分。離線大模型和線上實時化模型。第一個是以雙塔為基準的在線人群推薦模型,主要是快速實時地進行人群的推薦;另一個是離線的大模型,引入更多更復雜的多元異構(gòu)信息,從而進行更加全面的用戶信息刻畫。
整體而言,人群模型主要在以下幾個方向進行了優(yōu)化:
- 直播自序列表征能力的增強
- 直播用戶商品心智刻畫
- 多元異構(gòu)興趣建模及融合
- 模型算力與精度共同提升
關(guān)于直播序列信息表征方面。探索挖掘用戶行為信息,我們可以發(fā)現(xiàn),用戶關(guān)于直播領(lǐng)域的興趣覆蓋往往較少,拉取較長時間跨度后興趣主播覆蓋量并沒有得到有效的提升。故直接構(gòu)建直播長期序列會使得整體興趣會偏向于用戶的較久遠的直播興趣,且信息增益沒有得到明顯提升,那么如何就直播自序列的節(jié)點表征信息進行增強則顯得較為重要。直播自序列擴展建模這方面我們進行了一些相關(guān)探索嘗試,首先是關(guān)于自行為序列節(jié)點的信息擴展,可靠興趣節(jié)點在a2a(主播to主播)數(shù)據(jù)中按帶截斷權(quán)重search出每個key對應(yīng)的權(quán)重topN的新account list,保證每個擴展主播都和源節(jié)點主播具有著高度的相關(guān)性,隨后多個新擴展主播list按照行為時間和a2a關(guān)系權(quán)重聚合形成該用戶的transfer直播序列,transfer直播序列擴展提供了一種快捷高效的序列信息擴展方式,再此之外,我們也建模了如何進一步提升直播序列本身的表征能力的同時把點邊關(guān)系信息刻畫也融入進來,把用戶行為序列向網(wǎng)狀化的擴展,以此來反應(yīng)用戶層級興趣,如下圖所示,類似ripple net網(wǎng)絡(luò)的信息聚合方式,通過異構(gòu)行為節(jié)點的自然聚合,使得模型表達能力的進一步提升,行為節(jié)點間relation的刻畫,點和點之間的鏈接不僅增強了對于點本身的刻畫,而且?guī)砜山忉尩年P(guān)系推薦。
關(guān)于直播用戶的商品心智。通常離不開“人,貨,場”,三種要素的刻畫,而對于手淘,用戶一般具有體很強的商品心智。直播作為手淘中的一種重要內(nèi)容供給,在推薦系統(tǒng)構(gòu)建的時候也需要重視用戶的商品心智,重視品在推薦中的重要性,同時通過深度挖掘用戶在商品域的不同時期的興趣及興趣隨時間的變化情況并泛化到直播域的興趣表達,可以較好的提升直播低活,零活人群的效率指標以及推薦準確性。具體來說,商品興趣轉(zhuǎn)移擴展建模,我們通過嚴口徑下item2account數(shù)據(jù)構(gòu)建,將用戶在商品域興趣隨時間的變化情況泛化到直播域興趣表達,找到用戶可能潛在的興趣主播。超長商品序列分時段建模,引入超長全域商品序列及LSH等輕量級attention建模方式,通過刻畫用戶長期興趣及興趣演變,尤其是對直播低活零活用戶,超長商品域序列的引入對該部分用戶興趣泛化起到了比較重要的作用。主播實時講解類目檢索建模,一般而言target attention 中相關(guān)性較低兩個實體的attention的加權(quán)系數(shù)往往很低,通過超長序列結(jié)合類目過濾的方式能夠比較好的完整聚合當前candidate相關(guān)性較高的動態(tài)激活的用戶興趣序列,對于直播業(yè)務(wù)而言,商品域超長序列如何通過合理有效的方式關(guān)于直播candidate進行檢索是需要探索的問題。最后我們采用主播類目作為使得檢索序列相關(guān)性得到提升。雖然用戶對于主播一跳行為通常受到已有認知的影響,但是更加精準的二跳信息匹配,預期能夠更好的留住用戶,進而觸達用戶的購買需求。
關(guān)于融合多元異構(gòu)信息的建模,如上所述我們對直播用戶商品心智進行了較為全面的刻畫,基于此我們進一步思考,如何能夠更加全面合理的建模用戶的全域興趣,手淘用戶在其他域上通常有著一定豐富度的興趣覆蓋,如商品,短視頻等,能夠合理全面的刻畫商品域,短視頻域的用戶興趣,可以較好的泛化到直播域可能的潛在興趣,此最后有了用戶在各個領(lǐng)域的興趣表征之后,如何進行合理化的整合和表達也則顯得十分重要。
傳統(tǒng)模型架構(gòu)中關(guān)于直播域seq與商品域seq等序列的應(yīng)用方式通常為target attention后concat進入mlp的方式,這里探索如何進一步挖掘其他非直播域行為序列中的信息,之前的seq利用的方式本質(zhì)上是通過seq生成candidate的一個embedding表達,而其他域的seq所生成的直播的embedding表達不一定完全合適直播域建模,根據(jù)之前pvr數(shù)據(jù)反饋來看有傾向于熱品等的情況。我們通過建模多域異構(gòu)興趣匹配問題,不單單生產(chǎn)target的embedding表達,而是進一步挖掘比如短視頻域上哪些行為的組合表達和當前的target有著更高的匹配程度,從而探索他域異構(gòu)序列到直播域興趣的泛化方式。對于直播業(yè)務(wù),如引入短視頻序列,商品序列等他域異構(gòu)序列,除了進行target attention以外,再引入序列興趣匹配問題建模,通過利用attention過程中產(chǎn)生的相關(guān)性向量進行匹配性特征抽取,基礎(chǔ)模型該過程通過一個兩層的cnn進行,獲取如何的組合方式與當前的target具有更好的匹配性,而不是僅僅獲取一個target的embedding表達,最終得到不同域的用戶興趣匹配和target attention表征組,然后接入全聯(lián)接的底層,使得用戶他域異構(gòu)序列興趣能夠更好泛化到直播域來。此外值得一提的是,商品序列,短視頻序列等進行按照序列異構(gòu)序列匹配建模實驗,均帶來了auc的提升,而直播序列本身進行序列匹配建模后auc持平不變,這說明了對于自身序列而言,target attention本身已經(jīng)是一種較為友好的建模方式。
關(guān)于多域活躍度影響下的興趣融合,有了各個domain下的用戶直播興趣表達,進一步研究如何更好的去整合多域異構(gòu)興趣信息,特征工程中我們構(gòu)建了一部分活躍度相關(guān)的特征表達,然而該部分特征對個性化推薦的影響其實而言相對較小,更加合理化的應(yīng)用該部分特征,同時更好的整合用戶多域異構(gòu)興趣。這里我們在原有的活躍度表征的基礎(chǔ)上,豐富了用戶關(guān)于不同域的活躍情況,近期在直播,短視頻,商品等的偏好情況,如果能夠比較合理的高效進行多域興趣間的交互和融,借鑒DCNv2的類似思想則是一個潛在可行的解決方案,把輸入映射到低維空間,再映射回來,在多個子空間里學習異構(gòu)興趣及domain活躍度的多階交叉,既控制了復雜度的同時較好的完成了多域興趣的交互融合,模型在現(xiàn)有大模型的基礎(chǔ)上加入異構(gòu)興趣交互融合網(wǎng)絡(luò)模塊,模塊的輸入為多域異構(gòu)序列不同域的興趣匹配和target attention表征組以及用戶關(guān)于各域近期的活躍度信息,向上通過一個三層的DCNv2交叉網(wǎng)絡(luò),每層的expert和映射空間維度逐漸降低,進行顯示的活躍度信息,異構(gòu)興趣信息交互。
關(guān)于模型算力與精度共同提升。為了緩解直播用戶規(guī)模群體與調(diào)控模型精準的性訴求矛盾,兼顧主播人群泛化性能,對于實時在線模型,我們在雙塔的基礎(chǔ)上,拆解計算圖為原有雙塔部分和基于path 分解形成的行為主播到關(guān)聯(lián)主播的分數(shù)融合部分,繼續(xù)擴展i2a等多種path,線下共同訓練,線上進行計算圖拆解,path 部分通過查表完成,用這種方式可以去逼近和下沉target attention的性能指標。
直播人群聚類部分。人群推薦模型的建立讓我們擁有了對每個主播去選擇用戶的能力,而維護在直播間內(nèi)所有實時在線的用戶數(shù)據(jù)底表表,作為調(diào)控人群召回底表,這樣保障了我們的調(diào)控人群底池,一方面底池最大規(guī)模即為直播間在線實時用戶量級,另一方面所有進入底池的用戶均為直播實時在線用戶。
進一步,在此基礎(chǔ)上引入人群聚類算法建模,使得我們可以控制推薦給主播的用戶集合顆粒度從單個用戶到相似子用戶群體自由縮放可控,同時子人群的概念就單用戶而言,更加便于進行人群曝光率(曝光量/召回量),人群失效時間等預估計算,也可以在計算開銷和調(diào)控精度上做一個較好的權(quán)衡。具體來說,將用戶向量embedding進行算法聚類得到用戶子類,離線用戶聚類子類在join上直播間實時用戶數(shù)據(jù)后形成數(shù)據(jù)底表。從而可以將主播的人群圈選問題轉(zhuǎn)化為給主播個性化推薦每個動態(tài)變化的cluster,除了引入實時推薦個性化能力,另一方面我們機制的設(shè)計也便于進行主播側(cè)的曝光過濾等類似用戶側(cè)的推薦算法邏輯。
個性化人群規(guī)模預估部分。主播個性化實時調(diào)控人群圈選基于直播間實時在線的用戶構(gòu)建,隨后我們結(jié)合曝光率(曝光量/召回量)就可以相對準確的去預估線上調(diào)控任務(wù)所需人群的大小。但是不同于商品短視頻等推薦,直播是一個實時流的狀態(tài),其曝光率會隨著時間和自身講解狀態(tài)以及當貨品的信息實時發(fā)生變化,因此我們會基于主播離線曝光率預估計算初始人群的量級,然后線上根據(jù)實時曝光率統(tǒng)計來動態(tài)修正預估人群量級。
主播調(diào)控人群線上推薦部分。線上對主播調(diào)控子人群推薦過程中,我們將主播的高相關(guān)性候選人群向量召回并寫入的同時,記錄下每個人群cluster的量級和時間戳,結(jié)合歷史停留時長數(shù)據(jù)預估判斷調(diào)控子人群的失效時間,動態(tài)維護曝光cluster的列表。調(diào)控子人群失效時間判斷結(jié)合調(diào)控子人群窗口曝光過濾機制,能夠保證每次寫入的均為當前直播在線用戶中和主播實時高相關(guān)性的候選人群子集,同時整體開銷較低、實時性好、量級穩(wěn)定維持在設(shè)定的大小,因此可以很好的平衡效率和完成率,避免因離線人群到達分布不穩(wěn)定而導致的流量"尖刺"等問題。
最后,實時動態(tài)多元價值路徑人群建模部分。如何去強化明確激勵流量的ROI屬性:時長、轉(zhuǎn)粉、轉(zhuǎn)化、用戶拉新等,而不僅僅是調(diào)控pv完成率,是我們對調(diào)控任務(wù)的預期。那么針對調(diào)控人群架構(gòu)的設(shè)計,我們也希望擁有這種可以多元目標轉(zhuǎn)變的定制化能力,而這是傳統(tǒng)人群圈選所難以達到的。
進一步的,對于推進系統(tǒng),在一個相對的時間階段內(nèi),推薦系統(tǒng)的主流衡量標準是相對穩(wěn)定的,即便推薦多目標建模,ltr的融合的方式也是階段性確定性的,但是對于具體的調(diào)控計劃任務(wù),我們希望它是多元變化可定制的。對于調(diào)控流量,不同的調(diào)控業(yè)務(wù)類型和人設(shè)主播,每場對于調(diào)控的業(yè)務(wù)訴求也是不一樣的,比如針對內(nèi)容型主播或者新咖入淘,對于調(diào)控流量是否能帶來更高的粉絲轉(zhuǎn)化和留存有著更強的需求,針對帶貨主播大場成交轉(zhuǎn)化無疑是更加重要的目標?;诖?,我們搭建了基于核心人群的多目標調(diào)控鏈路,之前的人群鏈路主要影響推薦的召回,而核心人群的調(diào)控鏈路影響全鏈路,細粒度pv可控。
具體來說,定義一個更加精準輕量的核心人群,通過核心人群pid控制對應(yīng)側(cè)重目標的核心人群在調(diào)控流量中的實時pvr占比。通過退化流量調(diào)控pid,來表征對于非場觀看目標下的任務(wù),實時流量進度相比時間進度可以損失的目標值,代表了可以置換其他側(cè)重roi屬性的一個退讓上界限,模型上,鑒于排序限制和對調(diào)控模型精準性的進一步要求,下沉attention計算能力,通過拆解計算圖為原有雙塔部分和基于path分解形成的行為主播到關(guān)聯(lián)主播的分數(shù)融合部分,線下共同訓練,線上進行計算圖拆解,結(jié)合之前的人群聚類自由度放縮機制,從而使得模型能夠保證大規(guī)模打分的基礎(chǔ)上可以逼近精排的效果。當然對于重點提前明確排期的和長期扶持主播,離線大模型打分也會引入系統(tǒng)作為重要參考。整體方案兼顧了調(diào)控激勵的實時性,精準性,平穩(wěn)性,泛化性等多方面訴求。
三、流量調(diào)控與供給端到端聯(lián)動
對于直播數(shù)智化營銷基礎(chǔ)建設(shè),豐富貨品側(cè)智能運營工具和能力,我們構(gòu)建了一系列營銷能力,如主播爆品預估、潛力新品預估、主播PV價值預估等。加強業(yè)務(wù)同學對于流量價值的心理預期,提高與主播團隊和業(yè)務(wù)團隊之間的溝通和環(huán)節(jié)把控,同時也落地成了一些相關(guān)的業(yè)務(wù)產(chǎn)品。我們圍繞用戶、主播和商品三元圖網(wǎng)絡(luò)結(jié)構(gòu)建模結(jié)合直播間在線用戶精準動態(tài)人群方案,端到端的聯(lián)動營銷供給與流量調(diào)控分發(fā),提升流量的確定性,從而實現(xiàn)流量的整體閉環(huán)。實際上,無論是爆品預估、新品發(fā)現(xiàn),還是PV價值預估、流量預估等,本質(zhì)上都是在這個三元網(wǎng)絡(luò)圖上進行若干限定并求解一個最大值或最小值的問題。這也是我們解決營銷問題的主要思路,擴展主播樣本,主播商品樣本到用戶-主播-商品三元網(wǎng)絡(luò)樣本,結(jié)合直播用戶到達率預估建模,以及特定待預估問題的目標維度聚合,那么我們就有了可以解決通用問題的一套方案。
當然我們還嘗試過小樣本的遷移學習,同樣取得了還不錯的效果,主體思路的難點在于,如何動態(tài)的的挑選推薦樣本中哪些樣本時具備營銷樣本遷移學習價值的,我們給出的解決方案通過對齊營銷樣本與推薦樣本,通過聚類和動態(tài)迭代不斷挑選出和營銷域樣本更相關(guān)的推薦樣本,以及對于主播寶貝袋多商品的建模方式等。
結(jié)合流控方面的工作與營銷部分的探索,我們可以衍生出很多相關(guān)的流控與供給端到端聯(lián)動的應(yīng)用落地方案,下面簡單的介紹一部分應(yīng)用方案:
泛精細化流量匹配:結(jié)合我們的爆品預估/pv價值預估結(jié)果,聯(lián)動直播間端到端實時動態(tài)人群,可以比較自然的實現(xiàn):貨找人/人找人。我們可以用我今天想要的貨品集合思路去找到直播間當前最相關(guān)的一批在線用戶,進行流量的激勵和調(diào)控,也可以通過主播的人設(shè),對標的主播,對這場直播的預期,找具有成熟直播體系的成功標桿主播,用它的受眾人群模式去為自己的落地,扶持自身的成長。包括一些爆品的流量打爆等等。都比較自然的結(jié)合了我們營銷與流控兩部分工作。 實時精準流量匹配:通過主播貨品信息結(jié)合潛在爆品預估/主播看點/貨品rundown信息,可以比較自然的構(gòu)建主播貨品粒度直播間實時動態(tài)人群調(diào)控的應(yīng)用方案,根據(jù)u-a-i的三元關(guān)系能力,即針對主播和主播實時講解的貨品信息進行動態(tài)人群實時圈選,是很合理的思路演化,例如在主播入淘的調(diào)控計劃過程中上,主播的貨品基本很多都是跨類目的,業(yè)務(wù)訴求自然的也會希望調(diào)控流量能夠結(jié)合實時貨品的信息,保證實時調(diào)控人群更加切合當前時段的商品信息。實時商品信息+主播信息共同inference出復合主播embedding向量實時召回對應(yīng)的人群數(shù)據(jù),在基于直播間實時用戶鏈路基礎(chǔ)上,直播動態(tài)人群信息數(shù)據(jù)更新能夠在10s量級內(nèi)完成,通常而言,主播講解商品排期具有階段相似性,這個人群時效性已經(jīng)能夠比較好的切合同一場次下的貨品實時講解變化。
新咖主播扶持:提到調(diào)控算法建模與營銷相關(guān)工作,新咖主播的精準扶持是一項重要的業(yè)務(wù)需求,對于這一部分主播嚴重缺乏歷史信息參考,開播場次少,主播的embedding信息學習不充分。在設(shè)計端到端直播精準人群調(diào)控方案中對于新咖主播扶持也可以比較好的兼容進來,對于有一定開播場次歷史數(shù)據(jù)的新咖主播,算法可以相對精準的計算出新咖主播相似擴展主播,結(jié)合貨品類目信息,整體pv價值段預估參考可以相對比較好的鎖定新咖主播的相似主播集合,隨后對相似主播進行信息聚合產(chǎn)出新咖主播embedding向量來實現(xiàn)實時動態(tài)人群調(diào)控。當然我們也經(jīng)常遇到相對極端的案例,首秀零粉絲開播。在進行動態(tài)調(diào)控人群的構(gòu)建時候,我們則采用參考結(jié)合行業(yè)先驗知識的方式構(gòu)建主播embedding,結(jié)合對標主播類目下其他關(guān)聯(lián)主播信息,主播到主播相似擴展,基于知識相似/類目相似主播結(jié)合貨品類目信息產(chǎn)出候選主播embedding向量,實時去拓用戶,實驗表明對于純冷啟動新咖主播引入同樣獲得了較好的效果業(yè)務(wù)指標。
多元流量價值路徑:對于流控調(diào)控,不同的調(diào)控業(yè)務(wù)類型,不同類型的人設(shè)主播,主播不同的成長階段,不同場次預期目標安排,對于調(diào)控的業(yè)務(wù)訴求通常有著明顯的差異性,在調(diào)控完成率的基礎(chǔ)上,進一步強化明確激勵流量的ROI屬性:時長、轉(zhuǎn)粉、轉(zhuǎn)化、用戶拉新等是更加自然的業(yè)務(wù)訴求。我們利用流控端到端聯(lián)動供給的技術(shù)架構(gòu),在時長,互動,成交等不同的roi側(cè)重任務(wù)中都取得了顯著甚至翻倍的核心指標提升。
四、Q&A
Q:在流量管控和推薦的分發(fā)邏輯中,在人群管控上是否可能存在業(yè)務(wù)或數(shù)據(jù)邏輯上的沖突?例如,流量管控認為某些用戶不適合接收某一類內(nèi)容,因此不會向他們分發(fā)內(nèi)容;但是后續(xù)的算法邏輯可以認為這些被丟棄的用戶實際上是高價值用戶,這種沖突如何處理呢?
A:實際上,這個問題在各種內(nèi)容場景下相對普遍。核心問題在于我們對于價值的定義,對于內(nèi)容場,我們認為通常價值構(gòu)成其實有三部分,用戶價值,創(chuàng)作者價值,平臺價值。用戶價值比較容易理解,推薦系統(tǒng)通常要解決的核心問題即面向用戶進行高效推薦。但在實際業(yè)務(wù)中,其他價值也是不能忽略甚至至關(guān)重要的,像淘寶直播業(yè)務(wù),我們需要考慮創(chuàng)作者價值(主播視角價值),平臺價值(主播生態(tài),主播成長)等,所以需要在一個更高的維度去進行體系化的方案設(shè)計,達到多價值的共同繁榮。