畫(huà)像標(biāo)簽體系構(gòu)建與應(yīng)用實(shí)踐
一、畫(huà)像標(biāo)簽體系
去哪兒在每個(gè)業(yè)務(wù)發(fā)展過(guò)程中構(gòu)建了獨(dú)立的畫(huà)像標(biāo)簽體系。隨著公司的不斷壯大,需將各個(gè)業(yè)務(wù)的畫(huà)像標(biāo)簽體系進(jìn)行整合。從技術(shù)角度看,整合的過(guò)程相對(duì)簡(jiǎn)單,但業(yè)務(wù)層面的整合則較為復(fù)雜。因?yàn)楦鱾€(gè)標(biāo)簽在不同業(yè)務(wù)中的定義存在差異,這增加了整合的難度。為了確保整合后的標(biāo)簽體系能夠更好地服務(wù)于公司的整體戰(zhàn)略,需要進(jìn)行深入的關(guān)鍵詞提取和優(yōu)化,確保各個(gè)標(biāo)簽的邏輯性和一致性。
1. 什么是畫(huà)像標(biāo)簽
用戶(hù)行為為用戶(hù)在 APP 上操作所產(chǎn)生的行為,業(yè)務(wù)日志則為用戶(hù)自己點(diǎn)擊、下單、搜索等行為在服務(wù)器端產(chǎn)生的數(shù)據(jù)。畫(huà)像標(biāo)簽是通過(guò)規(guī)則統(tǒng)計(jì)和挖掘算法對(duì)用戶(hù)行為和業(yè)務(wù)數(shù)據(jù)進(jìn)行計(jì)算后得出的用戶(hù)等維度的數(shù)據(jù)。
2. 畫(huà)像標(biāo)簽的需求來(lái)源
每個(gè)業(yè)務(wù)部門(mén)在搭建自己的畫(huà)像標(biāo)簽平臺(tái)時(shí),由于目標(biāo)不同,需求也有所差異,比如機(jī)票業(yè)務(wù)通常以營(yíng)銷(xiāo)為目標(biāo),酒店業(yè)務(wù)通常以服務(wù)為目標(biāo)。我們應(yīng)從實(shí)際業(yè)務(wù)需求出發(fā),與各個(gè)部門(mén)溝通,包括公司管理層、實(shí)習(xí)生等不同層級(jí)的人員,進(jìn)行深入的需求調(diào)研,以確保整合后的標(biāo)簽體系能夠更好地滿(mǎn)足業(yè)務(wù)需求。在整合過(guò)程中,用戶(hù)畫(huà)像標(biāo)簽需求主要分為三類(lèi):營(yíng)銷(xiāo)風(fēng)控、內(nèi)部業(yè)務(wù)分析應(yīng)用和描述用戶(hù)。
- 營(yíng)銷(xiāo)風(fēng)控:用戶(hù)營(yíng)銷(xiāo)、個(gè)性化推薦、精準(zhǔn)廣告投放、用戶(hù)風(fēng)控。
- 業(yè)務(wù)分析:業(yè)務(wù)優(yōu)化分析、多維度業(yè)務(wù)指標(biāo)監(jiān)控、指導(dǎo)新業(yè)務(wù)產(chǎn)品設(shè)計(jì)。
- 描述用戶(hù):?jiǎn)我挥脩?hù)的定義、平臺(tái)用戶(hù)的定位、行業(yè)報(bào)告。
3. 畫(huà)像標(biāo)簽的分類(lèi)
在畫(huà)像標(biāo)簽構(gòu)建的過(guò)程中分為業(yè)務(wù)分類(lèi)和技術(shù)分類(lèi)。
從需求中提煉出業(yè)務(wù)需要的用戶(hù)畫(huà)像分類(lèi),其中一級(jí)類(lèi)目和二級(jí)類(lèi)目偏以業(yè)務(wù)流程進(jìn)行分類(lèi)向的定義,并以此不斷擴(kuò)充。
另外,根據(jù)不同的技術(shù)需求,我們需要選擇合適的技術(shù)棧來(lái)實(shí)現(xiàn)畫(huà)像標(biāo)簽的生成、存儲(chǔ)和調(diào)用。
首先,需要明確畫(huà)像標(biāo)簽的定義和目標(biāo),以便確定需要使用哪種技術(shù)。其次,需要考慮標(biāo)簽的更新周期和訪(fǎng)問(wèn)方式,這決定了是否需要在線(xiàn)或離線(xiàn)處理標(biāo)簽,以及選擇哪種存儲(chǔ)資源。最后,根據(jù)這些因素,我們可以選擇合適的技術(shù)棧來(lái)實(shí)現(xiàn)畫(huà)像標(biāo)簽體系,確保系統(tǒng)的性能和穩(wěn)定性。通過(guò)這樣的技術(shù)分類(lèi),可以更好地管理和維護(hù)畫(huà)像標(biāo)簽體系,提高其可擴(kuò)展性和可用性
(1)構(gòu)建方法
- 統(tǒng)計(jì)類(lèi):依靠 SQL 即可完成。
- 規(guī)則類(lèi):面向數(shù)據(jù)分析師、商業(yè)分析師以及產(chǎn)品運(yùn)營(yíng)等具有一定業(yè)務(wù)背景的人通過(guò)對(duì)業(yè)務(wù)的理解,去構(gòu)建一些規(guī)則類(lèi)的標(biāo)簽,這類(lèi)標(biāo)簽會(huì)基于業(yè)務(wù)的理解變化產(chǎn)生變動(dòng)。
- 模型類(lèi):這類(lèi)標(biāo)簽需要算法團(tuán)隊(duì)進(jìn)行復(fù)雜的計(jì)算或需要樣本數(shù)據(jù)。與一些基礎(chǔ)標(biāo)簽不同,模型類(lèi)標(biāo)簽在精度上可能存在挑戰(zhàn),無(wú)法達(dá)到百分之百的準(zhǔn)確。因?yàn)橛袝r(shí)我們獲得的樣本數(shù)量非常有限,使得標(biāo)簽的準(zhǔn)確率難以維持在較高的水準(zhǔn)。因此,對(duì)于模型類(lèi)標(biāo)簽,我們可能需要尋找其他的方法和技術(shù)來(lái)提高其精度和可用性。
(2)更新周期
除了已列出的按小時(shí)、周、月的更新周期外,我們目前還實(shí)現(xiàn)了實(shí)時(shí)的標(biāo)簽更新,這更接近于流式更新。
(3)訪(fǎng)問(wèn)方式
由于畫(huà)像標(biāo)簽平臺(tái)需要處理大量數(shù)據(jù)和用戶(hù)請(qǐng)求,需要根據(jù)后臺(tái)技術(shù)棧來(lái)選擇合適的訪(fǎng)問(wèn)方式,對(duì)于一些大型公司,用戶(hù)量和數(shù)據(jù)量都非常龐大,因此我們需要考慮如何有效地存儲(chǔ)和調(diào)用標(biāo)簽。有些標(biāo)簽可能只需要離線(xiàn)構(gòu)建,而有些標(biāo)簽則可能需要在線(xiàn)調(diào)用。對(duì)于離線(xiàn)標(biāo)簽,我們可以選擇不占用高存儲(chǔ)成本的資源,例如將數(shù)據(jù)存儲(chǔ)在 Redis 或 HBase 中。而對(duì)于在線(xiàn)標(biāo)簽,需要確保系統(tǒng)能夠快速響應(yīng)用戶(hù)請(qǐng)求,并提供穩(wěn)定的服務(wù)。因此,在選擇訪(fǎng)問(wèn)方式時(shí),我們需要根據(jù)實(shí)際情況進(jìn)行權(quán)衡和選擇,以確保系統(tǒng)的性能和穩(wěn)定性。
4. 畫(huà)像標(biāo)簽體系構(gòu)建過(guò)程
在畫(huà)像標(biāo)簽體系的生產(chǎn)過(guò)程中,我們需要對(duì)各類(lèi)數(shù)據(jù)源進(jìn)行一系列的處理,最終生成標(biāo)簽。其中,ID Mapping 是一個(gè)關(guān)鍵環(huán)節(jié)。ID Mapping 的目標(biāo)是解決不同ID 指向同一人的問(wèn)題,特別針對(duì)早期成立的公司,由于注冊(cè)方式多樣,可能會(huì)出現(xiàn)多個(gè) ID 對(duì)應(yīng)同一用戶(hù)的情況。例如,用戶(hù)通過(guò)郵箱注冊(cè)后可以綁定或更改手機(jī)號(hào),或者曾經(jīng)允許未登錄狀態(tài)下使用,這些情況都可能導(dǎo)致多個(gè) ID 對(duì)應(yīng)同一用戶(hù)。
為了解決這個(gè)問(wèn)題,ID Mapping 承擔(dān)著實(shí)現(xiàn)多設(shè)備關(guān)聯(lián)的任務(wù)。另外,ID Mapping 對(duì)于風(fēng)控來(lái)說(shuō)也是至關(guān)重要的基礎(chǔ)步驟。通過(guò) ID Mapping,可以更好地識(shí)別和關(guān)聯(lián)不同設(shè)備的使用者,從而更好地進(jìn)行風(fēng)險(xiǎn)控制和安全管理。通過(guò)合理的 ID Mapping 設(shè)計(jì)和管理,我們可以更好地保護(hù)用戶(hù)隱私和數(shù)據(jù)安全,同時(shí)提高畫(huà)像標(biāo)簽體系的準(zhǔn)確性和可靠性。
二、畫(huà)像標(biāo)簽平臺(tái)
畫(huà)像標(biāo)簽平臺(tái)也稱(chēng)之為 CDP 平臺(tái),包含了畫(huà)像標(biāo)簽的生產(chǎn)、數(shù)據(jù)分析、業(yè)務(wù)應(yīng)用、效果分析等服務(wù)。下圖為去哪兒 CDP 平臺(tái)的功能架構(gòu)。
在去哪兒網(wǎng),疫情發(fā)生后加強(qiáng)了內(nèi)部能力的建設(shè),將畫(huà)像標(biāo)簽與主流策略平臺(tái)進(jìn)行了整合。目前該平臺(tái)涵蓋了畫(huà)像標(biāo)簽的整個(gè)生命周期,可實(shí)現(xiàn)畫(huà)像構(gòu)建、人群圈選以及最終的營(yíng)銷(xiāo)動(dòng)作等功能。通過(guò)這樣的整合,能夠更好地實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的營(yíng)銷(xiāo)策略,將用戶(hù)畫(huà)像與營(yíng)銷(xiāo)活動(dòng)無(wú)縫連接起來(lái)。這有助于提高營(yíng)銷(xiāo)效果和用戶(hù)滿(mǎn)意度,同時(shí)也有利于企業(yè)內(nèi)部的數(shù)據(jù)整合和協(xié)同工作。
三、常見(jiàn)算法類(lèi)畫(huà)像標(biāo)簽
1. 常見(jiàn)模型類(lèi)標(biāo)簽常用算法類(lèi)型
在實(shí)踐過(guò)程中,基于樣本和技術(shù)棧,可以將模型類(lèi)標(biāo)簽常用算法分為如下幾大類(lèi):
(1)分類(lèi)算法:在業(yè)務(wù)流程中利用預(yù)測(cè)類(lèi)標(biāo)簽來(lái)進(jìn)行圈選和業(yè)務(wù)過(guò)濾,需要擁有足夠的樣本數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練和優(yōu)化模型,從而提高預(yù)測(cè)準(zhǔn)確率。預(yù)測(cè)類(lèi)標(biāo)簽不僅僅局限于訂單支付預(yù)測(cè),還可以包括搜索支付預(yù)測(cè)、搜索預(yù)測(cè)、詳情頁(yè)預(yù)測(cè)等。
(2)推薦算法:與排序和優(yōu)先級(jí)相關(guān),需要更廣泛的前沿知識(shí)和技術(shù)棧。推薦算法的目標(biāo)是從召回集中為用戶(hù)推薦合適的酒店房型。例如,對(duì)于親子出游的場(chǎng)景,推薦算法可以為用戶(hù)推薦雙床房或套間等合適的酒店房型。
(3)知識(shí)圖譜:利用圖數(shù)據(jù)庫(kù)技術(shù)更好地揭示用戶(hù)及其周邊關(guān)系。風(fēng)控場(chǎng)景中應(yīng)用較多,例如識(shí)別異常用戶(hù)和判斷是否為惡意用戶(hù)。
(4)因果推斷:通過(guò)一個(gè)例子解釋了給用戶(hù)發(fā)短信和 push 消息對(duì)營(yíng)銷(xiāo)效果的影響,并涉及到成本問(wèn)題。
(5)圖形圖像:結(jié)合圖形圖像處理技術(shù),對(duì)圖形圖像進(jìn)行打標(biāo)。涉及到對(duì)圖像的分割、識(shí)別等技術(shù),但更多的是通過(guò)用戶(hù)標(biāo)簽反向應(yīng)用到圖像打標(biāo)上。例如,對(duì)于發(fā)表不正當(dāng)評(píng)論的用戶(hù),將其標(biāo)簽提取出來(lái),并應(yīng)用到圖形圖像打標(biāo)算法中,以提高打標(biāo)的效率和準(zhǔn)確性。
(6)NLP 機(jī)器人
(7)lookalike 營(yíng)銷(xiāo)算法:即通過(guò)種子用戶(hù)進(jìn)行擴(kuò)展?fàn)I銷(xiāo)的算法。
基于需求的類(lèi)型會(huì)有不同的分類(lèi)方法:
- 單一實(shí)體:通過(guò)關(guān)系網(wǎng)絡(luò)或知識(shí)圖譜來(lái)尋找其他相關(guān)實(shí)體。例如,利用知識(shí)圖譜可以發(fā)現(xiàn)實(shí)體之間的關(guān)系,從而擴(kuò)展單一實(shí)體的關(guān)聯(lián)實(shí)體。
- 業(yè)務(wù)實(shí)體集:與特定業(yè)務(wù)相關(guān)的標(biāo)簽,由業(yè)務(wù)本身產(chǎn)生,而非人為控制。例如,酒店搜索用戶(hù)或機(jī)票搜索用戶(hù),如果想要針對(duì)這些用戶(hù)進(jìn)行營(yíng)銷(xiāo)并擴(kuò)展業(yè)務(wù),就要通過(guò)對(duì)業(yè)務(wù)實(shí)體標(biāo)簽的深入分析和挖掘,更好地理解用戶(hù)需求和行為,從而優(yōu)化業(yè)務(wù)策略,提高轉(zhuǎn)化率和用戶(hù)體驗(yàn)。業(yè)務(wù)實(shí)體集可以通過(guò)品牌模式、關(guān)聯(lián)規(guī)則、方案標(biāo)簽平臺(tái)等方式進(jìn)行擴(kuò)充,以獲取更豐富的畫(huà)像標(biāo)簽或畫(huà)像用戶(hù)。
- 規(guī)則實(shí)體集:指基于特定規(guī)則或條件生成的標(biāo)簽。這些標(biāo)簽通常是由產(chǎn)品團(tuán)隊(duì)根據(jù)對(duì)業(yè)務(wù)的理解,利用標(biāo)簽工具圈選出符合特定規(guī)則的用戶(hù)群體。例如,在推薦行程或房型的過(guò)程中,有些用戶(hù)可能已經(jīng)購(gòu)買(mǎi)了北京的機(jī)票和酒店,那么我們可以將這些具有特定行為鏈條的用戶(hù)作為目標(biāo)群體,進(jìn)行營(yíng)銷(xiāo)推廣。可以使用關(guān)系實(shí)體和聚類(lèi)算法來(lái)處理。在進(jìn)行聚類(lèi)算法時(shí),需要注意不能僅使用規(guī)則標(biāo)簽進(jìn)行聚類(lèi),而應(yīng)該使用其他標(biāo)簽。同時(shí),需要避免將與規(guī)則標(biāo)簽強(qiáng)相關(guān)的標(biāo)簽與規(guī)則標(biāo)簽混為一組。為了避免這種情況,方案標(biāo)簽平臺(tái)會(huì)提供標(biāo)簽與其他標(biāo)簽的相關(guān)性分析,幫助用戶(hù)過(guò)濾掉相似的標(biāo)簽。
- 行為實(shí)體集:基于用戶(hù)行為生成的標(biāo)簽。這些標(biāo)簽通過(guò)分析用戶(hù)的行為特征和需求類(lèi)型,來(lái)制定相應(yīng)的營(yíng)銷(xiāo)策略。例如,對(duì)于購(gòu)買(mǎi)過(guò)北京機(jī)票和酒店的用戶(hù),我們可以進(jìn)一步分析他們的行為特征,如購(gòu)買(mǎi)時(shí)間、頻次、偏好等,以制定更具針對(duì)性的營(yíng)銷(xiāo)策略。
2. 基于知識(shí)圖譜和頻繁模式的 looklike 算法
僅依賴(lài)畫(huà)像標(biāo)簽進(jìn)行篩選可能產(chǎn)生大量不符合需求的目標(biāo)用戶(hù),如何對(duì)這些用戶(hù)進(jìn)行排序成為了一個(gè)難題。傳統(tǒng)的方法如根據(jù)價(jià)值、活躍度等進(jìn)行排序,很難確保選出的用戶(hù)與目標(biāo)用戶(hù)群最為相似。而通過(guò)知識(shí)圖譜或頻繁模式,我們可以衡量用戶(hù)之間的相似度,并且這種相似度是可量化和擴(kuò)展的。通過(guò)關(guān)系層面,該算法能夠更準(zhǔn)確地找到與目標(biāo)用戶(hù)相似的用戶(hù)群體。
3. 基于因果推斷的 lookalike 算法
與傳統(tǒng)的關(guān)聯(lián)規(guī)則和畫(huà)像標(biāo)簽相比,因果推斷能夠解決更深層次的問(wèn)題。關(guān)聯(lián)規(guī)則和畫(huà)像標(biāo)簽主要解決的是相關(guān)性問(wèn)題,例如“購(gòu)買(mǎi)啤酒的用戶(hù)也可能會(huì)購(gòu)買(mǎi)尿布”,但無(wú)法解釋為什么存在這種相關(guān)性。在不同的文化和市場(chǎng)中,這種相關(guān)性可能并不成立。因此通過(guò)歷史數(shù)據(jù)和模型進(jìn)行因果推斷,可以找到影響用戶(hù)行為和轉(zhuǎn)化的關(guān)鍵因素。這些關(guān)鍵因素可以通過(guò)關(guān)系發(fā)現(xiàn)被找到,進(jìn)而幫助我們更好地理解用戶(hù)行為和業(yè)務(wù)過(guò)程。
例如右上角紅色部分通過(guò)對(duì)業(yè)務(wù)的理解篩選出的更能體現(xiàn)業(yè)務(wù)的過(guò)程的部分,從而去擴(kuò)充更多的用戶(hù)出來(lái)。
4. 物的畫(huà)像
在物的畫(huà)像構(gòu)建過(guò)程中,我們主要關(guān)注的是物的屬性和特征,例如酒店畫(huà)像中的城市、商圈、航線(xiàn)、航班等。這些屬性有助于我們更準(zhǔn)確地描述和了解物,并為其畫(huà)像提供豐富的內(nèi)容。
與用戶(hù)畫(huà)像相比,物的畫(huà)像更強(qiáng)調(diào)物與物之間的相似性。在實(shí)踐中,我們通常利用物的相似性進(jìn)行推薦和排序等操作。為了衡量物與物之間的相似性,可以采用多種方法,如屬性向量和 embedding。這些方法可以將物表示為向量,并利用這些向量進(jìn)行相似性計(jì)算。需要注意的是,物的畫(huà)像構(gòu)建過(guò)程與用戶(hù)畫(huà)像構(gòu)建過(guò)程雖然相似,但在實(shí)際應(yīng)用中,我們需要根據(jù)業(yè)務(wù)需求和場(chǎng)景進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化。同時(shí),還需要深入分析物與物之間的關(guān)系和層次結(jié)構(gòu),以確保物的畫(huà)像準(zhǔn)確反映業(yè)務(wù)需求。
此外,在物的畫(huà)像構(gòu)建過(guò)程中,我們還需要關(guān)注一些關(guān)鍵問(wèn)題。
(1)相近并不意味著相似。例如,在使用 embedding 方法時(shí),如果高價(jià)值的用戶(hù)群體搜索的都是五星級(jí)酒店,那么這些五星級(jí)酒店之間的相關(guān)性可能會(huì)很強(qiáng)。但在某些業(yè)務(wù)場(chǎng)景中,這種相關(guān)性可能并不適用。因此,我們需要根據(jù)具體業(yè)務(wù)場(chǎng)景仔細(xì)考慮物的相似性。
(2)冷啟動(dòng)問(wèn)題。例如在酒店畫(huà)像中,當(dāng)一個(gè)新的酒店上線(xiàn)時(shí),它可能缺乏用戶(hù)行為數(shù)據(jù)。為了解決這個(gè)問(wèn)題,我們可以利用屬性距離抽取大維度的標(biāo)簽屬性,構(gòu)建一個(gè)偏用戶(hù)態(tài)的畫(huà)像標(biāo)簽,并利用這個(gè)標(biāo)簽進(jìn)行相似度計(jì)算。
(3)可解釋性
四、畫(huà)像標(biāo)簽應(yīng)用場(chǎng)景
應(yīng)用一:營(yíng)銷(xiāo)人群精選與擴(kuò)散
畫(huà)像標(biāo)簽在營(yíng)銷(xiāo)的精選和擴(kuò)散過(guò)程中起到了至關(guān)重要的作用。通過(guò)合理運(yùn)用畫(huà)像標(biāo)簽,運(yùn)營(yíng)人員可以對(duì)已選定的用戶(hù)群體進(jìn)行更細(xì)致的分析和篩選,當(dāng)運(yùn)營(yíng)人員覺(jué)得初始精選的用戶(hù)群體過(guò)大或過(guò)小,或者營(yíng)銷(xiāo)效果需要進(jìn)一步擴(kuò)大或優(yōu)化時(shí),可以通過(guò)畫(huà)像標(biāo)簽進(jìn)行擴(kuò)散或重新精選以達(dá)到更好的營(yíng)銷(xiāo)效果。
然而,在進(jìn)行畫(huà)像標(biāo)簽的精選和擴(kuò)散時(shí),最常見(jiàn)的是用戶(hù)轉(zhuǎn)化和運(yùn)營(yíng)干預(yù)的四象限問(wèn)題。這四個(gè)象限分別代表不同的用戶(hù)轉(zhuǎn)化狀態(tài)和運(yùn)營(yíng)干預(yù)策略,需要針對(duì)不同情況進(jìn)行不同的應(yīng)對(duì)措施。例如,對(duì)于高轉(zhuǎn)化低干預(yù)的用戶(hù),可以采取保持現(xiàn)狀的策略;對(duì)于低轉(zhuǎn)化低干預(yù)的用戶(hù),可以采取促進(jìn)轉(zhuǎn)化的策略等。
以下是畫(huà)像標(biāo)簽在應(yīng)用過(guò)程中營(yíng)銷(xiāo)精選擴(kuò)散的四個(gè)階段:
科學(xué)分析:深入挖掘用戶(hù)數(shù)據(jù),精準(zhǔn)定位目標(biāo)群體,以提升轉(zhuǎn)化效果。
輔助圈選:利用標(biāo)簽高效篩選目標(biāo)用戶(hù),提高營(yíng)銷(xiāo)活動(dòng)的針對(duì)性和效率。
智能擴(kuò)量:基于算法和模型,對(duì)用戶(hù)群體進(jìn)行智能分類(lèi)和擴(kuò)量,以擴(kuò)大營(yíng)銷(xiāo)覆蓋面。
模型落地:結(jié)合實(shí)際營(yíng)銷(xiāo)活動(dòng),優(yōu)化畫(huà)像標(biāo)簽和策略,實(shí)現(xiàn)最佳的營(yíng)銷(xiāo)效果。
應(yīng)用二:業(yè)務(wù)指標(biāo)歸因分析
通過(guò)畫(huà)像標(biāo)簽體系來(lái)分析業(yè)務(wù)指標(biāo)的好壞,并進(jìn)一步優(yōu)化策略。在業(yè)務(wù)迭代過(guò)程中,我們通常使用歸因分析算法和商業(yè)分析等方法來(lái)產(chǎn)生策略。然后進(jìn)行實(shí)驗(yàn)測(cè)量,如果實(shí)驗(yàn)策略表現(xiàn)良好,就會(huì)全量上線(xiàn)。
然而,在這個(gè)過(guò)程中會(huì)遇到兩個(gè)問(wèn)題:如何分析指標(biāo)的好壞以及實(shí)驗(yàn)結(jié)果的好壞。為了解決這些問(wèn)題,我們需要進(jìn)行業(yè)務(wù)指標(biāo)的歸因分析。首先,通過(guò)報(bào)表、報(bào)警等途徑發(fā)現(xiàn)業(yè)務(wù)問(wèn)題,找出問(wèn)題的原因,明確具體的場(chǎng)景和實(shí)際的轉(zhuǎn)化關(guān)系。接著,定位問(wèn)題的原因,并判斷這個(gè)原因是可控的還是不可控的。如果是不可控的,可能就是一個(gè)自然抖動(dòng),不需要過(guò)多關(guān)注;如果是可控的,就需要進(jìn)一步探究是否存在未知的場(chǎng)景導(dǎo)致這個(gè)問(wèn)題。
在定性分析模塊中,我們會(huì)明確可控因素和不可控因素,并挖掘一些未知的場(chǎng)景出現(xiàn)問(wèn)題的原因。最后,給出建議,指導(dǎo)業(yè)務(wù)人員在什么場(chǎng)景下去做。這個(gè)場(chǎng)景其實(shí)就是某個(gè)業(yè)務(wù)的轉(zhuǎn)化率下降了,通過(guò)整個(gè)業(yè)務(wù)的分析過(guò)程,我們可以得出非市場(chǎng)因素和可控因素分別占比多少。如果市場(chǎng)因素占比較大,那我們就可以先滯后解決這個(gè)問(wèn)題,不必立即動(dòng)用大量人力物力。
應(yīng)用三:AB 實(shí)驗(yàn)效能分析
在負(fù)責(zé)去哪兒的 AB 實(shí)驗(yàn)系統(tǒng)的過(guò)程中,我們經(jīng)常面臨一些挑戰(zhàn)。當(dāng)產(chǎn)品團(tuán)隊(duì)投入大量時(shí)間和資源完成實(shí)驗(yàn)后,如果實(shí)驗(yàn)結(jié)果不顯著,很容易產(chǎn)生諸如“為什么實(shí)驗(yàn)無(wú)效”和“下一步迭代的方向是什么”等疑問(wèn)。
為了解決這些問(wèn)題,我們進(jìn)行了 AB 實(shí)驗(yàn)效能分析,主要分為三個(gè)部分。首先,我們通過(guò)業(yè)務(wù)流程漏斗模型、核心用戶(hù)畫(huà)像標(biāo)簽識(shí)別以及業(yè)務(wù)域誤導(dǎo)標(biāo)簽識(shí)別,嘗試判斷實(shí)驗(yàn)效果不佳是否因?yàn)榱刻嵘粔?。其次,運(yùn)用決策樹(shù)等分析方法,探究質(zhì)的提升是否存在問(wèn)題,例如其他實(shí)驗(yàn)的沖突或提升量未達(dá)到顯著性比例的情況。最后,量化動(dòng)作效能,明確每個(gè)動(dòng)作對(duì)目標(biāo)的影響程度。
通過(guò)這些分析過(guò)程,我們可以為產(chǎn)品團(tuán)隊(duì)提供具體的指導(dǎo),幫助他們選擇效能更高的方向進(jìn)行優(yōu)化,從而實(shí)現(xiàn)質(zhì)的提升。這些分析不僅有助于優(yōu)化產(chǎn)品迭代方向,還能為公司節(jié)省資源和時(shí)間,提高整體業(yè)務(wù)效果。
五、問(wèn)答環(huán)節(jié)
Q1:用戶(hù)行為跟業(yè)務(wù)日志有什么區(qū)別?
A1:用戶(hù)行為數(shù)據(jù)主要記錄了用戶(hù)在 APP 端的交互行為,如點(diǎn)擊等,這些數(shù)據(jù)主要反映用戶(hù)的交互過(guò)程。而業(yè)務(wù)數(shù)據(jù)則涉及后臺(tái)處理的各種信息,例如代理連接過(guò)程、物流信息等,這些數(shù)據(jù)雖然對(duì)用戶(hù)來(lái)說(shuō)是不可見(jiàn)的,但對(duì)于理解整個(gè)業(yè)務(wù)流程和提升用戶(hù)體驗(yàn)同樣至關(guān)重要。在實(shí)際操作中,我們需要將這些數(shù)據(jù)納入到我們的畫(huà)像標(biāo)簽體系中,以便更好地分析和理解用戶(hù)行為和業(yè)務(wù)過(guò)程。例如對(duì)于電商平臺(tái)來(lái)說(shuō),有些數(shù)據(jù)可能對(duì)用戶(hù)無(wú)關(guān)緊要,但有些則涉及到用戶(hù)體驗(yàn)和業(yè)務(wù)流程,因此需要進(jìn)行適當(dāng)?shù)暮Y選和處理。
Q2:目前流式標(biāo)簽是怎么做的?能支持比較復(fù)雜的標(biāo)簽規(guī)則嘛?是數(shù)據(jù)開(kāi)發(fā)出來(lái)還是可視化配置的?
A2:流式標(biāo)簽可以通過(guò)流式計(jì)算來(lái)實(shí)現(xiàn),如使用 Flink 等工具。用戶(hù)可以拖拽定義好的數(shù)據(jù),通過(guò)流式計(jì)算進(jìn)行標(biāo)簽的計(jì)算。同時(shí),也可以上傳 Python 代碼或 SQL 代碼進(jìn)行自定義的計(jì)算。此外,還可以通過(guò) Spark 等方式來(lái)支持。在流式標(biāo)簽中,需要限制計(jì)算的量和時(shí)間窗口,以滿(mǎn)足不同需求。
流式標(biāo)簽可以支持復(fù)雜的標(biāo)簽規(guī)則。用戶(hù)可以通過(guò)上傳 Python 代碼或 SQL 代碼來(lái)實(shí)現(xiàn)更復(fù)雜的標(biāo)簽計(jì)算。
流式標(biāo)簽可以通過(guò)數(shù)據(jù)開(kāi)發(fā)和可視化配置兩種方式來(lái)實(shí)現(xiàn)。在去哪旅行平臺(tái)上,用戶(hù)可以拖拽定義好的數(shù)據(jù),通過(guò)流式計(jì)算進(jìn)行標(biāo)簽的計(jì)算,也可以上傳 Python 代碼或 SQL 代碼進(jìn)行自定義的計(jì)算。
Q3:什么是實(shí)時(shí)標(biāo)簽?
A3:實(shí)時(shí)標(biāo)簽是指在用戶(hù)行為或業(yè)務(wù)事件發(fā)生時(shí),實(shí)時(shí)計(jì)算并應(yīng)用的標(biāo)簽。例如,當(dāng)用戶(hù)在前端界面提交投訴時(shí),系統(tǒng)會(huì)實(shí)時(shí)地分析用戶(hù)的訴求和訂單問(wèn)題,并為用戶(hù)打上相應(yīng)的實(shí)時(shí)標(biāo)簽。這種實(shí)時(shí)標(biāo)簽?zāi)軌蚩焖俚胤从秤脩?hù)的需求和問(wèn)題,以便及時(shí)地進(jìn)行處理和優(yōu)化。不同公司對(duì)實(shí)時(shí)標(biāo)簽的定義有所不同,去哪兒 3 秒以?xún)?nèi)的算實(shí)時(shí),而小時(shí)級(jí)都稱(chēng)之為是非實(shí)時(shí)的一個(gè)場(chǎng)景。
Q4:ID Mapping 是將多個(gè)手機(jī)號(hào)/設(shè)備號(hào)識(shí)別成一個(gè)唯一的 ID?還是使每個(gè)用戶(hù)都有一個(gè)唯一的 ID?比如一個(gè)手機(jī)號(hào)在兩個(gè)設(shè)備登錄過(guò),其中一個(gè)設(shè)備又登錄過(guò)另外一手機(jī)號(hào),是唯一的一個(gè)還是三個(gè)?
A4:隨著移動(dòng)互聯(lián)網(wǎng)的普及,越來(lái)越多的公司開(kāi)始采用手機(jī)號(hào)作為用戶(hù)唯一的標(biāo)識(shí)符。一鍵登錄已成為行業(yè)通用的做法,使得用戶(hù)能夠更加方便地登錄和使用應(yīng)用。對(duì)于去哪兒這樣的平臺(tái),我們也采用了手機(jī)號(hào)作為用戶(hù)唯一的 ID。在大多數(shù)情況下,我們會(huì)將手機(jī)號(hào)視為用戶(hù)的唯一標(biāo)識(shí)符。但在某些特殊情況下,我們也會(huì)考慮用戶(hù)更換手機(jī)號(hào)的場(chǎng)景,并對(duì)其進(jìn)行相應(yīng)的處理。此外,為了更好地管理和識(shí)別用戶(hù),當(dāng)一個(gè)手機(jī)號(hào)在兩個(gè)設(shè)備上登錄時(shí),我們會(huì)通過(guò)一系列的判斷來(lái)確定用戶(hù)對(duì)設(shè)備的持有狀態(tài)。如果用戶(hù)是臨時(shí)登錄設(shè)備,我們將其視為訪(fǎng)問(wèn)人;如果用戶(hù)長(zhǎng)期持有該設(shè)備,則將其視為持有人。
Q5:貨品標(biāo)簽有哪些應(yīng)用場(chǎng)景?
A5:其中最常見(jiàn)的是貨品定價(jià)。為了實(shí)現(xiàn)貨品定價(jià)的個(gè)性化,我們需要使用貨品標(biāo)簽。這些標(biāo)簽是基于內(nèi)部因素和外部因素的具體數(shù)值計(jì)算得出的。如果內(nèi)部因素沒(méi)有得到適當(dāng)?shù)氖崂恚獠恳蛩氐挠绊懣赡軙?huì)被夸大。可以理解為類(lèi)似于暴力求解的方式,我們把每一個(gè)因素都放進(jìn)去試,然后去看每個(gè)因素對(duì)它的影響是多少,并且在每個(gè)因素里判斷它是相關(guān)性還是因果性。
Q6:業(yè)務(wù)的實(shí)時(shí)標(biāo)簽是不是要定制化開(kāi)發(fā)?
A6:實(shí)時(shí)標(biāo)簽在建成之后,我們已經(jīng)通過(guò)開(kāi)發(fā)層面去盡可能地窮舉了一些通過(guò)基礎(chǔ)的統(tǒng)計(jì)就能出來(lái)的一些實(shí)時(shí)標(biāo)簽。至于說(shuō)像規(guī)則類(lèi)和模型類(lèi)的實(shí)時(shí)標(biāo)簽,肯定是要定制化開(kāi)發(fā)的。
Q7:標(biāo)簽的生命周期怎么管理?
A7:在建立之初會(huì)有一些一次性的標(biāo)簽,用完就不使用了。
Q8:是否可以用一些統(tǒng)計(jì)方法來(lái)確定 AB 實(shí)驗(yàn)的時(shí)候的最小樣本量?AB 實(shí)驗(yàn)有標(biāo)準(zhǔn)的計(jì)算過(guò)程,這樣是不是可以知道大概需要多少樣本量可以達(dá)到統(tǒng)計(jì)顯著的一個(gè)效果了?
A8:更小的業(yè)務(wù)公司,可能流量先天性就不夠,你想要達(dá)到一個(gè)最小樣本量,操作層面也不太能實(shí)現(xiàn),所以我們需要有一些在沒(méi)有達(dá)到最小樣本量的時(shí)候,能快速去大致地推斷這個(gè)實(shí)驗(yàn)效果。
Q9:用戶(hù)口徑畫(huà)像的口徑類(lèi)型是怎么存儲(chǔ)和展示的?用戶(hù)畫(huà)像的標(biāo)簽除了單一的,還有多標(biāo)簽,形成一個(gè)用戶(hù)偏好角度。這兩類(lèi)標(biāo)簽怎么存儲(chǔ)比較好?
A9:展示每一個(gè)公司都不一樣。從存儲(chǔ)角度來(lái)說(shuō)去哪兒是有多個(gè)存儲(chǔ)方式的,我們可以容忍一部分?jǐn)?shù)據(jù)的冗余存儲(chǔ),主要還是為了以實(shí)時(shí)響應(yīng)快為準(zhǔn),就是它在訪(fǎng)問(wèn)化標(biāo)簽的時(shí)候,我們盡可能地以一個(gè)低耗時(shí)去訪(fǎng)問(wèn)它。
Q10:模型在方案標(biāo)簽建設(shè)中有哪些應(yīng)用?
A10:其實(shí)這個(gè)我現(xiàn)在通過(guò)去哪兒這邊的實(shí)踐來(lái)說(shuō),大模型在算法標(biāo)簽應(yīng)用是非常的廣的。首先最簡(jiǎn)單的一個(gè)例子,我們?cè)跇?gòu)建戶(hù)的畫(huà)像的時(shí)候,經(jīng)常會(huì)遇到 POI 地標(biāo)數(shù)據(jù),地標(biāo)的數(shù)據(jù)是從一些文檔里面抽取的,可能這個(gè)就大模型在用,這個(gè)地方的準(zhǔn)確率說(shuō)實(shí)話(huà)比我們以往自己構(gòu)建的一些模型效果好很多。以及我們?cè)跇?gòu)建知識(shí)圖譜的時(shí)候,會(huì)遇到一些實(shí)體消歧、實(shí)體合并等等。
Q11:涉及到排序推薦也需要畫(huà)像算法工程師實(shí)現(xiàn)嗎?
A11:其實(shí)不是的,這個(gè)推薦是推薦工程師,但是推薦算法要用到畫(huà)像工程師的結(jié)果,畫(huà)像工程師需要把畫(huà)像標(biāo)簽的質(zhì)量和這個(gè)應(yīng)用的場(chǎng)景作出清晰的描述以便于推薦排序工程師能夠更好地使用。