皇帝選妃與推薦算法機(jī)制
本文轉(zhuǎn)載自微信公眾號「數(shù)師兄」,作者數(shù)師兄。轉(zhuǎn)載本文請聯(lián)系數(shù)師兄公眾號。
這幾年隨著大數(shù)據(jù),人工智能,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等等概念的興起,每一個數(shù)分析師都或多或少接觸過推薦算法相關(guān)的分析,做算法分析的前提是要明白目前“推薦算法” 的基本構(gòu)成,掌握這些常規(guī)的業(yè)務(wù)知識,即使不懂具體的算法實現(xiàn)過程,也能對算法進(jìn)行有效的分析。目前的推薦算法主要分為幾個核心步驟:召回,過濾,(粗排),精排。這都是什么意思呢?明白了皇帝是如何選妃的就明白了上述過程,廢話不多說,咱們來看他倆有啥區(qū)別。
召回=海選
召回從目前的資源池中將滿足條件的資源圈出來。就好比皇帝昭告天下開始選妃之后,各個省就開始從民間搜集年齡13-16歲之間的良家少女,由于是全國的普選,又受到評委眼光或者是指標(biāo)的影響,所以這時候選拔的人可能是各種顏色的皮膚,各種顏色的頭發(fā),嘴里說的念的都是“選我選我”的中國話~
除了普選還有一些特殊通道,比如,宰相家的外甥女,鄰國選送的公主,或者皇帝本人看上了大名湖畔夏老漢家的二閨女。那么這些特殊通道可以理解為多路召回??傊?,在海選這一步,只要跟美稍微搭點邊就先眉毛胡子一把摟過來再說。
這個原理跟我們平時看新聞時一樣,召回的方式可以說是多方面的,如向量召回,協(xié)同過濾,其他多路召回等等。包含內(nèi)容豐富,比如關(guān)注的博主發(fā)布的內(nèi)容,熱度飆升的內(nèi)容,熱點以及熱點周邊,從內(nèi)容上來說又有娛樂,影視,政治等等??傊还茏詈蟪尸F(xiàn)給用戶什么內(nèi)容,要在在保證“全”的基礎(chǔ)上,再去做“準(zhǔn)”,召回這一步更關(guān)注“全”的問題。
過濾=復(fù)選
海選選中的美女就進(jìn)入了復(fù)選階段,這么一大群人不可能全都應(yīng)聘成功,而且人還是太多了。所以在進(jìn)宮之前,負(fù)責(zé)選拔的太監(jiān)要再淘汰掉一波人,比如太高的,太矮的,太胖的,太瘦的,學(xué)歷不夠的,性格不好,投機(jī)倒把的等等,這一操作在過濾掉質(zhì)量較差選手的同時,也減輕下一環(huán)節(jié)工作人員的工作壓力
還是以新聞推薦為例,召回的內(nèi)容中掛著熱點標(biāo)題搞反動的,點贊率賊差的,過時的內(nèi)容先干掉一波,濾掉了相當(dāng)一部分召回中質(zhì)量較差的內(nèi)容,留下的內(nèi)容更加精華。
粗排=三面
進(jìn)宮面圣之前這一步其實并不是必須的,主要看宮內(nèi)太監(jiān)們的處理能力,如果經(jīng)過復(fù)選之后剩下3000人,而宮內(nèi)太監(jiān)們的處理能力是5000人那就不用三面了,直接懟進(jìn)來再說。但是如果處理能力只有1000人,這時候就要在進(jìn)宮之前過濾掉一波人,減少宮內(nèi)負(fù)責(zé)選拔的太監(jiān)們的工作壓力,這時候根據(jù)佳麗們的家庭背景以及性格品德,儀容儀表,才藝見識等綜合打分,再過濾掉一波質(zhì)量相對較差的,精益求精。
就推薦算法來說,這里處理能力一般指的是服務(wù)器的負(fù)載能力,數(shù)據(jù)量較少的小型app可能在召回階段資源量就不足,過濾之后資源又折損,最終需要展示給用戶的數(shù)據(jù)量已經(jīng)不多,此時可以把精排和粗排一起來搞,但是對于大型app,過濾之后數(shù)據(jù)量依然較多,此時就需要用粗排繼續(xù)過濾一波數(shù)據(jù)來降低服務(wù)器的載荷。類比于太監(jiān)給佳麗們打分一樣,粗排也是根據(jù)用戶的特征進(jìn)行打分,目前打分的各種各樣的算法,其實相當(dāng)于選妃過程中評委們湊一塊商量出來的幾種不同的評分規(guī)則。
精排=排班上崗
經(jīng)過三面之后,剩下的人終于可以進(jìn)宮了,哪些人能夠最終出現(xiàn)在皇帝的侍寢名單中,還需要再次評估,如果說之前的淘汰是一些普適性的特征,那么到精排這一步除了之前的靜態(tài)特征之外還會加入一些動態(tài)特征以及皇帝本身的偏好。
比如周期性考核觀察佳麗們的行為表現(xiàn)(儀容儀表,行為舉止,打不打呼嚕,說不說夢話,有沒有狐臭,甚至還有“探其乳,嗅其腋,捫其肌理,察其貞潔” 的說法);統(tǒng)計皇帝近年來的行為偏好(圓臉還是錐子臉,大家閨秀還是小家碧玉,文藝青年還是逗比青年)。再對這些特征進(jìn)行綜合打分,最終選出這么五十個人展示在皇帝的侍寢列表中。
這就相當(dāng)于新聞列表中除了之前所說的特征,還要結(jié)合內(nèi)容的點贊,評論率,舉報次數(shù),舉報率以及當(dāng)前用戶的偏好(是更喜歡時政,科技還是娛樂)進(jìn)行一個綜合的評分,將最適合當(dāng)前用戶的內(nèi)容排序曝光出來
以上就是我們?yōu)g覽app時底層的推薦算法展示給我們內(nèi)容的過程,看完之后是不是感受到了帝王般的待遇。在了解了上述步驟的基礎(chǔ)上,即使不懂算法的具體搭建實現(xiàn)過程也可以從上述的四個過程入手get到一些分析思路。比如用戶點擊率低,是召回過多但過濾特征不足導(dǎo)致質(zhì)量較差的內(nèi)容進(jìn)入精排導(dǎo)致的,還是精排過程用戶特征過少所致
題外話
由于新用戶是沒有行為的,所以就不能判斷用戶的偏好,對于推薦引擎來說相當(dāng)于冷啟動,這時推薦的內(nèi)容相對比較雜亂,慢慢的隨著用戶的行為積累,算法學(xué)習(xí)出用戶的偏好,推薦的內(nèi)容就越來越集中于某一些領(lǐng)域。
就如同抖音一樣,剛注冊的時候可能大家的曝光大差不離,刷一年之后可能差異就比較明顯。這樣做的優(yōu)點在于取悅用戶,推薦的內(nèi)容越來越準(zhǔn)確,用戶留存越來越高。而缺點在于限制了用戶的視野,把每個用戶關(guān)在了他自得其樂的盒子里,你覺得這樣好么?