WOT2019搜索推薦算法分論壇:基于AI的搜索推薦在不同領(lǐng)域的實踐應(yīng)用
原創(chuàng)6月21日,WOT2019全球技術(shù)峰會暨全球人工智能技術(shù)峰會在北京粵財JW萬豪酒店隆重舉行。本次峰會圍繞人工智能領(lǐng)域的通用技術(shù)、應(yīng)用領(lǐng)域以及企業(yè)賦能三大主題展開,每個主題設(shè)置四大專場,涵蓋機器學(xué)習(xí)實踐、知識圖譜技術(shù)、AI智造、智能安防、智能金融、智能商業(yè)創(chuàng)新、智能行業(yè)賦能等,共計12大專場,42個話題的分享與討論。6月21日下午,通用技術(shù)主題峰會正式拉開帷幕,機器學(xué)習(xí)實踐、搜索推薦算法、知識圖譜技術(shù)、NLP和語音識別四大專場同時進行,十幾位講師為與會嘉賓帶來精彩的技術(shù)分享。
當(dāng)前,基于人工智能的搜索推薦算法逐漸占據(jù)上風(fēng)。如何結(jié)合自身業(yè)務(wù)數(shù)據(jù)的特點,設(shè)計合適的深度推薦與搜索算法,同時設(shè)計合理的架構(gòu)保證算法的穩(wěn)定運行,是搜索推薦算法專場的主要關(guān)注點。在6月21日下午的搜索推薦算法分論壇上,來自第四范式推薦業(yè)務(wù)算法團隊負責(zé)人程曉澄、荔枝FM推薦系統(tǒng)架構(gòu)師莊正中和金山西山居游戲AI技術(shù)專家黃鴻波,從不同的應(yīng)用場景出發(fā),詳細解讀了搜索推薦算法在不同領(lǐng)域的實踐應(yīng)用與落地案例。
程曉澄:搭建現(xiàn)代推薦系統(tǒng)需要邁過哪些難關(guān)
作為本場論壇的首位演講嘉賓,第四范式推薦業(yè)務(wù)算法團隊負責(zé)人程曉澄帶來了《搭建現(xiàn)代推薦系統(tǒng)需要邁過哪些難關(guān)》的主題分享,介紹了當(dāng)前推薦系統(tǒng)如何同時服務(wù)于用戶增長、商業(yè)變現(xiàn)、用戶體驗等多元化的目標,闡述了推薦系統(tǒng)各模塊的發(fā)展現(xiàn)狀,以及各個環(huán)節(jié)工程落地的難點。
推薦系統(tǒng)對商業(yè)效率的提升已有諸多驗證,在內(nèi)容閱讀場景中,通過推薦系統(tǒng)讓產(chǎn)品流量和收入大幅提升的案例不乏少數(shù)。隨著推薦系統(tǒng)的發(fā)展和成熟,商業(yè)應(yīng)用對推薦系統(tǒng)提出了更高的要求。
程曉澄表示,推薦是門檻相對較高的技術(shù),從頭開始起步難度較高,而通過云服務(wù)的推薦系統(tǒng),可以幫助其他企業(yè)快速布局推薦業(yè)務(wù),提升他們的轉(zhuǎn)化和收入。他認為,要把推薦做成一個比較先進的系統(tǒng),需要分成三個維度:一是從業(yè)務(wù)維度看核心算法;二是從算法維度看怎樣服務(wù)好目標;三是從工程落地維度看最核心的內(nèi)容是什么。
在接下來的時間里,程曉澄從業(yè)務(wù)語言講起,詳細介紹了推薦系統(tǒng)的搭建過程。
程曉澄表示,大部分需要推薦的場景、推薦的產(chǎn)品,追根溯源到商業(yè)模式上就是流量變現(xiàn),流量變現(xiàn)又分為流量和商業(yè)目標兩個部分。從流量角度來講,就是指產(chǎn)品有多少人使用,使用時間是多長;從商業(yè)目標來講,就是在流量基礎(chǔ)上實現(xiàn)了多少收入。程曉澄強調(diào),可以把流量變現(xiàn)看成一個漏斗,上層要有大量數(shù)據(jù),有了數(shù)據(jù)量才能更快的出效果。接下來,必須要做好產(chǎn)品,并根據(jù)用戶的行為進行精準的內(nèi)容推送,提高產(chǎn)品體驗,關(guān)注產(chǎn)品增長。完成這兩步之后,就需要考慮產(chǎn)品變現(xiàn)了,這就需要對付費項目進行優(yōu)化,把算法能力輸出到廣告場景上,以此來提高點擊率、轉(zhuǎn)化率等等。
從算法角度來講,召回、模型、干預(yù)是最基本的三步推薦流程。推薦就是指選出適合用戶的時段進行推薦,占滿一屏內(nèi)容;模型是指算法工程師根據(jù)業(yè)務(wù)去建立一套算法模型,并根據(jù)不同業(yè)務(wù)采用不同的算法模型。最后,要在業(yè)務(wù)的各個環(huán)節(jié)中實施干預(yù)。
程曉澄表示,一個成功的推薦系統(tǒng)一要對目標的設(shè)定足夠清晰,且目標要衡量、要量化;二是推薦的物料要足夠豐富;三是對產(chǎn)品的指標和優(yōu)化要有一定層次的理解。他強調(diào),從方法論來講,推薦應(yīng)該尊重經(jīng)驗進行優(yōu)化,因為算法是一個實驗科學(xué),對好的項目來講每個idea來自于觀察提出的假設(shè),基于假設(shè)想出的一個優(yōu)化方案策略,而這個策略是否真的生效,最終還需要驗證。所以,一個理想的、高效的場合,能夠同時進行幾個或者十幾個實驗同時在線上跑。
莊正中:荔枝APP的UGC推薦系統(tǒng)探索與實踐
接下來,荔枝FM推薦系統(tǒng)架構(gòu)師莊正中帶來了《荔枝APP的UGC推薦系統(tǒng)探索與實踐》的主題演講。他首先介紹了荔枝的推薦理念,以及內(nèi)容理解、用戶理解、算法模型和交互設(shè)計四大關(guān)注點;隨后介紹了荔枝推薦系統(tǒng)的主要架構(gòu),在音頻推薦系統(tǒng)建設(shè)中遇到的難點和應(yīng)對策略,以及提取音頻內(nèi)容特征和新聲音發(fā)現(xiàn)機制。
莊正中表示,作為一家以音頻為媒介傳播的UGC平臺,公司對于平臺推薦的理念有三個方面的理解:一是帶用戶聽見世界;二是發(fā)現(xiàn)用戶聲音的才華;三是讓用戶更輕松的表達自己的聲音。以帶用戶聽見世界為例,其實就是建立用戶到內(nèi)容的連接,可以把推薦系統(tǒng)看成點到點的圖模,把用戶看成一個結(jié)點,推薦系統(tǒng)要做的事情就是把更多的用戶結(jié)點,連接上更多的內(nèi)容結(jié)點,同時讓用戶結(jié)點產(chǎn)生觀眾,增加結(jié)點之間的數(shù)量和長度。在這個過程中,推薦算法是推薦系統(tǒng)中間的一個環(huán)節(jié)。
而關(guān)于發(fā)現(xiàn)聲音的才華,就是讓用戶利用平臺來展現(xiàn)自己,表現(xiàn)自己的才華。由于每天都會產(chǎn)生很多新用戶,就要解決資源與用戶需求分配的問題,所以推薦算法怎樣最合理的去分配固定資源,使得平臺整體收益最大化,這就是算法所做的工作。
在接下來的時間里,莊正中結(jié)合荔枝的一些實踐,從音頻處理、探索新應(yīng)用、發(fā)現(xiàn)聲音的價值三個方面深入解讀了荔枝推薦的一些做法和經(jīng)驗。他表示,在算法上荔枝更加關(guān)注怎樣幫助長尾新內(nèi)容的發(fā)掘更加公平,因為很多推薦算法的長尾能力很差,熱度效應(yīng)很重,會不斷的強化系統(tǒng)的馬太效應(yīng),會非常依賴頭部主播,因此對內(nèi)容提出了動態(tài)權(quán)重。在內(nèi)容理解和新內(nèi)容發(fā)現(xiàn)上,首先通過不同的算法進行語音識別,然后對內(nèi)容進行分類處理,再次設(shè)定不同的關(guān)健詞以方便搜索,最后是對內(nèi)容進行重新定義,適合什么樣的場景、什么樣的人群聽。
據(jù)莊正中介紹,荔枝會通過二個體系來分析新內(nèi)容的好壞,一是主播的價值體系,所有用戶的行為反饋都會反向到主播身上,用來評價主播好壞;二是塑造漏斗模型,不斷把粉絲的內(nèi)容和用戶吸引過來。
據(jù)了解,荔枝的發(fā)現(xiàn)系統(tǒng)(即推薦系統(tǒng))首先會進行內(nèi)容分析和流量測試,通過配制不同的流量測試通道在不同的引擎曝光,每個引擎用算法同時提供。對于算法的好壞,會有兩個判斷指標,一是CTR有沒有達到平均值,二是對內(nèi)容進行評估。當(dāng)然,這些都是由數(shù)據(jù)分析來支撐的,因此能否保證數(shù)據(jù)的實時性,能否收集到想要的數(shù)據(jù),數(shù)據(jù)的正確性是否能夠保證,都是基于內(nèi)容的推薦算法。
最后,莊正中從一個新節(jié)目的制作過程,詳細介紹了推薦算法的實施過程,并著重介紹了一些典型的推薦策略,例如用強化學(xué)習(xí)應(yīng)對用戶興趣探索的Explore&Exploit算法,采用DSSM做長尾召回的嘗試,參數(shù)降維的FFM排序算法,產(chǎn)品運營策略+機器學(xué)習(xí)的融合模型排序等。莊正中表示,推薦系統(tǒng)的最終目標是讓主播覺得有希望,讓用戶發(fā)現(xiàn)新內(nèi)容,最后衡量內(nèi)容的好壞,衡量系統(tǒng)的多樣性,這即是荔枝推薦系統(tǒng)的一個公平性的指標。
黃鴻波:推薦系統(tǒng)在“劍網(wǎng)3推欄”項目中的落地
作為壓軸分享嘉賓,金山西山居游戲AI技術(shù)專家黃鴻波分享了推薦系統(tǒng)在“劍網(wǎng)3推欄”項目中的落地經(jīng)驗。他表示,游戲娛樂也是推薦系統(tǒng)的重要應(yīng)用場景之一, “劍網(wǎng)3推欄”是《劍網(wǎng)3》玩家首選的娛樂聚集地,集官方資訊、趣味內(nèi)容、玩家社交、創(chuàng)作分析、專業(yè)工具、游戲視頻和輔助工具于一體,提供實時專業(yè)的競技數(shù)據(jù),游戲互通的社交服務(wù)APP。
黃鴻波圍繞特征選取、離線計算和在線預(yù)測三大階段,分享了如何進行千人千面、個性化的消息推薦,并結(jié)合“劍網(wǎng)3推欄”項目的落地經(jīng)驗,詳細講解了推薦系統(tǒng)的架構(gòu)、流程,總結(jié)了常見的各種問題和破解方法。
“劍網(wǎng)3推欄”的推薦系統(tǒng)架構(gòu)流程是用戶進入AI交互界面之后,每次點擊或者評論,都會記錄用戶的行為,并把用戶行為放到數(shù)據(jù)中臺中,進行數(shù)據(jù)存儲和整合,包括在線行為和離線行為;之后,通過一套專業(yè)算法對在線和離線數(shù)據(jù)進行計算;最后,將計算結(jié)果進行排序。黃鴻波表示,推欄推薦系統(tǒng)架構(gòu)會遵循多模型聯(lián)合分數(shù)歸一化策略。據(jù)介紹,所謂歸一化就是指把所有值壓縮到一個相同的區(qū)間內(nèi),保證數(shù)據(jù)在同一個可以被比較的區(qū)間中進行比較,進行倒敘排序,并得到最終結(jié)果。
通過推欄推薦系統(tǒng)架構(gòu)流程,劍網(wǎng)3的點擊率提高了53%,閱讀率提高了11%,定贊數(shù)達到了15%,評論數(shù)達到了4%,收藏量達到了22%。
在演講最后,黃鴻波重點分享了召回結(jié)果不均衡的問題及解決策略。他表示,召回結(jié)果不均衡主要是召回數(shù)量過多和召回數(shù)量過少,“劍網(wǎng)3推欄”的解決策略是使用多模型聯(lián)合,由于每種模型都有一個數(shù)據(jù)級結(jié)果,且數(shù)據(jù)級結(jié)果的交集點擊率會相對較高,因此可以通過多模型聯(lián)合分數(shù)歸一化策略進行排序和補充。如果召回數(shù)量過多,可以按照分數(shù)從后到前刪除。如果召回數(shù)量過少,根本原因是由于模型質(zhì)量導(dǎo)致,這時可以通過增加召回算法和擴大參數(shù),用增量緯度等方式使召回算法由少變多,對召回數(shù)量進行補充之后,再使用排序策略進行排序,得到想要的結(jié)果。