除了今日頭條,文本推薦還有五大成功應(yīng)用案例
原創(chuàng)文本推薦作為推薦系統(tǒng)的一個(gè)應(yīng)用場景,有著成功的商業(yè)化落地實(shí)踐。最為大家熟知的文本推薦系統(tǒng)是今日頭條的新聞推薦。其他的新聞門戶網(wǎng)站例如騰迅新聞和網(wǎng)易新聞,也都將文本推薦作為自己產(chǎn)品不可分割的一部分。
文本推薦不僅可以用來進(jìn)行新聞推薦,也可以用來支持其他產(chǎn)品例如問答推薦。國外有一些公司的主要業(yè)務(wù)甚至就是文本推薦,比如有一家名為 Outbrain 的公司,專門為各大網(wǎng)站提供文本推薦服務(wù)。
下面我們按照時(shí)間發(fā)展脈絡(luò)來看五個(gè)文本推薦的成功應(yīng)用案例。
一、Google 新聞推薦系統(tǒng)
2010 年 Jiahui Liu 等人發(fā)表的論文 Personalized News Recommendation based on Click Behavior 是文本推薦領(lǐng)域的經(jīng)典之作。作者用非常簡單的方式設(shè)計(jì)了 Google 新聞推薦系統(tǒng)。該系統(tǒng)采用的方法是簡單的協(xié)同過濾和 SVD 分解,外加對(duì)于用戶個(gè)人和群體喜好的歷史統(tǒng)計(jì)信息。這種方式一方面解決了推薦本身這個(gè)問題,另一方面解決了新聞中存在的馬太效應(yīng)問題。
二、紐約時(shí)報(bào)推薦系統(tǒng)
紐約時(shí)報(bào)的推薦系統(tǒng)源于普林斯頓大學(xué)和微軟的研究人員對(duì)于文本推薦的研究工作。2011 年 Chong Wang 等人在論文 Collaborative Topic Modeling for Recommending Scientific Articles提出了 Collaborative Topic Regression 模型。該模型結(jié)合了協(xié)同過濾和主題模型,概率圖模型如圖1所示。
圖 1. Collaborative Topic Regression 概率圖模型
Collaborative Topic Regression 及其后續(xù)的研發(fā)工作成就了紐約時(shí)報(bào)的新聞推薦系統(tǒng)。
三、百度知道問答推薦系統(tǒng)
2012 年和 2014 年百度分別在 ACM RecSys 和 ACM SAC 上發(fā)表了兩篇論文,描述了百度知道問答推薦系統(tǒng)是如何構(gòu)建的。百度知道的推薦系統(tǒng)采用了混合模型,結(jié)合了線性模型和非線性模型,利用了自然語言處理中關(guān)鍵詞提取等技術(shù)。
圖2. 百度知道問答推薦系統(tǒng)架構(gòu)
百度知道問答推薦系統(tǒng)的關(guān)鍵是線性模型的特征工程以及自然語言處理的相關(guān)技術(shù)。
四、協(xié)同深度學(xué)習(xí)
2015 年 Hao Wang 等人在數(shù)據(jù)挖掘的頂級(jí)會(huì)議 KDD 上發(fā)表了文章 Collaborative Deep Learning for Recommender Systems。作者結(jié)合了協(xié)同過濾和 stacked denoising autoencoder 設(shè)計(jì)了文本推薦的混合模型。混合模型的概率圖模型如圖2所示。
圖2. 協(xié)同深度學(xué)習(xí)的概率圖模型
五、基于 GRU 的深度文本模型
2016 年 Trapit Bansal 等人在 ACM RecSys 會(huì)議上發(fā)表論文 Ask the GRU: Multi-task Learning for Deep Text Recommendations,提出了基于 GRU 的文本推薦模型(如圖3所示)。
圖3. 基于 GRU文本推薦模型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
文本推薦是推薦系統(tǒng)的一個(gè)重要分支,采用了豐富的機(jī)器學(xué)習(xí)和自然語言處理技術(shù),被廣泛應(yīng)用于新聞和問答等領(lǐng)域。近年來隨著深度學(xué)習(xí)的崛起,人工智能的新技術(shù)也對(duì)文本推薦的發(fā)展起到了推波助瀾的作用。
隨著今日頭條的發(fā)展壯大,許多新聞媒體網(wǎng)站也意識(shí)到了文本推薦的重要性,百度、騰訊、網(wǎng)易等公司都在相關(guān)領(lǐng)域加大了人力物力的投入。隨著產(chǎn)品的創(chuàng)新和技術(shù)的進(jìn)步,文本推薦將會(huì)給我們的生活帶來更多的驚喜和便利。
汪昊,恒昌利通大數(shù)據(jù)部負(fù)責(zé)人,美國猶他大學(xué)碩士,在百度,新浪,網(wǎng)易,豆瓣等公司有多年的研發(fā)和技術(shù)管理經(jīng)驗(yàn),擅長機(jī)器學(xué)習(xí),大數(shù)據(jù),推薦系統(tǒng),社交網(wǎng)絡(luò)分析,計(jì)算機(jī)圖形學(xué),可視化等技術(shù)。在 TVCG 和 ASONAM 等國際會(huì)議和期刊發(fā)表論文 5 篇。本科畢業(yè)論文獲國際會(huì)議 IEEE SMI 2008 最佳論文獎(jiǎng)。