新浪微博胡南煒:深度學習在微博信息流推薦中的實踐
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年12月01日-02日,由51CTO主辦的WOTD全球軟件開發(fā)技術峰會將在深圳中州萬豪酒店隆重舉行。本次峰會以軟件開發(fā)為主題,數(shù)十位專家級嘉賓將帶來多場精彩的技術內容分享。屆時,新浪微博 機器學習資深架構師胡南煒將在深度學習與智能應用開發(fā)分會場與來賓分享"深度學習在微博信息流推薦系統(tǒng)的實踐與應用"主題演講,為大家詳細闡述新浪微博團隊在微博信息流推薦系統(tǒng)中是如何應用深度學習的。51CTO誠邀您蒞臨大會,與我們共享技術帶來的喜悅。
51CTO記者對即將參加大會演講的胡南煒老師進行了專訪,讓我們先睹為快,探聽一下他是如何解讀深度學習的。
復雜的場景需要深度學習技術
移動時代人們對信息內容的獲取和閱讀已經發(fā)生了巨大變化。信息流推薦是社會化推薦領域一個相對比較新穎的話題。人工智能技術正在改變人與信息的連接方式,也大大提高了內容創(chuàng)作、審核、分發(fā)、消費、互動的效率和質量。
微博本身的信息流推薦從自身特點來說,傳統(tǒng)的機器學習已經不能滿足海量用戶,復雜場景以及更加強烈的個性化消費需求。因此,新浪微博團隊的注意力也逐漸從傳統(tǒng)機器學習轉到深度學習領域。在深度學習比較擅長的圖像、視頻和語音等領域,新浪微博已經有成型的產品或者已經在默默地在為廣大微博用戶提供優(yōu)質服務。同時,在深度學習應用相對較少的領域,新浪微博也投入很大的研發(fā)精力,深挖高維度微博產品特征,相應的推薦產品相信已經應用到微博用戶的日常生活中了。
目前,基于深度學習的微博信息流推薦系統(tǒng)主要用于推薦,例如主Feed推薦、熱門微博推薦、Push推薦等。其特點有:
1. 大樣本量,單次訓練樣本量可以達到5000億以上規(guī)模。
2. 大特征維度特征維度,可以達到10億維度以上。
3. 特征類別復雜,有微博特征、用戶特征、關系特征、轉評贊特征、互動特征、曝光特征、圖片特征、視頻特征等等。
深度學習的本質就是學習特征。深度學習通過逐層學習,自動從原始數(shù)據(jù)中學習到一些不易變化的潛在的高層特征,然后基于這些高層特征,進行分類等學習任務。傳統(tǒng)機器學習需要大量的特征工程工作,有時候機器學習的效果跟抽取的特征好壞密切相關,很多時候由于一些潛在的特征很難抽取,導致學習效果不佳。
寬度和深度模型
CNN就是一個例子,如下圖所示,它通過卷積和池化,可以從原生像素中抽取某類圖像通用的高層特征(比如鳥喙、翅膀、鳥爪等),然后根據(jù)這些特征去識別一張圖像是不是一只鳥。總之,深度學習通過特征學習,使學習更容易達到較好的效果。
雖然理論上淺層的神經網(wǎng)絡也可以模擬任何復雜的函數(shù),但是對于很多復雜的問題,深度學習的效率更高,深度學習可以以更少的參數(shù)表示更復雜的函數(shù)。
易于業(yè)務快速訓練和迭代的CTR訓練套件
新浪微博團隊參考Wide & Deep Learning模型,并結合微博場景下相關推薦業(yè)務的需求與特點,將連續(xù)、離散、文本和標簽等特征的處理,以及網(wǎng)絡結構參數(shù)、模型導出和預測進行標準化,開發(fā)了易于業(yè)務快速訓練和迭代的深度學習CTR訓練套件。
此套件有以下三大特點:
1.配置化:不用寫程序,只需寫xml配置文件即可進行模型訓練。
2.集成化:主要體現(xiàn)在數(shù)據(jù)端、運行環(huán)境和在線預測三方面的集成。
數(shù)據(jù)端集成為微博特有特征(如標簽)訂制各種網(wǎng)絡結構。運行環(huán)境集成的目的是與微博內部的多個訓練集群打通,隱藏各調度系統(tǒng)的差異性。在線預測集成則是和在線預測系統(tǒng)和模型存儲系統(tǒng)打通,無縫對接離線訓練和在線預測。
3.可視化:利用tensor board特性,訂制微博特有數(shù)據(jù)的可視化功能。
通過應用深度學習,新浪微博信息流推薦系統(tǒng)的特征維度達到億級+維度以上,樣本規(guī)模達到數(shù)千億以上規(guī)模。已經在離線訓練和評估中采用了深度學習模型,實現(xiàn)了分布式和大規(guī)模的深度學習模型訓練?,F(xiàn)在正在評估小流量在線測試的效果并打算大規(guī)模的應用。
【講師簡介】
胡南煒,資深架構師,微博機器學習計算和服務平臺負責人。博士畢業(yè)于北京航空航天大學計算機科學和工程系,多年軟件工程研發(fā)和互聯(lián)網(wǎng)從業(yè)經驗,個人技術專長為大數(shù)據(jù),云計算技術和機器學習。2014年加入微博,負責微博機器學習計算和服務平臺開發(fā)。在此之前,曾經在IBM,Yahoo等公司工作。
使用雙十一特別優(yōu)惠碼[B310BD20D337F914] 立減200元,和我一起去WOTD全球軟件開發(fā)技術峰會!詳情點擊wot.51cto.com
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】