提速14400倍!百度推薦引擎及其背后的大數(shù)據(jù)架構(gòu)揭秘
在互聯(lián)網(wǎng)世界中,什么技術(shù)代表著人工智能被廣泛應(yīng)用的未來?2012年12月22日,在以“推薦系統(tǒng)實戰(zhàn)”為主題的百度技術(shù)沙龍上,百度推薦與個性化部高級工程師們與來自亞馬遜、豆瓣網(wǎng)、清華大學等單位的技術(shù)專家們齊聚一堂,熱烈探討了個性化推薦領(lǐng)域的技術(shù)創(chuàng)新和實戰(zhàn)案例。
圖:百度技術(shù)沙龍現(xiàn)場
內(nèi)容推薦系統(tǒng):互聯(lián)網(wǎng)人工智能的潮流代表
目前主流的搜索引擎技術(shù)已經(jīng)能夠較好地滿足用戶的主動表達的精確需求,而在挖掘并滿足用戶的潛在需求方面,則需要通過構(gòu)建“推薦系統(tǒng)”來實現(xiàn)。實際上,隨著亞馬遜商品推薦、last.fm、Netflix、Pandora、百度推薦產(chǎn)品家族(百度視頻隨心看、百度音樂隨心聽、百度新聞新版客戶端等)、豆瓣電臺、優(yōu)酷視頻猜你喜歡等內(nèi)容推薦系統(tǒng)的興起,在全球互聯(lián)網(wǎng)市場,推薦系統(tǒng)已經(jīng)成為炙手可熱的潮流新應(yīng)用,代表著互聯(lián)網(wǎng)智能化的發(fā)展方向。
然而,建立大型內(nèi)容推薦系統(tǒng)并不是一件輕松的事情。在系統(tǒng)的服務(wù)能力、算法的更新周期、交互和反饋的實時性方面,大型推薦系統(tǒng)都遭遇到一些獨特而有趣的挑戰(zhàn)。
當“大數(shù)據(jù)”遭遇“實時性”
鑒于推薦系統(tǒng)對提高用戶體驗的顯著作用,各家主要互聯(lián)網(wǎng)公司都投入巨資進行研究開發(fā)。伴隨著推薦系統(tǒng)的“軍備競賽”,一些幾年之前難以想象的怪獸級大型推薦系統(tǒng)被開發(fā)出來。這些系統(tǒng)具有龐大的規(guī)模,通常需要服務(wù)上千萬的活躍用戶、積累了PB級別海量用戶數(shù)據(jù)。如何將海量的用戶數(shù)據(jù)應(yīng)用到實時的用戶交互中去以提高用戶體驗,成為了一個技術(shù)難題。
百度的工程師們分享了自身在Vortex流式計算系統(tǒng)和LISA實時索引架構(gòu)上進行推薦系統(tǒng)開發(fā)的經(jīng)驗。通過工程上的努力,推薦系統(tǒng)的更新周期從20小時縮短到5秒鐘,提速14400倍,由此用戶的轉(zhuǎn)化率提高了3倍。
思路創(chuàng)新: 從推薦“系統(tǒng)”到可復(fù)用的推薦“引擎”
許多主流互聯(lián)網(wǎng)公司的推薦算法的更新周期從1個月到3個月不等,相對于搜索技術(shù)穩(wěn)定的算法框架,推薦系統(tǒng)具有明顯的算法壽命縮短的跡象。其根本的原因在于推薦系統(tǒng)并不是基于相對靜態(tài)的內(nèi)容數(shù)據(jù),而是依賴動態(tài)的用戶內(nèi)容互動來進行算法預(yù)測。不斷變化的用戶狀態(tài)和統(tǒng)計分布,導(dǎo)致不存在一種一統(tǒng)天下的推薦算法“銀彈”。這種動態(tài)的特性將對推薦系統(tǒng)的靈活性和成本控制的要求提高到了前所未有的高度。
針對這個問題,百度給出了自己的答案:那就是建立跨領(lǐng)域多媒體推薦引擎,同時支持多種內(nèi)容推薦系統(tǒng)和推薦產(chǎn)品應(yīng)用的構(gòu)建,以大幅度節(jié)約成本、提升推薦效果。不同的推薦產(chǎn)品和子系統(tǒng)能夠復(fù)用同一套推薦引擎平臺,在用戶模型和內(nèi)容模型上也可以泛化復(fù)用。每個推薦的產(chǎn)品都站在“巨人的肩膀”上,最大限度復(fù)用數(shù)據(jù)、算法、系統(tǒng)資源,避免重復(fù)發(fā)明輪子,同時也一定程度上解決了系統(tǒng)冷啟動問題。
由推薦系統(tǒng)向推薦引擎的變革,不僅可以攤低推薦系統(tǒng)工程成本,還可保障算法快速更新。此外,不同推薦應(yīng)用共享數(shù)據(jù),克服數(shù)據(jù)稀疏問題;推薦產(chǎn)品功能橫向打通,多領(lǐng)域立體滿足用戶需求。百度基于自身的推薦引擎平臺,在很短的時間內(nèi)實現(xiàn)了電影推薦、資訊推薦、音樂推薦、視頻推薦、應(yīng)用推薦、好友推薦等眾多功能,并在運營過程中不斷協(xié)同升級。
百度自身應(yīng)用的典型案例如百度視頻隨心看(http://suixinkan.baidu.com)。它通過推薦引擎實現(xiàn)了個性化電影推薦,采用了Item項目關(guān)聯(lián)和Ontology本體關(guān)聯(lián)復(fù)合技術(shù),點擊率高于傳統(tǒng)列表頁數(shù)倍。
另外是百度新聞(http://app.news.baidu.com/)。它通過機器學習用戶建模和本體關(guān)聯(lián)復(fù)合技術(shù),實現(xiàn)了個性化資訊推薦和差異化競爭優(yōu)勢。
體系創(chuàng)新:構(gòu)建互聯(lián)網(wǎng)內(nèi)容推薦體系生態(tài)鏈
百度高級架構(gòu)師現(xiàn)場透露,未來將在百度域內(nèi)和百度域外同時推進推薦引擎的發(fā)展,形成有助于行業(yè)發(fā)展的良性生態(tài)鏈。
業(yè)內(nèi)專家表示,百度推薦系統(tǒng)和推薦引擎相關(guān)的技術(shù)實力是處于世界領(lǐng)先水平的,而百度同時保持了一個開放的心態(tài),向中國互聯(lián)網(wǎng)業(yè)界合作伙伴開放推薦引擎能力,支持國內(nèi)推薦技術(shù)社區(qū)發(fā)展,是為行業(yè)之幸。互聯(lián)網(wǎng)內(nèi)容推薦體系生態(tài)鏈的建立將極大推動中國互聯(lián)網(wǎng)的繁榮發(fā)展。