夯實(shí)AI基礎(chǔ),聚焦行業(yè)實(shí)踐---記WOT全球人工智能技術(shù)峰會(huì)機(jī)器學(xué)習(xí)實(shí)踐分論壇
原創(chuàng)【51CTO.com原創(chuàng)稿件】6月21日,由51CTO主辦的WOT2019全球人工智能技術(shù)峰會(huì)在北京粵財(cái)JW萬(wàn)豪酒店準(zhǔn)時(shí)拉開(kāi)序幕。作為2019年度全球技術(shù)人員線下交流的知名峰會(huì),本次大會(huì)緊緊圍繞著通用技術(shù)、應(yīng)用領(lǐng)域、企業(yè)賦能三大核心章節(jié)展開(kāi)。來(lái)自全球的60余位一線AI大咖們齊聚一堂,與千余名參會(huì)群眾共同分享了深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、視覺(jué)技術(shù)、無(wú)人駕駛、機(jī)器學(xué)習(xí)、算法模型、知識(shí)圖譜等主題技術(shù)內(nèi)容。
6月21日下午,在通用技術(shù)章節(jié)中A會(huì)場(chǎng)機(jī)器學(xué)習(xí)實(shí)踐分論壇,網(wǎng)易云音樂(lè)音樂(lè)推薦負(fù)責(zé)人肖強(qiáng)、VIPKID供需優(yōu)化技術(shù)負(fù)責(zé)人沈亮、美團(tuán)大眾點(diǎn)評(píng)高級(jí)技術(shù)專家王永康三位機(jī)器學(xué)習(xí)方面的專家受邀出席并發(fā)表了精彩演講。會(huì)后51CTO將專家發(fā)言整理成文,希望他們的演講內(nèi)容精華對(duì)大家有所幫助。
網(wǎng)易云音樂(lè)音樂(lè)推薦負(fù)責(zé)人肖強(qiáng):AI算法在音樂(lè)推薦中的實(shí)踐
網(wǎng)易云音樂(lè)音樂(lè)推薦負(fù)責(zé)人肖強(qiáng)的演講共分三個(gè)部分:一是網(wǎng)易云音樂(lè)的介紹,二是AI算法在音樂(lè)推薦中的實(shí)踐,三是音樂(lè)場(chǎng)景下的AI思考。
自2013年4月正式上線以來(lái),網(wǎng)易云音樂(lè)憑借UGC社區(qū)、UGC歌單、精準(zhǔn)推薦三大特色產(chǎn)品,成為了音樂(lè)愛(ài)好者的集聚地。
網(wǎng)易云音樂(lè)推薦系統(tǒng)致力于通過(guò)AI算法,實(shí)現(xiàn)用戶千人千面的個(gè)性化推薦,為用戶帶來(lái)不一樣的聽(tīng)歌體驗(yàn)。雖然與其他推薦一樣,都是以用戶體驗(yàn)為導(dǎo)向,幫助用戶更快捷的獲取資源,但是,音樂(lè)推薦有著不同的特點(diǎn)和難點(diǎn)。
首先,由于音樂(lè)本身的復(fù)雜性,要求系統(tǒng)要更好地理解音樂(lè)。網(wǎng)易云音樂(lè)的做法是利用NLP系統(tǒng),通過(guò)用戶在社區(qū)自發(fā)產(chǎn)生的內(nèi)容去描述音樂(lè),這樣不用聽(tīng)就可以得到這個(gè)音樂(lè)的大概畫(huà)像。新的音樂(lè)則利用視頻、圖像技術(shù),實(shí)現(xiàn)音樂(lè)之間相關(guān)的研究工作。
第二,利用可重復(fù)消費(fèi)來(lái)計(jì)算CF相似度。也就是說(shuō)基于用戶的可重復(fù)消費(fèi)(一首歌聽(tīng)了很多次),來(lái)表達(dá)用戶喜好,及歌曲間的關(guān)聯(lián)度,包括空間位置差異性和空間方向差異性。
第三,音樂(lè)推薦的消費(fèi)成本高,強(qiáng)調(diào)關(guān)聯(lián)性也很強(qiáng),更加要求有合適的模型去表達(dá)用戶的需求。LR模型的可解釋性強(qiáng),但是表達(dá)能力有限。樹(shù)模型,以及LR和樹(shù)模型的結(jié)合,優(yōu)點(diǎn)是可以解決部分非線性問(wèn)題。大規(guī)模FTRL的優(yōu)點(diǎn)是可以獲取記憶類(lèi)特征,刻畫(huà)能力強(qiáng)。缺點(diǎn)是特征維度大、需要的樣本量多、計(jì)算復(fù)雜。此外,還有表達(dá)能力強(qiáng)的深度神經(jīng)網(wǎng)絡(luò),能學(xué)習(xí)到時(shí)序特征,刻畫(huà)能力+泛化能力強(qiáng)的深度時(shí)序網(wǎng)絡(luò)。 從線性模型、樹(shù)模型,到大規(guī)模FTRL、深度神經(jīng)網(wǎng)絡(luò),再到深度時(shí)序網(wǎng)絡(luò),網(wǎng)易云音樂(lè)通過(guò)模型迭代實(shí)現(xiàn)更精準(zhǔn)的表達(dá)用戶需求。
肖強(qiáng)指出,音樂(lè)消費(fèi)中,因?yàn)橛脩粜枨蟮膹?fù)雜性,很難用單一目標(biāo)去衡量音樂(lè)推薦系統(tǒng),往往遇到CTR & 消費(fèi)時(shí)長(zhǎng),不是同步提升,甚至此消彼長(zhǎng),以及多目標(biāo)問(wèn)題。網(wǎng)易云音樂(lè)用聯(lián)合訓(xùn)練來(lái)解決多目標(biāo)問(wèn)題。聯(lián)合訓(xùn)練的優(yōu)勢(shì)主要有四點(diǎn):一是多個(gè)目標(biāo)任務(wù)在淺層共享表示,任務(wù)之間加入噪音數(shù)據(jù),降低網(wǎng)絡(luò)過(guò)擬合,提升了泛化效果。二是多目標(biāo)任務(wù)學(xué)習(xí)中不同任務(wù)的局部極小值處于不同的位置,通過(guò)相互作用,可以幫助逃離局部極小值。三是多目標(biāo)任務(wù)聯(lián)合訓(xùn)練,模型盡可能求解多任務(wù)的共同的解決方法。四是竊聽(tīng)。通過(guò)聯(lián)合訓(xùn)練,音樂(lè)的收藏率和消費(fèi)時(shí)長(zhǎng)都明顯提升。
在音樂(lè)場(chǎng)景下的AI思考部分,肖強(qiáng)表示,音樂(lè)推薦要解決的是在億萬(wàn)用戶 * 千萬(wàn)歌曲 * 十萬(wàn)音樂(lè)人 * n種情景的四維空間的匹配問(wèn)題。推薦系統(tǒng)的核心目標(biāo)是利用人工智能提升用戶體驗(yàn)。包括用戶愿意分享音樂(lè)、愿意長(zhǎng)時(shí)間聽(tīng)音樂(lè)、愿意收藏及反復(fù)聽(tīng)收藏的音樂(lè)、用戶聽(tīng)過(guò)的歌曲越來(lái)越多。網(wǎng)易云音樂(lè)的AI推薦體系是知識(shí)圖譜和統(tǒng)計(jì)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的結(jié)合,用強(qiáng)大的長(zhǎng)尾發(fā)掘能力和精準(zhǔn)的匹配能力,讓用戶更好的發(fā)現(xiàn)音樂(lè)。
VIPKID供需優(yōu)化技術(shù)負(fù)責(zé)人沈亮:在線教育行業(yè)中視頻理解的應(yīng)用
VIPKID供需優(yōu)化技術(shù)負(fù)責(zé)人沈亮開(kāi)場(chǎng)指出,在線教育領(lǐng)域中,1V1直播視頻內(nèi)容是非常核心的數(shù)據(jù)之一。所以,特定領(lǐng)域和場(chǎng)景下的視頻內(nèi)容理解技術(shù)顯得尤為重要,它能夠提升在線教育企業(yè)的核心競(jìng)爭(zhēng)力。VIPKID不僅僅是一家在線教育類(lèi)公司,同時(shí)也是一家視頻內(nèi)容公司。每天在VIPKID平臺(tái)上,產(chǎn)生超過(guò)400W分鐘,30T的視頻數(shù)據(jù),累計(jì)高達(dá)7PB的視頻內(nèi)容。數(shù)據(jù)即價(jià)值,沈亮接下來(lái)的演講主要圍繞VIPKID對(duì)數(shù)據(jù)價(jià)值進(jìn)行挖掘的方法,以及圍繞這些數(shù)據(jù)產(chǎn)品化所做的嘗試等內(nèi)容展開(kāi)。
視頻內(nèi)容理解的技術(shù)近幾年非?;鸨?,原因有以下幾個(gè)方面。首先,視頻內(nèi)容理解的大趨勢(shì)是從人工到機(jī)器。2015年,直播開(kāi)始火爆,到2017、2018年短視頻的崛起,產(chǎn)生的數(shù)據(jù)是呈指數(shù)級(jí)增長(zhǎng)的。直播,可以理解為PGC(專業(yè)生產(chǎn)內(nèi)容),短視頻則是UGC(用戶生產(chǎn)內(nèi)容)。UGC的內(nèi)容輸出量遠(yuǎn)大于PGC。對(duì)視頻內(nèi)容理解的技術(shù)訴求也從審核、編輯逐漸滲透到圍繞內(nèi)容理解的推薦產(chǎn)品,視頻內(nèi)容創(chuàng)作等領(lǐng)域。此外,產(chǎn)品的用戶體驗(yàn)、內(nèi)部運(yùn)營(yíng)效率等現(xiàn)實(shí)KPI指標(biāo)也驅(qū)動(dòng)著視頻內(nèi)容理解技術(shù)的發(fā)展。比如,在前些年,基本上視頻推薦還是圍繞用戶行為、視頻標(biāo)簽等去進(jìn)行的,而現(xiàn)在,基本上已經(jīng)過(guò)度到視頻本身領(lǐng)域,產(chǎn)出的是一些不可描述的特征,或是很小一部分可檢測(cè)的內(nèi)容。
深度學(xué)習(xí)的興起則是視頻內(nèi)容理解技術(shù)的助燃劑。傳統(tǒng)機(jī)器學(xué)習(xí)算法下的計(jì)算機(jī)視覺(jué)/語(yǔ)音,研發(fā)步驟繁瑣,并且對(duì)領(lǐng)域知識(shí)依賴度非常高,特征處理復(fù)雜度也非常高。需要領(lǐng)域?qū)<遥惴▽<也粩喾磸?fù)調(diào)試模型。隨著深度學(xué)習(xí)的發(fā)展,基礎(chǔ)算法模型效果得到了質(zhì)的提升,比如在人臉檢測(cè)、人臉識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域已經(jīng)超出人的水平。為視頻內(nèi)容理解提供基礎(chǔ)技術(shù)支撐。因此,可以說(shuō),深度學(xué)習(xí)、產(chǎn)品需求的相互驅(qū)動(dòng),讓視頻內(nèi)容理解領(lǐng)域慢慢滲透到產(chǎn)品和用戶的多個(gè)方面。
VIPKID一天有接近300W分鐘的視頻數(shù)據(jù)。拆解來(lái)看,每天需要處理400W分鐘的語(yǔ)音+3億張的圖片數(shù)據(jù)。在語(yǔ)音領(lǐng)域,要去做語(yǔ)音識(shí)別、噪音識(shí)別、語(yǔ)音情感識(shí)別等,在圖像領(lǐng)域,要去做人臉識(shí)別/檢測(cè),因此挑戰(zhàn)非常大。
VIPKID通過(guò)自研+與第三方技術(shù)廠商(如阿里云、騰訊云、亞馬遜云、Face++、馳聲)通力合作,建立了一整套的解決方案,包括部分臉識(shí)別、多種特定手勢(shì)識(shí)別、AI看課等。
在機(jī)器審核、課程質(zhì)量評(píng)估、精彩片段等項(xiàng)目中,核心的誤召回主要是由于老師、學(xué)生的部分臉識(shí)別效果較差,VIPKID通過(guò)前后標(biāo)注和優(yōu)化多次模型,作為人臉識(shí)別的補(bǔ)充,額外多召回10%的臉部圖像。
此外,VIPKID通過(guò)多種模型,對(duì)多種特定手勢(shì)的檢測(cè),實(shí)現(xiàn)了手勢(shì)的檢測(cè)和分類(lèi)。通過(guò)機(jī)器審核,使效率提升了100倍。
美團(tuán)大眾點(diǎn)評(píng)高級(jí)技術(shù)專家王永康:美團(tuán)外賣(mài)商業(yè)變現(xiàn)實(shí)踐
美團(tuán)外賣(mài)目前用戶數(shù)超過(guò)了3億,商家數(shù)超過(guò)了360萬(wàn)?;谶@樣的背景,美團(tuán)外賣(mài)也進(jìn)行了廣告變現(xiàn)方面的探索,當(dāng)前包含信息流廣告、搜索廣告、展示廣告等產(chǎn)品形式,CPT、GD、CPM、CPC等售賣(mài)模式,在這樣的業(yè)務(wù)背后,是有一套相對(duì)完成的業(yè)務(wù)邏輯和技術(shù)手段在支撐的。
王永康詳細(xì)介紹了外賣(mài)的模型演進(jìn)的過(guò)程。針對(duì)電商場(chǎng)景統(tǒng)計(jì)類(lèi)的連續(xù)特征較多,刻畫(huà)能力較強(qiáng),所以美團(tuán)外賣(mài)開(kāi)始用的是xgboost,為了提升迭代效果,美團(tuán)外賣(mài)從xgboost轉(zhuǎn)移到了lgb,訓(xùn)練速度提升了2倍。現(xiàn)在的模型迭代一般是先用lightgbm迭代上一個(gè)基礎(chǔ)版model。
當(dāng)然樹(shù)模型有一些局限性,比如對(duì)序列信息的表達(dá)、對(duì)稀疏、高維的離散特征的表達(dá)相對(duì)較弱,所以會(huì)往DNN上遷移。
上圖是外賣(mài)廣告預(yù)估模型的演進(jìn)。
在平臺(tái)側(cè),主要是收入優(yōu)化。在外賣(mài)的場(chǎng)景里有很多的多模態(tài)的信息,如圖像、文本、菜品圖像等,比如做菜品預(yù)估的時(shí)候,對(duì)菜品做排序,菜品圖片信息就顯得比較重要。美團(tuán)外賣(mài)最早使用的是兩段式,先用訓(xùn)練好的CNN網(wǎng)絡(luò)把圖像表示成Embedding,給到模型。后來(lái)直接把一個(gè)VGG16的網(wǎng)絡(luò)做了一些簡(jiǎn)化,直接連接到模型中做end2end的訓(xùn)練。
對(duì)于文本信息,可以直接當(dāng)做離線特征喂給模型,也可以pre-train好的word的Embedidng喂到模型,或者在模型結(jié)構(gòu)上對(duì)文本序列接一個(gè)LSTM。
對(duì)于序列特征,不同的行為串聯(lián)不同的實(shí)體可以產(chǎn)生不同的序列,例如“點(diǎn)擊”的“POI”序列、“下單”的“圖像”序列等等,不同的序列能夠捕捉用戶不同的行為、語(yǔ)義、視覺(jué)偏好,可以直接把ID序列喂給模型,或者采用表示學(xué)習(xí)的方法對(duì)ID學(xué)習(xí)Embedding表達(dá),將Embedding序列輸入模型,更上層的可以做一些Pooling、Similarity、Attention操作等。
在多目標(biāo)學(xué)習(xí)中,外賣(mài)的場(chǎng)景涉及到曝光、點(diǎn)擊、下單、以及下單金額的問(wèn)題,所以相應(yīng)的模型就會(huì)去預(yù)估ctr、cvr、price。在傳統(tǒng)預(yù)估CVR的時(shí)候,訓(xùn)練樣本用的是點(diǎn)擊+轉(zhuǎn)化的數(shù)據(jù),是看不到曝光數(shù)據(jù)的,預(yù)估Price的時(shí)候,訓(xùn)練樣本用的是轉(zhuǎn)化+轉(zhuǎn)化金額的數(shù)據(jù),是看不到曝光和點(diǎn)擊數(shù)據(jù)的,而在預(yù)測(cè)的時(shí)候是一起預(yù)測(cè),就造成了訓(xùn)練和預(yù)測(cè)的樣本分布不一致的問(wèn)題,美團(tuán)外賣(mài)的方法是通過(guò)共享embedding層或者局部網(wǎng)絡(luò)層的方式去解決。
在商家側(cè),會(huì)去優(yōu)化商家的投入產(chǎn)出比。美團(tuán)外賣(mài)用機(jī)器學(xué)習(xí)來(lái)解決業(yè)務(wù)問(wèn)題可以分成兩部分,一是業(yè)務(wù)問(wèn)題如何轉(zhuǎn)化成機(jī)器學(xué)習(xí)問(wèn)題,二是機(jī)器學(xué)習(xí)如何優(yōu)化業(yè)務(wù)問(wèn)題。
上圖是如何根據(jù)業(yè)務(wù)設(shè)計(jì)合理的State、Reward、Action。
中間的環(huán)節(jié)相當(dāng)于一個(gè)黑盒,需要用模型去建模從state到reward的整個(gè)的過(guò)程。關(guān)鍵的問(wèn)題就是如何通過(guò)state中feature的設(shè)計(jì),能夠?qū)⒅虚g的環(huán)節(jié)進(jìn)行刻畫(huà)。
在用戶側(cè),主要是體驗(yàn)優(yōu)化。美團(tuán)外賣(mài)從Utility角度理解用戶體驗(yàn),將用戶體驗(yàn)分成了三個(gè)階段:短期體驗(yàn)、中期體驗(yàn)、長(zhǎng)期體驗(yàn)。
王永康***總結(jié)說(shuō),美團(tuán)外賣(mài)通過(guò)模型預(yù)估和機(jī)制設(shè)計(jì)在平臺(tái)側(cè)進(jìn)行收入優(yōu)化,通過(guò)OCPC從人工策略到強(qiáng)化學(xué)習(xí)的迭代進(jìn)行商家側(cè)轉(zhuǎn)化優(yōu)化,通過(guò)用戶體驗(yàn)建模優(yōu)化進(jìn)行用戶側(cè)體驗(yàn)優(yōu)化,最終實(shí)現(xiàn)了美團(tuán)外賣(mài)的商業(yè)變現(xiàn)。
以上內(nèi)容是51CTO記者根據(jù)WOT2019全球人工智能技術(shù)峰會(huì)的《機(jī)器學(xué)習(xí)實(shí)踐》分論壇演講內(nèi)容整理,更完整WOT內(nèi)容請(qǐng)關(guān)注51cto.com。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】