自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度學(xué)習(xí)在美團(tuán)點(diǎn)評(píng)的應(yīng)用

人工智能 深度學(xué)習(xí)
下面我們就以語(yǔ)義匹配、圖像質(zhì)量排序及文字識(shí)別這三個(gè)應(yīng)用場(chǎng)景為例,來(lái)詳細(xì)介紹美團(tuán)點(diǎn)評(píng)在深度學(xué)習(xí)技術(shù)及應(yīng)用方面的經(jīng)驗(yàn)和方法論。

前言

近年來(lái),深度學(xué)習(xí)在語(yǔ)音、圖像、自然語(yǔ)言處理等領(lǐng)域取得非常突出的成果,成了最引人注目的技術(shù)熱點(diǎn)之一。美團(tuán)點(diǎn)評(píng)這兩年在深度學(xué)習(xí)方面也進(jìn)行了一些探索,其中在自然語(yǔ)言處理領(lǐng)域,我們將深度學(xué)習(xí)技術(shù)應(yīng)用于文本分析、語(yǔ)義匹配、搜索引擎的排序模型等;在計(jì)算機(jī)視覺領(lǐng)域,我們將其應(yīng)用于文字識(shí)別、目標(biāo)檢測(cè)、圖像分類、圖像質(zhì)量排序等。下面我們就以語(yǔ)義匹配、圖像質(zhì)量排序及文字識(shí)別這三個(gè)應(yīng)用場(chǎng)景為例,來(lái)詳細(xì)介紹美團(tuán)點(diǎn)評(píng)在深度學(xué)習(xí)技術(shù)及應(yīng)用方面的經(jīng)驗(yàn)和方法論。

基于深度學(xué)習(xí)的語(yǔ)義匹配

語(yǔ)義匹配技術(shù),在信息檢索、搜索引擎中有著重要的地位,在結(jié)果召回、精準(zhǔn)排序等環(huán)節(jié)發(fā)揮著重要作用。

傳統(tǒng)意義上講的語(yǔ)義匹配技術(shù),更加注重文字層面的語(yǔ)義吻合程度,我們暫且稱之為語(yǔ)言層的語(yǔ)義匹配;而在美團(tuán)點(diǎn)評(píng)這樣典型的O2O應(yīng)用場(chǎng)景下,我們的結(jié)果呈現(xiàn)除了和用戶表達(dá)的語(yǔ)言層語(yǔ)義強(qiáng)相關(guān)之外,還和用戶意圖、用戶狀態(tài)強(qiáng)相關(guān)。

用戶意圖即用戶是來(lái)干什么的?比如用戶在百度上搜索“關(guān)內(nèi)關(guān)外”,他的意圖可能是想知道關(guān)內(nèi)和關(guān)外代表的地理區(qū)域范圍,“關(guān)內(nèi)”和“關(guān)外”被作為兩個(gè)詞進(jìn)行檢索,而在美團(tuán)上搜索“關(guān)內(nèi)關(guān)外”,用戶想找的就是“關(guān)內(nèi)關(guān)外”這家飯店,“關(guān)內(nèi)關(guān)外”被作為一個(gè)詞來(lái)對(duì)待。

再說用戶狀態(tài),一個(gè)在北京和另一個(gè)在武漢的用戶,在百度或淘寶上搜索任何一個(gè)詞條,可能得到的結(jié)果不會(huì)差太多;但是在美團(tuán)這樣與地理位置強(qiáng)相關(guān)的場(chǎng)景下就會(huì)完全不一樣。比如我在武漢搜“黃鶴樓”,用戶找的可能是景點(diǎn)門票,而在北京搜索“黃鶴樓”,用戶找的很可能是一家飯店。

如何結(jié)合語(yǔ)言層信息和用戶意圖、狀態(tài)來(lái)做語(yǔ)義匹配呢?

我們的思路是在短文本外引入部分O2O業(yè)務(wù)場(chǎng)景特征,融合到所設(shè)計(jì)的深度學(xué)習(xí)語(yǔ)義匹配框架中,通過點(diǎn)擊/下單數(shù)據(jù)來(lái)指引語(yǔ)義匹配模型的優(yōu)化方向,最終把訓(xùn)練出的點(diǎn)擊相關(guān)性模型應(yīng)用到搜索相關(guān)業(yè)務(wù)中。下圖是針對(duì)美團(tuán)點(diǎn)評(píng)場(chǎng)景設(shè)計(jì)的點(diǎn)擊相似度框架ClickNet,是比較輕量級(jí)的模型,兼顧了效果和性能兩方面,能很好地推廣到線上應(yīng)用。

美團(tuán),深度學(xué)習(xí)

圖1 clicknet框架

表示層

對(duì)Query和商家名分別用語(yǔ)義和業(yè)務(wù)特征表示,其中語(yǔ)義特征是核心,通過DNN/CNN/RNN/LSTM/GRU方法得到短文本的整體向量表示,另外會(huì)引入業(yè)務(wù)相關(guān)特征,比如用戶或商家的相關(guān)信息,比如用戶和商家距離、商家評(píng)價(jià)等,最終結(jié)合起來(lái)往上傳。

學(xué)習(xí)層

通過多層全連接和非線性變化后,預(yù)測(cè)匹配得分,根據(jù)得分和Label來(lái)調(diào)整網(wǎng)絡(luò)以學(xué)習(xí)出Query和商家名的點(diǎn)擊匹配關(guān)系。

在該算法框架上要訓(xùn)練效果很好的語(yǔ)義模型,還需要根據(jù)場(chǎng)景做模型調(diào)優(yōu):首先,我們從訓(xùn)練語(yǔ)料做很多優(yōu)化,比如考慮樣本不均衡、樣本重要度、位置Bias等方面問題。其次,在模型參數(shù)調(diào)優(yōu)時(shí),考慮不同的優(yōu)化算法、網(wǎng)絡(luò)大小層次、超參數(shù)的調(diào)整等問題。經(jīng)過模型訓(xùn)練優(yōu)化,我們的語(yǔ)義匹配模型已經(jīng)在美團(tuán)點(diǎn)評(píng)平臺(tái)搜索、廣告、酒店、旅游等召回和排序系統(tǒng)中上線,有效提升了訪購(gòu)率/收入/點(diǎn)擊率等指標(biāo)。

小結(jié)

深度學(xué)習(xí)應(yīng)用在語(yǔ)義匹配上,需要針對(duì)業(yè)務(wù)場(chǎng)景設(shè)計(jì)合適的算法框架,此外,深度學(xué)習(xí)算法雖然減少了特征工程工作,但模型調(diào)優(yōu)上難度會(huì)增加,因此可以從框架設(shè)計(jì)、業(yè)務(wù)語(yǔ)料處理、模型參數(shù)調(diào)優(yōu)三方面綜合起來(lái)考慮,實(shí)現(xiàn)一個(gè)效果和性能兼優(yōu)的模型。

基于深度學(xué)習(xí)的圖像質(zhì)量排序

國(guó)內(nèi)外各大互聯(lián)網(wǎng)公司(比如騰訊、阿里和Yelp)的線上廣告業(yè)務(wù)都在關(guān)注展示什么樣的圖像能吸引更多點(diǎn)擊。在美團(tuán)點(diǎn)評(píng),商家的首圖是由商家或運(yùn)營(yíng)人工指定的,如何選擇首圖才能更好地吸引用戶呢?圖像質(zhì)量排序算法目標(biāo)就是做到自動(dòng)選擇更優(yōu)質(zhì)的首圖,以吸引用戶點(diǎn)擊。

傳統(tǒng)的圖像質(zhì)量排序方法主要從美學(xué)角度進(jìn)行質(zhì)量評(píng)價(jià),通過顏色統(tǒng)計(jì)、主體分布、構(gòu)圖等來(lái)分析圖片的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中,用戶對(duì)圖片質(zhì)量?jī)?yōu)劣的判斷主觀性很強(qiáng),難以形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。比如:

  • 有的用戶對(duì)清晰度或分辨率更敏感;
  • 有的用戶對(duì)色彩或構(gòu)圖更敏感;
  • 有的用戶偏愛有視覺沖擊力的內(nèi)容而非平淡無(wú)奇的環(huán)境圖。

因此我們使用深度學(xué)習(xí)方法,去挖掘圖片的哪些屬性會(huì)影響用戶的判斷,以及如何有效融合這些屬性對(duì)圖片進(jìn)行評(píng)價(jià)。

我們使用AlexNet去提取圖片的高層語(yǔ)義描述,學(xué)習(xí)美感、可記憶度、吸引度、品類等High Level特征,并補(bǔ)充人工設(shè)計(jì)的Low Level特征(比如色彩、銳度、對(duì)比度、角點(diǎn))。在獲得這些特征后,訓(xùn)練一個(gè)淺層神經(jīng)網(wǎng)絡(luò)對(duì)圖像整體打分。該框架(如圖2所示)的一個(gè)特點(diǎn)是聯(lián)合了深度學(xué)習(xí)特征與傳統(tǒng)特征,既引入高層語(yǔ)義又保留了低層通用描述,既包括全局特征又有局部特征。

美團(tuán),深度學(xué)習(xí)

圖2 圖像質(zhì)量排序技術(shù)框架

對(duì)于每個(gè)維度圖片屬性的學(xué)習(xí),都需要大量的標(biāo)簽數(shù)據(jù)來(lái)支撐,但完全通過人工標(biāo)記代價(jià)極大,因此我們借鑒了美團(tuán)點(diǎn)評(píng)的圖片來(lái)源和POI標(biāo)簽體系。關(guān)于吸引度屬性的學(xué)習(xí),我們選取了美團(tuán)Deal相冊(cè)中點(diǎn)擊率高的圖片(多數(shù)是攝影師通過單反相機(jī)拍攝)作為正例,而選取UGC相冊(cè)中點(diǎn)擊率低的圖片(多數(shù)是低端手機(jī)拍攝)作為負(fù)例。關(guān)于品類屬性的學(xué)習(xí),我們將美團(tuán)一級(jí)品類和常見二級(jí)品類作為圖片標(biāo)簽?;谏鲜鲑|(zhì)量排序模型,我們?yōu)閺V告POI挑選最合適的優(yōu)質(zhì)首圖進(jìn)行展示,起到吸引用戶點(diǎn)擊,提高業(yè)務(wù)指標(biāo)的目的。圖3給出了基于質(zhì)量排序的首圖優(yōu)選結(jié)果。

美團(tuán),深度學(xué)習(xí)

圖3 基于圖像質(zhì)量排序的首圖優(yōu)選

基于深度學(xué)習(xí)的OCR

為了提升用戶體驗(yàn),O2O產(chǎn)品對(duì)OCR技術(shù)的需求已滲透到上單、支付、配送和用戶評(píng)價(jià)等環(huán)節(jié)。OCR在美團(tuán)點(diǎn)評(píng)業(yè)務(wù)中主要起著兩方面作用。一方面是輔助錄入,比如在移動(dòng)支付環(huán)節(jié)通過對(duì)銀行卡卡號(hào)的拍照識(shí)別,以實(shí)現(xiàn)自動(dòng)綁卡,又如輔助BD錄入菜單中菜品信息。另一方面是審核校驗(yàn),比如在商家資質(zhì)審核環(huán)節(jié)對(duì)商家上傳的身份證、營(yíng)業(yè)執(zhí)照和餐飲許可證等證件照片進(jìn)行信息提取和核驗(yàn)以確保該商家的合法性,比如機(jī)器過濾商家上單和用戶評(píng)價(jià)環(huán)節(jié)產(chǎn)生的包含違禁詞的圖片。相比于傳統(tǒng)OCR場(chǎng)景(印刷體、掃描文檔),美團(tuán)的OCR場(chǎng)景主要是針對(duì)手機(jī)拍攝的照片進(jìn)行文字信息提取和識(shí)別,考慮到線下用戶的多樣性,因此主要面臨以下挑戰(zhàn):

  • 成像復(fù)雜:噪聲、模糊、光線變化、形變;
  • 文字復(fù)雜:字體、字號(hào)、色彩、磨損、筆畫寬度不固定、方向任意;
  • 背景復(fù)雜:版面缺失,背景干擾。

對(duì)于上述挑戰(zhàn),傳統(tǒng)的OCR解決方案存在著以下不足:

  1. 通過版面分析(二值化,連通域分析)來(lái)生成文本行,要求版面結(jié)構(gòu)有較強(qiáng)的規(guī)則性且前背景可分性強(qiáng)(例如文檔圖像、車牌),無(wú)法處理前背景復(fù)雜的隨意文字(例如場(chǎng)景文字、菜單、廣告文字等)。
  2. 通過人工設(shè)計(jì)邊緣方向特征(例如HOG)來(lái)訓(xùn)練字符識(shí)別模型,此類單一的特征在字體變化,模糊或背景干擾時(shí)泛化能力迅速下降。
  3. 過度依賴字符切分的結(jié)果,在字符扭曲、粘連、噪聲干擾的情況下,切分的錯(cuò)誤傳播尤其突出。

針對(duì)傳統(tǒng)OCR解決方案的不足,我們嘗試基于深度學(xué)習(xí)的OCR。

1. 基于Faster R-CNN和FCN的文字定位

首先,我們根據(jù)是否有先驗(yàn)信息將版面劃分為受控場(chǎng)景(例如身份證、營(yíng)業(yè)執(zhí)照、銀行卡)和非受控場(chǎng)景(例如菜單、門頭圖)。

對(duì)于受控場(chǎng)景,我們將文字定位轉(zhuǎn)換為對(duì)特定關(guān)鍵字目標(biāo)的檢測(cè)問題。主要利用Faster R-CNN進(jìn)行檢測(cè),如下圖所示。為了保證回歸框的定位精度同時(shí)提升運(yùn)算速度,我們對(duì)原有框架和訓(xùn)練方式進(jìn)行了微調(diào):

  • 考慮到關(guān)鍵字目標(biāo)的類內(nèi)變化有限,我們裁剪了ZF模型的網(wǎng)絡(luò)結(jié)構(gòu),將5層卷積減少到3層。
  • 訓(xùn)練過程中提高正樣本的重疊率閾值,并根據(jù)業(yè)務(wù)需求來(lái)適配RPN層Anchor的寬高比。

美團(tuán),深度學(xué)習(xí)

圖4 基于Faster R-CNN的受控場(chǎng)景文字定位

對(duì)于非受控場(chǎng)景,由于文字方向和筆畫寬度任意變化,目標(biāo)檢測(cè)中回歸框的定位粒度不夠,我們利用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò)(FCN)來(lái)進(jìn)行像素級(jí)別的文字/背景標(biāo)注,如下圖所示。為了同時(shí)保證定位的精度和語(yǔ)義的清晰,我們不僅在最后一層進(jìn)行反卷積,而且融合了深層Layer和淺層Layer的反卷積結(jié)果

美團(tuán),深度學(xué)習(xí)

圖5 基于FCN的非受控場(chǎng)景文字定位

2. 基于序列學(xué)習(xí)框架的文字識(shí)別

為了有效控制字符切分和識(shí)別后處理的錯(cuò)誤傳播效應(yīng),實(shí)現(xiàn)端到端文字識(shí)別的可訓(xùn)練性,我們采用如下圖所示的序列學(xué)習(xí)框架??蚣苷w分為三層:卷積層,遞歸層和翻譯層。其中卷積層提特征,遞歸層既學(xué)習(xí)特征序列中字符特征的先后關(guān)系,又學(xué)習(xí)字符的先后關(guān)系,翻譯層實(shí)現(xiàn)對(duì)時(shí)間序列分類結(jié)果的解碼。

美團(tuán),深度學(xué)習(xí)

圖6 基于序列學(xué)習(xí)的端到端識(shí)別框架

由于序列學(xué)習(xí)框架對(duì)訓(xùn)練樣本的數(shù)量和分布要求較高,我們采用了真實(shí)樣本+合成樣本的方式。真實(shí)樣本以美團(tuán)點(diǎn)評(píng)業(yè)務(wù)來(lái)源(例如菜單、身份證、營(yíng)業(yè)執(zhí)照)為主,合成樣本則考慮了字體、形變、模糊、噪聲、背景等因素?;谏鲜鲂蛄袑W(xué)習(xí)框架和訓(xùn)練數(shù)據(jù),在多種場(chǎng)景的文字識(shí)別上都有較大幅度的性能提升,如下圖所示。

美團(tuán),深度學(xué)習(xí)

圖7 深度學(xué)習(xí)OCR和傳統(tǒng)OCR的性能比較

總結(jié)

本文主要以深度學(xué)習(xí)在自然語(yǔ)言處理、圖像處理兩個(gè)領(lǐng)域的應(yīng)用為例進(jìn)行了介紹,但深度學(xué)習(xí)在美團(tuán)點(diǎn)評(píng)可能發(fā)揮的價(jià)值遠(yuǎn)遠(yuǎn)不限于此。未來(lái),我們將繼續(xù)在各個(gè)場(chǎng)景深入挖掘,比如在智能交互、配送調(diào)度、智能運(yùn)營(yíng)等,在美團(tuán)點(diǎn)評(píng)產(chǎn)品的智能化道路上貢獻(xiàn)一份力量。

作者簡(jiǎn)介

文竹,美團(tuán)點(diǎn)評(píng)美團(tuán)平臺(tái)與酒旅事業(yè)群智能技術(shù)中心負(fù)責(zé)人,2010年從清華碩士畢業(yè)后,加入百度,先后從事機(jī)器翻譯的研發(fā)及多個(gè)技術(shù)團(tuán)隊(duì)的管理工作。2015年4月加入美團(tuán),負(fù)責(zé)智能技術(shù)中心的管理工作,致力于推動(dòng)自然語(yǔ)言處理、圖像處理、機(jī)器學(xué)習(xí)、用戶畫像等技術(shù)在公司業(yè)務(wù)上的落地。

李彪,美團(tuán)點(diǎn)評(píng)美團(tuán)平臺(tái)及酒旅事業(yè)群NLP技術(shù)負(fù)責(zé)人,曾就職搜狗、百度。2015年加入美團(tuán)點(diǎn)評(píng),致力于NLP技術(shù)積累和業(yè)務(wù)的落地,負(fù)責(zé)的工作包括深度學(xué)習(xí)平臺(tái)和模型,文本分析在搜索、廣告、推薦等業(yè)務(wù)上應(yīng)用,智能客服和交互。

曉明,美團(tuán)點(diǎn)評(píng)平臺(tái)及酒旅事業(yè)群圖像技術(shù)負(fù)責(zé)人,曾就職于三星研究院。2015年加入美團(tuán)點(diǎn)評(píng),主要致力于圖像識(shí)別技術(shù)的積累和業(yè)務(wù)落地,作為技術(shù)負(fù)責(zé)人主導(dǎo)了圖像機(jī)審、首圖優(yōu)選和OCR等項(xiàng)目的上線,推進(jìn)了美團(tuán)產(chǎn)品的智能化體驗(yàn)和人力成本的節(jié)省。

責(zé)任編輯:張燕妮 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2017-08-01 09:37:00

深度學(xué)習(xí)美團(tuán)機(jī)器學(xué)習(xí)

2018-07-17 14:25:02

SQL解析美團(tuán)點(diǎn)評(píng)MySQL

2019-08-23 13:10:39

美團(tuán)點(diǎn)評(píng)Kubernetes集群管理

2018-10-29 15:50:23

深度學(xué)習(xí)工程實(shí)踐技術(shù)

2018-08-03 09:42:01

人工智能深度學(xué)習(xí)人臉識(shí)別

2017-11-20 11:23:12

MySQLMyFlash閃回工具

2018-10-19 14:16:09

Flink數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)系統(tǒng)

2015-10-08 10:09:16

2017-07-03 15:32:49

數(shù)據(jù)庫(kù)MySQL架構(gòu)

2015-11-03 11:03:08

騰訊美團(tuán)

2022-08-09 09:18:47

優(yōu)化實(shí)踐

2017-03-24 14:29:23

互聯(lián)網(wǎng)

2017-12-29 08:54:58

高可用數(shù)據(jù)庫(kù)架構(gòu)

2018-03-09 10:06:03

開源小程序前端

2022-03-17 21:42:20

美團(tuán)插件技術(shù)

2015-10-08 10:01:27

2018-04-04 09:30:23

美團(tuán)點(diǎn)評(píng)響應(yīng)式架構(gòu)

2015-11-03 16:23:24

美團(tuán)點(diǎn)評(píng)騰訊資本

2017-07-20 17:27:01

互聯(lián)網(wǎng)

2017-09-06 14:56:09

深度學(xué)習(xí)CTR應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)