自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何基于匹配預(yù)設(shè)句式,動(dòng)態(tài)提取用戶評(píng)價(jià)標(biāo)簽

開發(fā) 開發(fā)工具
網(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展使我們的消費(fèi)渠道早已不止于實(shí)體場(chǎng)景。來自于用戶的線上評(píng)價(jià),成為如今影響我們消費(fèi)行為決策的重要因素。

 網(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展使我們的消費(fèi)渠道早已不止于實(shí)體場(chǎng)景。來自于用戶的線上評(píng)價(jià),成為如今影響我們消費(fèi)行為決策的重要因素。

背景

在網(wǎng)上購(gòu)物時(shí),即使你已經(jīng)瀏覽了商家對(duì)于商品的描述,你還是不會(huì)立即決定購(gòu)買它,因?yàn)槟悴淮_定這些描述是否準(zhǔn)確。這時(shí)你會(huì)尋找其他購(gòu)買過此商品的用戶評(píng)論,這些評(píng)論可能才會(huì)最終說服你。

購(gòu)買旅行類產(chǎn)品也是一樣。每天都有大量用戶在馬蜂窩平臺(tái)用“評(píng)論”的方式,記錄和評(píng)價(jià)他們?cè)诼眯兄械母惺芎腕w驗(yàn)。而基于對(duì)評(píng)論內(nèi)容深度挖掘產(chǎn)生的標(biāo)簽,則用一種更為簡(jiǎn)潔、直觀的方式匯總評(píng)論信息中的重要內(nèi)容,展示給更多的用戶作為參考依據(jù)。

因此,如何在保證標(biāo)簽內(nèi)容準(zhǔn)確性的同時(shí),體現(xiàn)出更符合用戶語(yǔ)言習(xí)慣、讓用戶更容易理解的標(biāo)簽含義,對(duì)于提升用戶在馬蜂窩平臺(tái)的體驗(yàn),做出更符合自身需求的旅行決策,以及提升平臺(tái)轉(zhuǎn)化率、更好地監(jiān)管商家服務(wù)品質(zhì)等方面,都有很大價(jià)值。

從評(píng)價(jià)中提取標(biāo)簽的方式有很多,但在實(shí)際應(yīng)用中存在一些問題,比如:

1. 預(yù)設(shè)標(biāo)簽

做法:預(yù)先定義好一些固定標(biāo)簽,由用戶在發(fā)表點(diǎn)評(píng)時(shí)自主選擇。

不足:固定標(biāo)簽數(shù)量受限,無法覆蓋用戶全部需求,并且標(biāo)簽和用戶內(nèi)容可能不匹配。

2. 句法分析

做法:對(duì)用戶發(fā)布的點(diǎn)評(píng)內(nèi)容進(jìn)行解構(gòu),提取主題詞和描述詞組合后作為標(biāo)簽。

不足:在評(píng)價(jià)量非常大的時(shí)候,這種方法會(huì)產(chǎn)生大量標(biāo)簽,對(duì)計(jì)算性能要求高,并且維護(hù)不便。

3.多層級(jí)標(biāo)簽定義

做法:預(yù)先定義標(biāo)簽大類,在逐級(jí)細(xì)分,然后產(chǎn)生具體標(biāo)簽。

不足:產(chǎn)生大量維護(hù)工作。并且定義的層級(jí)靈活性欠佳,而且匹配的標(biāo)簽是關(guān)鍵詞加指標(biāo)詞,不能很好地表達(dá)用戶的言語(yǔ)習(xí)慣。

為了解決以上問題,馬蜂窩推薦和搜索研發(fā)團(tuán)隊(duì)提出了一種通過匹配預(yù)設(shè)句式的模式,靈活、動(dòng)態(tài)提取用戶評(píng)論標(biāo)簽的方式,將每個(gè)預(yù)設(shè)句式歸宿到固定標(biāo)簽分類,在分類顯示中動(dòng)態(tài)地采用最大數(shù)標(biāo)簽作為整個(gè)分類標(biāo)簽的顯示方式,極大減少了固定標(biāo)簽的數(shù)量,并且每個(gè)句式是任意的多個(gè)詞組聯(lián)合組成,使最終提取的標(biāo)簽內(nèi)容在更符合用戶語(yǔ)言習(xí)慣的同時(shí),更好地體現(xiàn)了不同評(píng)論內(nèi)容標(biāo)簽的個(gè)性化和差異化。

基于匹配預(yù)設(shè)句式模板動(dòng)態(tài)提取用戶評(píng)價(jià)標(biāo)簽

首先和大家解釋幾個(gè)關(guān)鍵的概念。

  • 標(biāo)簽:標(biāo)簽可以理解成對(duì)一個(gè)給定信息進(jìn)行的具體描述。比如“離望京地鐵站近”、“步行到大望路地鐵站 1 分鐘”等;
  • 句式:這里,我們可以先簡(jiǎn)單理解成是對(duì)同一類型標(biāo)簽的集合,可以理解成“評(píng)價(jià)方式”,比如上句關(guān)于標(biāo)簽的舉例,都是對(duì)“離地鐵站近”的評(píng)價(jià);
  • 標(biāo)簽類別:同樣,我們先簡(jiǎn)單理解成是對(duì)同一類句式,也就是一類“評(píng)價(jià)”的集合,比如上述句式包含在“交通方便”這類評(píng)價(jià)里。

三者關(guān)系可以描述為,一個(gè)標(biāo)簽類別包含了 m 個(gè)句式;一個(gè)句式會(huì)產(chǎn)生 n 個(gè)標(biāo)簽,所以一個(gè)標(biāo)簽類別最多會(huì)對(duì)應(yīng) m*n 個(gè)標(biāo)簽。

標(biāo)簽系統(tǒng)總體結(jié)構(gòu)

系統(tǒng)主要有兩部分內(nèi)容:標(biāo)簽句式的定義和自動(dòng)化的句式生成。今天主要介紹關(guān)于如何定義句式和產(chǎn)生標(biāo)簽。

 

圖1 - 標(biāo)簽系統(tǒng)結(jié)構(gòu)

具體做法和實(shí)施步驟

一、建立句式庫(kù)

顧名思義,句式庫(kù)是對(duì)所有預(yù)設(shè)句式的集合。接下來我們會(huì)具體講解如何定義句式和產(chǎn)生標(biāo)簽。

 

圖2 - 句式庫(kù)示意

1. 建立詞庫(kù)

詞庫(kù)是由詞組以及其包含的詞語(yǔ)組成的。每個(gè)詞組和詞語(yǔ)分別具有僅有標(biāo)識(shí);詞組是對(duì)其包含的詞語(yǔ)的概括和匯總;詞語(yǔ)為表示該詞組的近義詞、俗語(yǔ)、舶來詞、英語(yǔ)、縮寫等。例如:

  • 詞組:表示“班車”的名稱集合
  • 詞語(yǔ):班車,擺渡車,接泊車,shuttlebus 等是詞組中的詞語(yǔ)

詞組也可以表示一類描述信息,比如:

  • 詞組:表示“距離近”的集合
  • 詞語(yǔ):近,不遠(yuǎn),很近,走路 1 分鐘等

 

圖3 - 詞庫(kù)示意

 

圖4 - 詞組示意

另外還會(huì)建立排除詞庫(kù)。排除詞庫(kù)中,以后不對(duì)這些詞進(jìn)行處理,排除詞庫(kù)大部分是無具體意義詞,比如“我們”,“他們”之類的代詞、“呀”“耶”“哦”之類的語(yǔ)氣助詞,“之后”“然后”“所以”這樣沒有轉(zhuǎn)折意義的連詞等等。

2.對(duì)句式分類,得到標(biāo)簽類別

標(biāo)簽類別為用戶點(diǎn)評(píng)信息的概括和歸類,將同一類型的句式歸類為一個(gè)標(biāo)簽類別,每個(gè)標(biāo)簽類別代表了一類相近評(píng)價(jià)內(nèi)容。

比如“服務(wù)好”類,代表所有描述服務(wù)好的評(píng)價(jià)信息,該標(biāo)簽類別由多個(gè)句式組成,例如“{老板}{熱情}”,“{前臺(tái)}{專業(yè)}”,表示的都是關(guān)于酒店和民宿服務(wù)這一類評(píng)價(jià)的句式,則這些句式產(chǎn)生的標(biāo)簽都會(huì)歸屬到相同的類型上,但不同業(yè)務(wù)的 UGC 產(chǎn)生的具體標(biāo)簽會(huì)各具特色。

圖5 - 句式分類示意

3.基于詞組進(jìn)行句式組合

每個(gè)句式表示一種邏輯語(yǔ)義,通過詞組之間的組合定義句式,表達(dá)不同內(nèi)容,并具有僅有的一個(gè)標(biāo)識(shí)。

每個(gè)句式的詞組中用具體的詞語(yǔ)組合得到的結(jié)果定義為其產(chǎn)生的標(biāo)簽,如“距離牡丹園地鐵站近”“離牡丹園地鐵站很近”等均為{離}{地鐵站}{近}句式產(chǎn)生的標(biāo)簽。

參與句式組合的詞組分為四類,分別是普通詞組、獨(dú)立詞組、POI、固定文字。構(gòu)建句式時(shí),并列關(guān)系的詞組之間用 OR 表示,可減少句式的定義數(shù)量。例如:

  • 句式:{提供}[{地鐵站}OR{碼頭}OR{公交站}OR{火車站}OR{機(jī)場(chǎng)}OR{市中心}]{班車}
  • 普通詞組:“提供”、“班車”
  • 獨(dú)立詞組:當(dāng)匹配到該句式的獨(dú)立性詞組時(shí),均需要單獨(dú)顯示,突出標(biāo)簽的特色性。即“地鐵站”“碼頭”等。

當(dāng)匹配到“提供-地鐵站-班車”以及“提供-碼頭-班車”時(shí),其表示的是不同含義或者特別含義,雖然都在提供班車同一個(gè)標(biāo)簽分類下,但需要單獨(dú)顯示。同理匹配到POI(感興趣點(diǎn),為目的地下的一些景點(diǎn)、地點(diǎn)等,如故宮、泰山、火車站、公交站、醫(yī)院等)中的任意一條記錄,則該標(biāo)簽均需要單獨(dú)顯示。

二.句式匹配,生成標(biāo)簽

1. 生成標(biāo)簽

從 UGC 內(nèi)容中提取一條評(píng)價(jià)文本,按照常用標(biāo)點(diǎn)符號(hào)加用戶常用符號(hào)為拆分依據(jù),得到若干子句。

 

圖6 - UGC 評(píng)價(jià)原文

1). 依次匹配

標(biāo)簽類別庫(kù)中的每個(gè)句式從一個(gè)詞組開始,用詞組中的每個(gè)詞語(yǔ)按長(zhǎng)度排序后依次與子句進(jìn)行匹配。

如果某一個(gè)句式中的詞語(yǔ)與子句中的相匹配,則記錄該詞語(yǔ)及這個(gè)詞語(yǔ)在子句中的位置,之后按句式的詞組順序,繼續(xù)匹配下一個(gè)詞組中的詞語(yǔ),且匹配的開始位置是上次匹配詞語(yǔ)的結(jié)束位置的后一位,繼續(xù)逐個(gè)匹配詞組中的詞語(yǔ)信息,依此類推,不斷循環(huán)這個(gè)過程,直到這個(gè)句式的每個(gè)詞組中的一個(gè)詞語(yǔ)匹配成功,則記錄的每個(gè)詞組中的匹配詞語(yǔ)組合就是這個(gè)句式匹配的標(biāo)簽。

比如句式{服務(wù)}{好},前面一個(gè)詞語(yǔ) {服務(wù)}匹配到的詞語(yǔ)是詞組中的“酒店服務(wù)”,第二個(gè)詞組{好}匹配到的詞語(yǔ)是“不錯(cuò)”,則生成標(biāo)簽“酒店服務(wù)不錯(cuò)”。在另外一個(gè)子句中可能匹配到的標(biāo)簽是“酒店服務(wù)好”。雖然他們表現(xiàn)形式為不同的標(biāo)簽,但都是由一個(gè)句式產(chǎn)生的同一類型的標(biāo)簽。

2). 順序匹配

比如“機(jī)場(chǎng)有班車去酒店”,和“酒店有班車去機(jī)場(chǎng)”雖然包含的漢字完全一樣,但表達(dá)的卻是不同含義。

3). 詞距閾值

在匹配的過程中,如果相鄰兩個(gè)詞組距離大于一定的閾值,則認(rèn)為不匹配。

例如句式是“{房間}{大}”,評(píng)價(jià)子句是“酒店房間里有一幅畫著藍(lán)天和大海的油畫”。如果沒有詞距的判斷,則該評(píng)價(jià)子句將匹配到“{房間}{大}”的參考句式,但是該評(píng)價(jià)子句的意思與“房間大”這一標(biāo)簽表達(dá)的意思明顯不同。假設(shè)將第二預(yù)定閾值設(shè)置為三個(gè)字的詞距,評(píng)價(jià)子句中“房間”與“大”之間的詞距超過了三個(gè)字,就可以判斷參考句式與評(píng)價(jià)子句不相匹配,避免了錯(cuò)誤匹配。

由于句式中的詞語(yǔ)之間可能有一定的位置相關(guān)性,通過判斷匹配詞之間的距離是否符合閾值,剔除那些子句中成功匹配到的詞語(yǔ)但是并不表示符合句式含義的內(nèi)容。

4).一“否”即否

當(dāng)一個(gè)句式匹配到一個(gè)標(biāo)簽時(shí),則判斷該句子和句式是否存在否定關(guān)系,如果有則認(rèn)為不匹配。比如飯菜不好吃,則匹配不到{包含飯菜的詞組}{包含好吃的詞組}這樣的句式上。

正確匹配之后,記錄這個(gè)子句和標(biāo)簽的對(duì)應(yīng)關(guān)系,并找到該句式在標(biāo)簽類別庫(kù)中對(duì)應(yīng)的標(biāo)簽類別號(hào),建立被匹配的子句與所屬的標(biāo)簽類別之間的關(guān)系。如果子句沒有成功匹配到對(duì)應(yīng)的句式,則保存到未匹配的子句存儲(chǔ)中,之后用來繼續(xù)挖掘可用標(biāo)簽信息。

關(guān)于匹配方式這里,有一些經(jīng)驗(yàn)和大家分享:

對(duì)于容易混淆的詞語(yǔ),應(yīng)首先建立好一個(gè)混淆詞語(yǔ)庫(kù),比如“好”這個(gè)詞語(yǔ),對(duì)應(yīng)的混淆庫(kù)的詞語(yǔ)有“好像”,“好似”等等。在匹配到一個(gè)詞語(yǔ)時(shí)發(fā)現(xiàn)它是易混淆詞,則查看該詞語(yǔ)對(duì)應(yīng)的混淆詞是否在這個(gè)詞語(yǔ)的位置上,如果成立則認(rèn)為不匹配,比如飯菜好像是之前的。則匹配不到{包含飯菜的詞組}{包含好吃的詞組}這樣的句式上。

對(duì)于一些繁體字的點(diǎn)評(píng)先轉(zhuǎn)成簡(jiǎn)體漢字,之后進(jìn)行匹配。

之前,我們對(duì)一些其他匹配方式也進(jìn)行了調(diào)研。比如子句先分詞,之后用每個(gè)詞去發(fā)現(xiàn)句式中的詞語(yǔ)是否存在,這樣的效率是比較高,因?yàn)橛霉7绞讲檎摇?/p>

但這樣要依賴分詞的準(zhǔn)確性,也無法滿足用戶個(gè)性化的需求,尤其在評(píng)價(jià)語(yǔ)句中,有大量的不符合語(yǔ)法的,口語(yǔ)化的表達(dá)和網(wǎng)絡(luò)詞語(yǔ)使用,所以分詞很難做到非常準(zhǔn)確,得到的標(biāo)簽匹配效果也不理想。

 

圖7 - 產(chǎn)生的標(biāo)簽

2. 確定顯示標(biāo)簽

在不同的目標(biāo)下,會(huì)有不同評(píng)價(jià)方式,展示出來的標(biāo)簽也應(yīng)該體現(xiàn)出相應(yīng)的個(gè)性化和差異化。我們根據(jù)該目標(biāo)所有評(píng)論對(duì)應(yīng)的標(biāo)簽類別號(hào),統(tǒng)計(jì)每個(gè)標(biāo)簽類別中所有句式產(chǎn)生的標(biāo)簽出現(xiàn)頻次,將出現(xiàn)頻次最高的標(biāo)簽作為該標(biāo)簽類別的顯示名稱。

例如標(biāo)簽類別“性價(jià)比好”有三個(gè)句式{性價(jià)比}{很好},{性價(jià)比}{高},{價(jià)格}{便宜},在某個(gè)目標(biāo)下的評(píng)價(jià)統(tǒng)計(jì)中標(biāo)簽“性價(jià)比不錯(cuò)”“性價(jià)比高”“價(jià)格實(shí)惠”分別出現(xiàn)了 5 次,10 次,7 次,那么關(guān)于這個(gè)標(biāo)簽類別顯示的標(biāo)簽為“性價(jià)比高”。

這里有一種特殊情況:如果在同一個(gè)標(biāo)簽類別下一個(gè)句式定義中,有需要獨(dú)立顯示的標(biāo)簽,則該句式產(chǎn)生的標(biāo)簽不會(huì)和其他句式標(biāo)簽合并,而是獨(dú)立顯示該句式中頻次相對(duì)較高的標(biāo)簽。

比如句式{提供}{去}[{火車站}OR{飛機(jī)場(chǎng)}]{班車},其中設(shè)定{火車站}和{飛機(jī)場(chǎng)}是需要獨(dú)立顯示的標(biāo)簽,則后面兩個(gè)詞語(yǔ)對(duì)應(yīng)產(chǎn)生的頻次相對(duì)較高的標(biāo)簽的結(jié)果是“提供去車站班車”和“提供到機(jī)場(chǎng)的班車”,這兩個(gè)標(biāo)簽不會(huì)和該類別(提供班車)下的其他頻次相對(duì)較高標(biāo)簽合并,比如“去車站方便”,而是作為兩個(gè)標(biāo)簽獨(dú)立顯示。

再如,標(biāo)簽類別“位置好”中包含了兩個(gè)句式,{離}{POI}{近}和{POI}{步行}{3}{分鐘},因?yàn)镻OI是被設(shè)定需要獨(dú)立顯示的類別,若產(chǎn)生的標(biāo)簽“離故宮近”的頻次為 10,“離景山近”的頻次是 15,“故宮步行 3 分鐘”的頻次是 17,則在“位置好”標(biāo)簽類別下,分別顯示標(biāo)簽“故宮步行 3 分鐘”和“離景山近”。

3. 對(duì)未匹配子句分詞處理

對(duì)于未被匹配的子句進(jìn)行自動(dòng)產(chǎn)生句式處理,使用內(nèi)容分類,句法分析,依存分析,詞義分析等方法自動(dòng)產(chǎn)生標(biāo)簽分類和每個(gè)分類下的句式,用戶可以對(duì)這些標(biāo)簽句式審核和調(diào)整。并可對(duì)已有詞組推薦近義詞等,豐富詞組的詞語(yǔ)數(shù)量。

4.定位子句

因?yàn)橹耙呀?jīng)保存了標(biāo)簽和被匹配子句之間的關(guān)系,當(dāng)點(diǎn)擊標(biāo)簽時(shí),會(huì)高亮顯示對(duì)應(yīng)的子句。

小結(jié)

本文介紹的關(guān)于預(yù)設(shè)句式模板定義,通過靈活的詞組的組合方式,可以動(dòng)態(tài)的匹配大量標(biāo)簽,很好的解決了標(biāo)簽定義量大的問題。

由于句式的定義符合用戶對(duì)目標(biāo)的評(píng)價(jià)習(xí)慣,所以能覆蓋更多的用戶點(diǎn)評(píng),提高了召回率,且模板產(chǎn)生的標(biāo)簽更符合評(píng)價(jià)語(yǔ)言的表達(dá)方式。

【本文是51CTO專欄作者馬蜂窩技術(shù)的原創(chuàng)文章,作者微信公眾號(hào)馬蜂窩技術(shù)(ID:mfwtech)】

 

戳這里,看該作者更多好文

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2021-07-06 23:48:45

.NET用戶信息

2022-11-24 13:57:28

2013-10-21 10:53:34

虛擬化產(chǎn)品

2020-11-05 16:50:41

CPU性能標(biāo)準(zhǔn)

2024-02-06 08:18:30

用戶畫像標(biāo)簽數(shù)字化異常值處理

2023-07-18 12:50:48

C 語(yǔ)言用戶輸入

2016-03-16 10:22:28

Spark用戶畫像數(shù)據(jù)科學(xué)

2009-12-15 14:44:24

Visual Stud

2019-02-24 22:37:00

2024-04-06 15:27:56

2024-06-20 12:17:17

前端Vue3

2024-07-01 08:40:18

tokio派生線程

2021-03-10 10:20:50

大數(shù)據(jù)學(xué)生評(píng)價(jià)人工智能

2019-11-23 23:25:07

算法好壞數(shù)據(jù)

2015-08-06 13:17:23

2011-04-07 11:29:30

軟件項(xiàng)目項(xiàng)目需求

2016-11-08 09:29:11

數(shù)據(jù)構(gòu)建用戶模型

2010-03-18 12:57:46

python(V1.0

2016-04-26 10:43:05

數(shù)據(jù)分析用戶行為模型

2022-06-02 15:17:17

iOS隱私蘋果
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)