自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

垂直領域的概念標簽建設技術實踐

原創(chuàng) 精選
開發(fā) 架構
本文介紹并實踐了概念標簽的挖掘的通用方法和技術方案,總共有基于模式匹配的無監(jiān)督方法,基于AutoPhase框架的半監(jiān)督方法、基于NER的有監(jiān)督方法,并闡述了三個方法之間的關系和實際效果。

目的

概念(Concept)蘊含著世界知識,指導著人類認知的發(fā)展,具有抽象性,概括性等特點。

標簽的挖掘和標簽體系建設也是一個重要的研究問題,尤其是針對UGC/PGC文檔的處理更為實用和重要。但是目前的工作主要集中在綜合領域的文檔中的概念提取,垂直領域的概念標簽挖掘的工作相對較少。

另外從推薦系統(tǒng)使用概念標簽角度來說,要求概念標簽必須要和用戶興趣及用戶認知相匹配,所以直接從文章或者百科中抽取普通、粒度粗、表層的概念,會和用戶認知和興趣相抵觸,不利于在推薦系統(tǒng)中的應用。舉個例子:別克GL8是個“mpv”(一個普通的概念),用戶更感興趣的可能是,“省油的mpv”或者“進口mpv”。另外針對垂直領域的特點,只是簡單抽取表層的概念,也會和用戶的認知相悖。舉個例子:豐田普拉多是個“越野車”(是個表層的概念),用戶在專業(yè)汽車領域的APP里面感興趣的更可能是,“適合山路越野的suv”或“硬派suv”,這樣深層或者專業(yè)的概念。

從UGC/PGC等物料中挖掘概念標簽并構建標簽體系是內(nèi)容理解的一個重要工作。如下圖所示,一般來說內(nèi)容理解可以按照抽象的程度劃分為業(yè)務層、抽象層、細粒度層,每個層次都會產(chǎn)出一些語義結果。分類和主題直接和業(yè)務側強耦合,細粒度層則顯得語義跨度更加大同時也更加分散,概念標簽、話題、需求則處于兩層之間,構成了抽象層。

圖片

在推薦中,標簽(Tag)被定義為能夠代表文章語義的最重要的詞或短語,相比于分類和主題,是更細粒度的語義。標簽可以認為是推薦系統(tǒng)的“血液”,作用于推薦系統(tǒng)各個環(huán)節(jié),多樣性打散,畫像維度、排序模型特征、召回模型特征等。

介于篇幅原因,本篇文章主要介紹概念標簽挖掘相關的工作,闡述期間遇到的問題和解決方案。概念標簽的文檔打標模型則留待下一篇再做介紹。

候選概念標簽挖掘

這部分會闡述候選概念標簽挖掘的三種方法,以及遇到的問題和解決方案。

為了使挖掘出的概念標簽符合用戶認知和興趣點,我們選擇從query日志中挖掘候選的概念。其中挖掘方法包括一種無監(jiān)督策略,半監(jiān)督方法,另外也嘗試了有監(jiān)督的方法。

先舉一些例子,展示我們從query中挖掘出來的概念。

圖片

再看下候選概念挖掘的整體框架

圖片

1、基于模式匹配的無監(jiān)督挖掘方法

這種方法主要是針對query,目標是從query中抽取符合模式的概念。這樣做的好處有兩個

a)因為是用戶輸入的query,所以抽取的概念詞或短語更符合用戶認知。

b)可以根據(jù)query的頻次和點擊率,篩選出用戶感興趣的詞,并界定概念標簽的粒度。

舉個例子,“適合山路越野的車”這個概念可以進行縮放得到上下位詞。它的上位詞可以是"越野車",下位詞可以是“山路越野suv”。假如“適合山路越野的車”這個概念相比于其他兩個概念頻次更高,那么我們認為這個概念的粒度更符合用戶的興趣點和認知。

如流程圖的最左邊所示,這種方法首先基于預定義的patterns抽取concepts。比如“最XXX的車”,“適合XXX的車”。可以通過這個模式抽取出一些概念,比如“最便宜實惠的車”中的“便宜實惠的車”,“適合露營的小車”中的“適合露營的車”。

但是預定義的patterns畢竟是有限的,我們還需要基于已有的concepts發(fā)現(xiàn)新的patterns。這里面可以分為兩種方法:

第一種方法是基于機器的方法去發(fā)現(xiàn)新patterns。

首先我們根據(jù)已經(jīng)挖掘到的概念“便宜實惠的車”和“適合露營的車”,來找出來所有包括這些概念的query,

然后從這些query里面找到新的pattern。比如“便宜實惠的車”可以匹配到“比亞迪有便宜實惠的車嗎”可以找到“有XXX的車”這樣的新pattern。然后通過新的pattern匹配得到新的concept。

這里面有個關鍵點是如何評估新pattern是否可用,既要保證pattern具有一定的泛化性,否則匹配到極少的query沒有意義;又要保證pattern不會太寬泛,導致匹配的query過多。舉個例子比如說“xx車”就是一個過于寬泛的模式,在語料中能匹配到20%的query。在實踐中,對于新模式P,會計算P匹配到的query的覆蓋率a,當a處于某個區(qū)間時,才會將P加入到模式庫中。

第二種方法是基于品牌和車型去發(fā)現(xiàn)新patterns。

首先我們找出所有包含品牌和車型的query,

然后將品牌和車型進行mask,

最后將mask字符替換后從剩余的query中抽取concepts。舉個例子,如下圖所示我們使用這種方法可以得到概念“夜晚氛圍燈”和“改裝航空座椅”。

圖片

最終該方法從最近一段時間的query中獲取到若干個concept,經(jīng)過人工評估之后,顯示此種方法的concept的挖掘準確率還是不錯的。

2、基于AutoPhase的半監(jiān)督挖掘方法

基于模式匹配的方法的優(yōu)點是準確率較高,符合用戶認知和興趣,比較容易界定concept的粒度問題。但是缺點也很明顯,依賴人工校準pattern,產(chǎn)出的concept不夠多,并且由于用戶輸入會導致抽取的concept存在語序顛倒,過于口語化等問題。鑒于此,我們使用了AutoPhase的方法從點擊率和曝光率較高的文章Title中抽取concept。

AutoPhase是韓家煒團隊提出的自動短語抽取框架。該框架獨立于領域,只需要很少的人力或者語言分析,并包含了一種遠程短語質(zhì)量估計訓練方法,提高了短語抽取的質(zhì)量。

AutoPhase方法的整體流程

圖片

如上圖所示,AutoPhase根據(jù)遠程監(jiān)督的方式抽取phrase candidates。根據(jù)wiki的詞條和文檔篩選出適合做短語的正例作為Positive Pool和不適合做短語的負例作為Noisy Negative Pool。由于正例是wiki詞條,所以比較準確,而Negative Pool中則存在噪音,所以文中提到使用集成學習的方式降低噪音。

圖片

具體實現(xiàn)方式是,構建多組基本的分類器,分別從Positive Pool和Negative Pool中隨機抽取出K個candidates。為了盡可能低的降低訓練誤差的基礎分類器,構建一棵未進行剪枝的決策樹的方式,當在perturbed training set中沒有兩個positive和negative phrase共享相同的特征值時,我們認為此時的決策樹可以達到100%的訓練準確率。最后通過ranking的方式輸出排序的結果。

可以看下AutoPhase方法抽取的concept。

圖片

AutoPhase原始方法是使用wiki語料構建正負例,在這里我們改成方法1中得到的concept作為正例添加到Positive Pool,把包含concept的文章經(jīng)過分詞和POSTag處理后的token序列隨機選擇之后,作為負例添加到Negative Pool中。

最后,AutoPhase的結果雖然是可用的短語,但可能不適合作為concept。比如“高冷女神”,“比亞迪汽車”。

首先我們使用一些規(guī)則可以排除,比如檢測是否包含品牌車系,首尾詞的詞性,短語長度,分詞后包含token個數(shù)等等。

其次我們使用語義的方法,對于抽取的短語P,可以利用語義相似性得到相關的query,然后根據(jù)query的頻次進行篩選。

最終我們利用AutoPhase框架從最近一段時間的高點擊率文章title中抽取了大量的multi短語,利用上述方法經(jīng)過篩選,最后得到concept(不包含方法1產(chǎn)生的concept),經(jīng)過人工評估之后,此種方法的concept的可用率比較高。

3、基于NER有監(jiān)督的方法的嘗試

上述兩個方法優(yōu)點很明顯,只需要少量人工,不依賴大量的標注數(shù)據(jù)。但是缺點也比較明顯,準確率較低,產(chǎn)生的結果不能直接作為concept,需要規(guī)則過濾。所以如果我們考慮使用端到端的模型抽取concept。

我們的思路是利用NER的方法去抽取concept。采用BIO標簽體系,為concept所在的token預測BIO標簽。我們主要在幾個方面做了微創(chuàng)新。

一個方面是監(jiān)督數(shù)據(jù)的構造。NER模型訓練數(shù)據(jù)如果用人工來標注,成本很高,也比較耗費時間,所以我們監(jiān)督數(shù)據(jù)來源是前兩種挖掘方法的結果,訓練數(shù)據(jù)構造如下:

圖片

首先我們挖掘的有concept和query的映射關系,以及query和title的點擊數(shù)據(jù)。這樣我們就得到了concept和title的對應關系,所以在構造數(shù)據(jù)時把concept對應的token當做實體,標記為B標簽和I標簽,其他詞作為標記為O。

在模型訓練方面,我們采用經(jīng)典的預訓練模型Bert-CRF做finetune,模型結構如下:

圖片

這里面有個trick,需要為bert和crf兩層設置不同的學習率,讓crf層充分學習到標簽的概念分布,如果設置相同的學習率,會減弱crf層矯正標簽的作用。

最終這種方法的標簽產(chǎn)出率相比上述無監(jiān)督和半監(jiān)督方法稍高,準確率也有所提升。

4、標簽重復問題

在整理標簽庫和標注打標訓練數(shù)據(jù)時,我們發(fā)現(xiàn)了這個問題。這個問題會有兩個表現(xiàn)。

a)同一個概念有兩個不同的tag,比如“好看的車”和“顏值高的車”

b)兩個概念之間有isA的關系,比如“適合長途的車”和“適合高速跑長途的車”。

這個其實屬于標簽庫整理的問題,標簽重復不僅會造成標簽庫冗余,還會造成后面打標時指標計算不準的問題。所以必須解決標簽重復問題。

首先分析問題的來源,一個原因是由于我們的抽取語料來自于query,這就導致同一個概念不同的用戶會有不同的表達方式。另外一個原因是由于我們在抽取的時候只判斷候選concept是否準確,而忽略了和其他concept的關系。

針對這個問題,我們采用了兩種解決方法。

圖片

解決方法一:利用編輯距離和同義詞,篩選出來包含同義詞或者詞序不同的concept pair。比如“內(nèi)飾色是白色的車”和“白內(nèi)飾的車”可以計算編輯距離。“適合家庭自駕游的車”和“適合全家自駕游的車”可以利用word embedding計算相似度。

解決方法二:利用句子的語義相似性,篩選出來語義相似的concept pair。比如“適合個子小女孩子的車”和“適合矮個子女孩子的車”,利用simbert模型計算句子的語義相似度。

經(jīng)過篩選,最終我們得到?jīng)]有重復的概念標簽。

總結

本文介紹并實踐了概念標簽的挖掘的通用方法和技術方案,總共有基于模式匹配的無監(jiān)督方法,基于AutoPhase框架的半監(jiān)督方法、基于NER的有監(jiān)督方法,并闡述了三個方法之間的關系和實際效果。另外針對垂直領域的特點介紹了所做的優(yōu)化,也對標簽重復等實際問題介紹了解決方案。下期主要介紹下概念標簽打標的相關方法。

責任編輯:龐桂玉 來源: 之家技術
相關推薦

2023-09-27 07:32:30

標簽體系大數(shù)據(jù)

2022-08-14 14:41:57

系統(tǒng)建設實踐

2023-11-01 07:01:45

2023-07-26 08:00:00

DDD架構微服務

2022-09-19 08:47:44

CIOTCSROI

2023-04-04 13:38:30

DataLeap數(shù)據(jù)血緣

2017-06-19 09:58:56

在線 培訓

2024-10-21 08:43:16

2025-01-14 08:59:16

2009-12-29 15:24:09

VPN網(wǎng)絡建設

2022-09-29 15:29:08

物聯(lián)網(wǎng)AR機器

2018-03-14 08:10:44

深度學習

2024-09-24 19:27:40

數(shù)據(jù)倉庫數(shù)據(jù)飛輪數(shù)據(jù)中臺

2024-10-18 12:13:55

數(shù)據(jù)飛輪數(shù)據(jù)中臺

2022-09-28 14:49:22

物聯(lián)網(wǎng)AR增強現(xiàn)實

2018-12-24 11:13:32

WOT2018AI人工智能

2022-09-28 10:15:26

物聯(lián)網(wǎng)AR

2016-10-24 13:45:18

點贊
收藏

51CTO技術棧公眾號