為電商而生的知識(shí)圖譜,如何感應(yīng)用戶需求?
1、背景
電商認(rèn)知圖譜從17年6月啟動(dòng)以來(lái),通過(guò)不斷從實(shí)踐到體系化的摸索,逐漸形成了一套較為完善的電商數(shù)據(jù)認(rèn)知體系。
在當(dāng)前集團(tuán)不斷拓展業(yè)務(wù)邊界的背景下,數(shù)據(jù)互聯(lián)的需求越來(lái)越強(qiáng)烈,因?yàn)檫@是跨領(lǐng)域的搜索發(fā)現(xiàn)、導(dǎo)購(gòu)和交互的基礎(chǔ),也是真正能讓用戶“逛起來(lái)”要具備的基礎(chǔ)條件。但在此之前,我們需要對(duì)當(dāng)前的問題做一個(gè)分析。
1.1問題
更復(fù)雜的數(shù)據(jù)應(yīng)用場(chǎng)景不僅是傳統(tǒng)的電商,現(xiàn)在我們面臨的是新零售、多語(yǔ)言、線上線下結(jié)合的復(fù)雜購(gòu)物場(chǎng)景,所用到的數(shù)據(jù)也往往超出了以往的文本范圍,這些數(shù)據(jù)往往都具有一些特點(diǎn):
非結(jié)構(gòu)化互聯(lián)網(wǎng)的大量數(shù)據(jù)都是分散在各個(gè)來(lái)源而且基本是非結(jié)構(gòu)化文本方式來(lái)表示,目前的類目體系從商品管理角度出發(fā),做了長(zhǎng)期而大量的工作,仍然只是覆蓋了大量數(shù)據(jù)的冰山一角,這對(duì)于認(rèn)知真正的用戶需求當(dāng)然是遠(yuǎn)遠(yuǎn)不夠的。
充滿噪聲:不同于傳統(tǒng)的文本分析,目前集團(tuán)內(nèi)的數(shù)據(jù)大部分是query、title、評(píng)論、攻略等,這些數(shù)據(jù)由于用戶習(xí)慣和商家訴求,會(huì)存在非常不同于普通文本的語(yǔ)法結(jié)構(gòu),也會(huì)由于利益原因存在大量噪聲和臟數(shù)據(jù),這也為真正發(fā)現(xiàn)用戶需求并結(jié)構(gòu)化帶來(lái)了極大的困難。
多模態(tài)、多源:隨著集團(tuán)的業(yè)務(wù)擴(kuò)展,目前的搜索推薦不僅容納了商品中的文本信息、大量視頻、圖片也作為內(nèi)容被使用、如何融合各個(gè)來(lái)源的數(shù)據(jù)、如何在關(guān)聯(lián)多模態(tài)數(shù)據(jù)也是數(shù)據(jù)建設(shè)的一個(gè)難點(diǎn)。
數(shù)據(jù)分散,無(wú)法互聯(lián):從目前的商品體系建設(shè)來(lái)說(shuō),各個(gè)部門由于業(yè)務(wù)快速發(fā)展,往往需要維護(hù)自己的一套cpv體系,這也是后期做商品管理和搜索的非常關(guān)鍵的一環(huán),但是由于應(yīng)用場(chǎng)景的行業(yè)屬性不一樣,比如閑魚的"包配飾"由于業(yè)務(wù)場(chǎng)景高頻會(huì)是一個(gè)需要再細(xì)分的類目,但在淘系由于交易搜索低頻,"鞋包配飾"僅僅是二手閑置下的一個(gè)小類目,這造成各個(gè)部門需要費(fèi)力地維護(hù)在自己的cpv體系上的查詢和搜索,每次都要重建自己的類目體系,重新支持存儲(chǔ)查詢,重新關(guān)聯(lián)商品,重新做類目預(yù)測(cè)等。如何建設(shè)一個(gè)比較通用的面向應(yīng)用的概念體系,支持根據(jù)業(yè)務(wù)需求提供查詢服務(wù),已經(jīng)迫在眉睫。
缺少數(shù)據(jù)的深度認(rèn)知:數(shù)據(jù)的深度認(rèn)知不是認(rèn)知商品,而是認(rèn)知用戶需求之間的關(guān)聯(lián),如何能在用戶搜索"葉酸”的時(shí)候認(rèn)知到她有備孕需求,如何能在用戶大量點(diǎn)擊燒烤調(diào)料和工具的時(shí)候認(rèn)知到他需要進(jìn)行野外燒烤,是目前全集團(tuán)都缺少的。
1.2需求分析
通過(guò)如下的背景介紹,我們可以明確到,為了構(gòu)建一個(gè)全局統(tǒng)一的知識(shí)表示和查詢框架,我們需要如下的關(guān)鍵工作。
復(fù)雜場(chǎng)景的數(shù)據(jù)結(jié)構(gòu)化:在復(fù)雜的場(chǎng)景下,我們首先要做的是數(shù)據(jù)清洗,通過(guò)頻次過(guò)濾、規(guī)則和統(tǒng)計(jì)分析把臟數(shù)據(jù)去掉,然后通過(guò)短語(yǔ)挖掘,信息抽取等方法把高可用的數(shù)據(jù)抓取出來(lái),進(jìn)行數(shù)據(jù)的結(jié)構(gòu)化和層次劃分。
分散數(shù)據(jù)的統(tǒng)一表示框架:對(duì)于管理分散數(shù)據(jù),我們首先是需要定義一個(gè)全局的schema表示和存儲(chǔ)方法,然后基于schema進(jìn)行概念數(shù)據(jù)的融合,屬性的挖掘和發(fā)現(xiàn),在數(shù)據(jù)關(guān)聯(lián)上有可能要通過(guò)各種表示學(xué)習(xí)的方法來(lái)完成。
數(shù)據(jù)深度認(rèn)知:深度認(rèn)知包含兩個(gè)方面,一個(gè)是數(shù)據(jù)本身的認(rèn)知,一個(gè)是數(shù)據(jù)關(guān)聯(lián)的認(rèn)知,通過(guò)行為和商品本身的信息我們可以認(rèn)知到用戶購(gòu)買商品的意圖,通過(guò)外部數(shù)據(jù)的輸入和摘要我們會(huì)得到常識(shí)類和商品體系之外的用戶需求的關(guān)聯(lián)。
1.3電商認(rèn)知圖譜
為了解決上面的問題,我們提出了電商認(rèn)知圖譜(E-commerceConceptNet),目標(biāo)是建立電商領(lǐng)域的知識(shí)體系,通過(guò)深度認(rèn)知用戶需求,實(shí)現(xiàn)電商場(chǎng)景下關(guān)聯(lián)人-貨-場(chǎng)的聯(lián)動(dòng),賦能業(yè)務(wù)方和行業(yè)。
1.3.1模塊劃分
從整體劃分上來(lái)說(shuō),認(rèn)知圖譜分為四塊比較重要的工作,通過(guò)將不同類型的concept(user,scene,virtualcategory和item)構(gòu)建為一個(gè)異構(gòu)圖,來(lái)實(shí)現(xiàn)用戶-場(chǎng)景-商品的關(guān)聯(lián):
用戶圖譜構(gòu)建用戶圖譜除了通用的用戶畫像信息(年齡、性別、購(gòu)買力),也會(huì)有“老人”,“小孩”等人群數(shù)據(jù),和用戶的品類屬性偏好數(shù)據(jù)。
1.3.2場(chǎng)景圖譜構(gòu)建
場(chǎng)景可以看做是對(duì)用戶需求的概念化,從現(xiàn)有的query和title中識(shí)別出用戶需求,泛化為一個(gè)通用的場(chǎng)景(sceneconcept),并建立諸如"戶外燒烤","度假穿搭"之類的概念是場(chǎng)景圖譜的主要工作。通過(guò)不斷細(xì)化的場(chǎng)景需求,我們將跨類目和品類,代表了一類用戶需求的概念抽象為購(gòu)物場(chǎng)景(sc)。
挖掘了概念相當(dāng)于我們得到了圖上的節(jié)點(diǎn),在概念挖掘之上,我們又著手建立概念與類目和品類,概念和概念之間的關(guān)系,相當(dāng)于建立了圖上的有向邊,并計(jì)算邊的強(qiáng)度,具體流程如下:
截止目前,我們已經(jīng)產(chǎn)出10w+概念和10倍的品類類目關(guān)聯(lián)。
1.3.3品類細(xì)化
品類細(xì)化的來(lái)源是由于目前的類目體系會(huì)過(guò)粗或者過(guò)細(xì),從構(gòu)建上包括兩個(gè)層面:
品類聚合:比如"連衣裙“從認(rèn)知層面上來(lái)說(shuō)都是一個(gè)品類,但是由于分行業(yè)管理的原因會(huì)同時(shí)存在"女裝”,"男裝"和"童裝"等不同類目中,這時(shí)候就會(huì)存在于兩個(gè)一級(jí)類目下,所以就需要有一個(gè)偏常識(shí)的體系來(lái)維護(hù)對(duì)真正"連衣裙"的認(rèn)知。
品類拆分:品類細(xì)化是源于我們發(fā)現(xiàn)現(xiàn)有的類目體系不足以聚合一類用戶需求,比如有一個(gè)“西藏旅游”的場(chǎng)景,在“紗巾”類目下我們需要更多的細(xì)節(jié),這時(shí)候就需要一個(gè)叫做“防風(fēng)紗巾"的虛擬類目。這個(gè)過(guò)程同樣是存在entity/conceptextraction和relationclassification的,當(dāng)前我們主要針對(duì)類目和品類品類上下位建立關(guān)系。
截止目前,我們已經(jīng)有融合了cpv類目樹,品類類目關(guān)聯(lián),和外網(wǎng)數(shù)據(jù)的pair對(duì)68.9w+對(duì)。
1.3.4商品圖譜構(gòu)建
短語(yǔ)挖掘:商品圖譜端我們需要的是做更多的商品屬性認(rèn)知,我們知道,完善的cpv體系的前提是phrase的認(rèn)知,針對(duì)此我們建立了一個(gè)bootstrap框架下的cpv挖掘閉環(huán),目標(biāo)是能夠長(zhǎng)期有效積累cpv數(shù)據(jù),擴(kuò)大query和商品的認(rèn)知(這也是商品打標(biāo)的數(shù)據(jù)來(lái)源之一)。
舉例來(lái)說(shuō):
截止至目前,我們已經(jīng)完成了pvtop70的類目審核,增加了12W+的cpv對(duì),term能夠全量被識(shí)別的query占比已經(jīng)從30%提升到60%(由于目前采用中粒度分詞進(jìn)行挖掘,前期分析70%已經(jīng)是極限,后續(xù)會(huì)在增加phrasemining流程后持續(xù)擴(kuò)大挖掘覆蓋),目前數(shù)據(jù)已經(jīng)作為類目預(yù)測(cè),智能交互的基礎(chǔ)數(shù)據(jù)每日產(chǎn)出。
商品打標(biāo):商品打標(biāo)是我們得以將知識(shí)和商品建立關(guān)聯(lián)的關(guān)鍵技術(shù),上述三點(diǎn)產(chǎn)生的數(shù)據(jù)***都會(huì)通過(guò)打標(biāo)建立與item的聯(lián)系,在商品打標(biāo)完成后我們就可以實(shí)現(xiàn)從query到商品的整個(gè)語(yǔ)義認(rèn)知閉環(huán)。
預(yù)計(jì)到三月底我們可以實(shí)現(xiàn)***版的商品打標(biāo)。
2、知識(shí)體系
在知識(shí)構(gòu)建的過(guò)程中,我們漸漸發(fā)現(xiàn)需要一套全局統(tǒng)一的schema表示體系,于是我們調(diào)研了wordnet和conceptnet的體系構(gòu)建歷程,逐漸形成了自己的一套概念表示體系,也就是現(xiàn)有的認(rèn)知圖譜的核心(E-commerceConceptNet),它的目標(biāo)是從語(yǔ)義層面去理解電商領(lǐng)域的用戶需求并將其概念化(conceptulization),映射到一個(gè)語(yǔ)義本體(ontology),通過(guò)詞匯層面的關(guān)系逐漸把本體之間的關(guān)系形式化(specific),通過(guò)本體之間的層級(jí)去表示概念之間的層級(jí),通過(guò)概念之間的關(guān)系去抽象實(shí)體類別和關(guān)系。
從數(shù)據(jù)層面上來(lái)看,我們要描述一個(gè)事物(entity),首先需要把它定義為一種類別(instance-of-class)的實(shí)例,這種類別通常又可以通過(guò)一個(gè)概念(concept)來(lái)表示,不同的概念會(huì)有自己不同的屬性(proeprty),一類概念的具有的屬性集合可以稱為概念的schema,有同一類schema的概念一般會(huì)屬于不同的領(lǐng)域(domain),領(lǐng)域內(nèi)有自己的語(yǔ)義本體(ontoloty),通過(guò)本體的層次(比如“英國(guó)"-is-part-of-”英國(guó)"),我們可以形式化概念的層級(jí)和表示。那么由細(xì)到粗的,我們定義了一套電商概念體系的表示方法,通過(guò)不斷細(xì)化ontology和concept,以及他們之間的關(guān)系,來(lái)關(guān)聯(lián)起用戶和商品,甚至外部的實(shí)體。
3、技術(shù)框架
3.1平臺(tái)模塊
總體來(lái)說(shuō),我們是以一個(gè)數(shù)據(jù)服務(wù)中臺(tái)支撐起上面的圖引擎,再通過(guò)阡陌數(shù)據(jù)管理平臺(tái),和圖靈業(yè)務(wù)對(duì)接平臺(tái)來(lái)實(shí)現(xiàn)知識(shí)的生產(chǎn)和使用的。
3.2模塊細(xì)節(jié)
阡陌:數(shù)據(jù)標(biāo)注和展示
阡陌作為電商知識(shí)圖譜的基本平臺(tái),目前集成了所有知識(shí)標(biāo)注和審核流程,并且提供了數(shù)據(jù)查詢和可視化,后期算法的概念挖掘服務(wù)和商品打標(biāo)服務(wù)也會(huì)通過(guò)阡陌對(duì)外提供。
- 數(shù)據(jù)審核在不斷試錯(cuò)過(guò)程中我們已經(jīng)建立了一套比較完善的從初審到終審的流程,具體見阡陌審核工具。
- 可視化:除了審核平臺(tái),阡陌還提供了更加具體的數(shù)據(jù)可視化形式,通過(guò)良好的交互方便查詢知識(shí)阡陌可視化
3.3圖靈:業(yè)務(wù)全選和投放
由于目前我們的知識(shí)大部分以卡片形式提供,圖靈提供了一整套經(jīng)由云主題透出的業(yè)務(wù)服務(wù)工具:
概念選擇:
用戶可以通過(guò)全選自己的主題進(jìn)行分渠道投放
3.4圖引擎:數(shù)據(jù)存儲(chǔ)和查詢
從存儲(chǔ)介質(zhì)來(lái)說(shuō),我們使用mysql進(jìn)行靈活標(biāo)注,圖數(shù)據(jù)庫(kù)進(jìn)行全量查詢,odps做持久化數(shù)據(jù)版本管理。
在數(shù)據(jù)錄入到igraph和biggraph之前會(huì)被拆分為點(diǎn)表和邊表導(dǎo)入,在線通過(guò)gremlin進(jìn)行查詢。
在圖數(shù)據(jù)庫(kù)上層我們封裝了一個(gè)圖引擎模塊,提供不同trigger的場(chǎng)景和商品多路多跳召回功能。目前提供user,item_list和query召回,已經(jīng)在喵小秘使用,并且和搜索發(fā)現(xiàn)進(jìn)行聯(lián)調(diào)中,可以使用查詢接口進(jìn)行查詢和測(cè)試。
3.5技術(shù)落地
云主題(認(rèn)知圖譜)目前在云主題已經(jīng)通過(guò)知識(shí)卡片的形式上線近1w個(gè)場(chǎng)景,比較首猜商品來(lái)說(shuō),點(diǎn)擊和發(fā)散性較商品均有大幅提升,現(xiàn)在正在做數(shù)據(jù)發(fā)散性的探索。
錦囊(全量)/底紋(bts)
搜索
穹頂
四、后期規(guī)劃
目前認(rèn)知圖譜剛剛發(fā)展近一年,還有很多工作需要細(xì)化,后續(xù)的工作重點(diǎn)會(huì)放在:
關(guān)系挖掘和本體構(gòu)建
通過(guò)文本增強(qiáng)圖譜和外部數(shù)據(jù)的關(guān)聯(lián)
常識(shí)類推理規(guī)則的挖掘
圖推理的符號(hào)邏輯表示
【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】